Generaliseringsfel - Generalization error

För övervakade inlärnings applikationer i maskininlärning och statistisk inlärningsteori , generalisering fel (även känd som out-of-sample fel eller risk ) är ett mått på hur exakt en algoritm kan förutsäga utfallsvärden för tidigare osedda data. Eftersom inlärningsalgoritmer utvärderas på ändliga prover kan utvärderingen av en inlärningsalgoritm vara känslig för samplingsfel . Som ett resultat kan det hända att mätningar av förutsägelsesfel på aktuell data inte ger mycket information om förutsägbar förmåga på nya data. Generaliseringsfel kan minimeras genom att undvika överanpassning i inlärningsalgoritmen. Utförandet av en maskininlärningsalgoritm visualiseras genom tomter som visar värden på uppskattningar av generalisering felet genom inlärningsprocessen, vilka kallas inlärningskurvor .

Definition

I ett inlärningsproblem är målet att utveckla en funktion som förutsäger utgångsvärden för varje ingångsdatum . Prenumerationen indikerar att funktionen är utvecklad baserat på en datauppsättning med datapunkter. Den generalisering fel eller förväntad förlust eller risk , för en viss funktion över alla möjliga värden av och är:

där betecknar en förlustfunktion och är den okända gemensamma sannolikhetsfördelningen för och .

Utan att känna till den gemensamma sannolikhetsfördelningen är det omöjligt att beräkna . Istället kan vi beräkna felet på exempeldata, som kallas empiriskt fel (eller empirisk risk ). Med tanke på datapunkter är det empiriska felet för en kandidatfunktion :

En algoritm sägs generalisera om:

Av särskild betydelse är generaliseringsfelet för den databeroende funktionen som hittas av en inlärningsalgoritm baserad på urvalet. Återigen, för en okänd sannolikhetsfördelning, kan inte beräknas. Istället är syftet med många problem i statistisk inlärningsteori att binda eller karakterisera skillnaden mellan generaliseringsfelet och det empiriska felet i sannolikhet:

Det vill säga målet är att karakterisera sannolikheten för att generaliseringsfelet är mindre än det empiriska felet plus något felbundet (i allmänhet beroende av och ). För många typer av algoritmer har det visat sig att en algoritm har generaliseringsgränser om den uppfyller vissa stabilitetskriterier . Specifikt, om en algoritm är symmetrisk (ingångsordningen påverkar inte resultatet), har begränsad förlust och uppfyller två stabilitetsvillkor, kommer den att generaliseras. Det första stabilitetsvillkoret, lämna en-ut-korsvalideringsstabilitet , säger att för att vara stabil måste förutsägelsefelet för varje datapunkt när korsvalidering för utlämning används konvergera till noll som . Det andra villkoret, förväntad-att-lämna-en-ut-felstabilitet (även känd som hypotesstabilitet om den fungerar i normen ) är uppfylld om förutsägelsen på en utelämnad datapunkt inte ändras när en enda datapunkt tas bort från utbildningsdataset.

Dessa villkor kan formaliseras som:

Lämna en enstaka korsvalideringsstabilitet

En algoritm har stabilitet om det för varje finns en och sådan att:

och och gå till noll som går till oändligheten.

Förväntat-lämna-en-ut-felstabilitet

En algoritm har stabilitet om det för varje finns en och en sådan att:

med och går till noll för .

För utelämningsstabilitet i normen är detta detsamma som hypotesstabilitet:

med att gå till noll som går till oändligheten.

Algoritmer med beprövad stabilitet

Ett antal algoritmer har visat sig vara stabila och har som ett resultat gränser för deras generaliseringsfel. En lista över dessa algoritmer och papper som visade stabilitet finns här .

Förhållande till överanpassning

Image
Denna figur illustrerar förhållandet mellan överanpassning och generaliseringsfelet I [ f n ] - I S [ f n ]. Datapunkter genererades från förhållandet y = x med vitt brus adderat till y- värdena. I den vänstra kolumnen visas en uppsättning träningspunkter i blått. En sjunde ordningens polynomfunktion passade träningsdata. I den högra kolumnen testas funktionen på data som samplats från den underliggande gemensamma sannolikhetsfördelningen av x och y . I den översta raden passar funktionen i ett exempel på 10 datapunkter. I den nedre raden passar funktionen på ett exempel på 100 datapunkter. Som vi kan se, för små provstorlekar och komplexa funktioner är felet på träningsuppsättningen litet men felet i den underliggande fördelningen av data är stort och vi har överträffat data. Som ett resultat är generaliseringsfelet stort. När antalet provpunkter ökar konvergerar prediktionsfelet vid träning och testdata och generaliseringsfelet går till 0.

Begreppen generaliseringsfel och överanpassning är nära besläktade. Överanpassning sker när den inlärda funktionen blir känslig för bruset i provet. Som ett resultat kommer funktionen att fungera bra på träningsuppsättningen men inte fungera bra på andra data från den gemensamma sannolikhetsfördelningen av och . Ju mer överanpassning inträffar, desto större generaliseringsfel.

Mängden överanpassning kan testas med korsvalideringsmetoder , som delar provet i simulerade träningsprover och testprover. Modellen tränas sedan på ett träningsprov och utvärderas på testprovet. Testprovet är tidigare osynligt av algoritmen och representerar sålunda ett slumpmässigt urval från den gemensamma sannolikhetsfördelningen av och . Detta testprov gör det möjligt för oss att approximera det förväntade felet och som ett resultat uppskatta en viss form av generaliseringsfelet.

Många algoritmer finns för att förhindra övermontering. Minimeringsalgoritmen kan bestraffa mer komplexa funktioner (känd som Tikhonov- regularisering ), eller hypotesutrymmet kan begränsas, antingen uttryckligen i form av funktionerna eller genom att lägga till begränsningar för minimeringsfunktionen (Ivanov-reglering).

Tillvägagångssättet för att hitta en funktion som inte överträffar strider mot målet att hitta en funktion som är tillräckligt komplex för att fånga de specifika egenskaperna hos datan. Detta är känt som avvägning mellan bias och varians . Att hålla en funktion enkel för att undvika överanpassning kan införa en förspänning i de resulterande förutsägelserna, samtidigt som den blir mer komplex leder till överanpassning och en högre variation i förutsägelserna. Det är omöjligt att minimera båda samtidigt.

Referenser

Vidare läsning