Generalisatiefout - Generalization error

Voor supervised learning- toepassingen in machine learning en statistische leertheorie , is generalisatiefout (ook bekend als de out-of-sample error of het risico ) een maatstaf voor hoe nauwkeurig een algoritme uitkomstwaarden kan voorspellen voor voorheen onzichtbare gegevens. Omdat leeralgoritmen worden geëvalueerd op eindige steekproeven, kan de evaluatie van een leeralgoritme gevoelig zijn voor steekproeffouten . Als gevolg hiervan leveren metingen van voorspellingsfouten op de huidige gegevens mogelijk niet veel informatie over het voorspellend vermogen van nieuwe gegevens. Generalisatiefouten kunnen worden geminimaliseerd door overfitting in het leeralgoritme te vermijden . De prestaties van een algoritme voor machine learning worden gevisualiseerd door grafieken die waarden van schattingen van de generalisatiefout tijdens het leerproces weergeven, die leercurves worden genoemd .

Definitie

Bij een leerprobleem is het doel om een functie te ontwikkelen die outputwaarden voor elk inputdatum voorspelt . Het subscript geeft aan dat de functie is ontwikkeld op basis van een dataset van datapunten. De generalisatie fout of verwachte verlies of risico , van een bepaalde functie over alle mogelijke waarden van en is: ${\ displaystyle f_ {n} ({\ vec {x}})}$ ${\ displaystyle y}$ ${\ displaystyle {\ vec {x}}}$ ${\ displaystyle n}$ ${\ displaystyle f_ {n}}$ ${\ displaystyle n}$ ${\ displaystyle I [f]}$ ${\ displaystyle f}$ ${\ displaystyle {\ vec {x}}}$ ${\ displaystyle y}$

{\ displaystyle I [f] = \ int _ {X \ maal Y} V (f ({\ vec {x}}), y) \ rho ({\ vec {x}}, y) d {\ vec { x}} dy,}

waarbij staat voor een verliesfunctie en is de onbekende gezamenlijke kansverdeling voor en . ${\ displaystyle V}$ ${\ displaystyle \ rho ({\ vec {x}}, y)}$ ${\ displaystyle {\ vec {x}}}$ ${\ displaystyle y}$

Zonder de gezamenlijke kansverdeling te kennen , is het onmogelijk om te berekenen . In plaats daarvan kunnen we de fout berekenen op basis van voorbeeldgegevens, wat empirische fout (of empirisch risico ) wordt genoemd. Gegeven datapunten is de empirische fout van een kandidaatfunctie : ${\ displaystyle \ rho}$ ${\ displaystyle I [f]}$ ${\ displaystyle n}$ ${\ displaystyle f}$

{\ displaystyle I_ {n} [f] = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} V (f ({\ vec {x}} _ {i}), y_ {i})}

Er wordt gezegd dat een algoritme generaliseert als:

{\ displaystyle \ lim _ {n \ rightarrow \ infty} I [f] -I_ {n} [f] = 0}

Van bijzonder belang is de generalisatiefout van de gegevensafhankelijke functie die wordt gevonden door een leeralgoritme op basis van de steekproef. Nogmaals, voor een onbekende kansverdeling, kan niet worden berekend. In plaats daarvan is het doel van veel problemen in de statistische leertheorie om het verschil tussen de generalisatiefout en de empirische fout in waarschijnlijkheid te beperken of te karakteriseren: ${\ displaystyle I [f_ {n}]}$ ${\ displaystyle f_ {n}}$ ${\ displaystyle I [f_ {n}]}$

{\ displaystyle P_ {G} = P (I [f_ {n}] - I_ {n} [f_ {n}] \ leq \ epsilon) \ geq 1- \ delta _ {n}}

Dat wil zeggen, het doel is om de waarschijnlijkheid te karakteriseren dat de generalisatiefout kleiner is dan de empirische fout plus een zekere foutgebondenheid (in het algemeen afhankelijk van en ). Voor veel soorten algoritmen is aangetoond dat een algoritme generaliseringsgrenzen heeft als het aan bepaalde stabiliteitscriteria voldoet. Specifiek, als een algoritme symmetrisch is (de volgorde van de invoer heeft geen invloed op het resultaat), begrensd verlies heeft en voldoet aan twee stabiliteitsvoorwaarden, zal het generaliseren. De eerste stabiliteitsvoorwaarde, leave-one-out kruisvalidatie- stabiliteit, zegt dat om stabiel te zijn, de voorspellingsfout voor elk datapunt wanneer een leave-one-out kruisvalidatie wordt gebruikt, moet convergeren naar nul als . Aan de tweede voorwaarde, de verwachte foutstabiliteit (ook bekend als hypothesestabiliteit indien in de norm wordt gewerkt ) wordt voldaan als de voorspelling op een weggelaten datapunt niet verandert wanneer een enkel datapunt wordt verwijderd uit het trainingsgegevensset. ${\ displaystyle 1- \ delta _ {n}}$ ${\ displaystyle \ epsilon}$ ${\ displaystyle \ delta}$ ${\ displaystyle n}$ ${\ displaystyle n \ rightarrow \ infty}$ ${\ displaystyle L_ {1}}$

Deze voorwaarden kunnen worden geformaliseerd als:

Laat-één-uit kruisvalidatie Stabiliteit

Een algoritme heeft stabiliteit als er voor elk een en zodanig bestaat dat: ${\ displaystyle L}$ ${\ displaystyle CVloo}$ ${\ displaystyle n}$ ${\ displaystyle \ beta _ {CV} ^ {(n)}}$ ${\ displaystyle \ delta _ {CV} ^ {(n)}}$

{\ displaystyle \ forall i \ in \ {1, ..., n \}, \ mathbb {P} _ {S} \ {| V (f_ {S ^ {i}}, z_ {i}) - V (f_ {S}, z_ {i}) | \ leq \ beta _ {CV} ^ {(n)} \} \ geq 1- \ delta _ {CV} ^ {(n)}}

en en ga naar nul zoals naar oneindig gaat. ${\ displaystyle \ beta _ {CV} ^ {(n)}}$ ${\ displaystyle \ delta _ {CV} ^ {(n)}}$ ${\ displaystyle n}$

Verwachte-weglaat-een-out-fout Stabiliteit

Een algoritme heeft stabiliteit als er voor elk een en een bestaat zodat: ${\ displaystyle L}$ ${\ displaystyle Eloo_ {err}}$ ${\ displaystyle n}$ ${\ displaystyle \ beta _ {EL} ^ {m}}$ ${\ displaystyle \ delta _ {EL} ^ {m}}$

{\ displaystyle \ forall i \ in \ {1, ..., n \}, \ mathbb {P} _ {S} \ left \ {\ left | I [f_ {S}] - {\ frac {1} {n}} \ som _ {i = 1} ^ {N} V \ left (f_ {S ^ {i}}, z_ {i} \ right) \ right | \ leq \ beta _ {EL} ^ {( n)} \ right \} \ geq 1- \ delta _ {EL} ^ {(n)}}

met en naar nul gaan voor . ${\ displaystyle \ beta _ {EL} ^ {(n)}}$ ${\ displaystyle \ delta _ {EL} ^ {(n)}}$ ${\ displaystyle n \ rightarrow \ infty}$

Voor de stabiliteit in de norm is dit hetzelfde als hypothesestabiliteit: ${\ displaystyle L_ {1}}$

{\ displaystyle \ mathbb {E} _ {S, z} [| V (f_ {S}, z) -V (f_ {S ^ {i}}, z) |] \ leq \ beta _ {H} ^ {(n)}}

met naar nul gaan zoals naar oneindig gaat. ${\ displaystyle \ beta _ {H} ^ {(n)}}$ ${\ displaystyle n}$

Algoritmen met bewezen stabiliteit

Van een aantal algoritmen is bewezen dat ze stabiel zijn en als gevolg daarvan grenzen aan hun generalisatiefout. Een lijst van deze algoritmen en de artikelen die de stabiliteit hebben bewezen, is hier beschikbaar .

Relatie met overfitting

Deze figuur illustreert de relatie tussen overfitting en de generalisatiefout I [ f _n ] - I _S [ f _n ]. Gegevenspunten werden gegenereerd uit de relatie y = x met witte ruis toegevoegd aan de y- waarden. In de linkerkolom wordt een set trainingspunten in blauw weergegeven. Een polynoomfunctie van de zevende orde was geschikt voor de trainingsgegevens. In de rechterkolom wordt de functie getest op gegevens die zijn bemonsterd uit de onderliggende gezamenlijke kansverdeling van x en y . In de bovenste rij past de functie op een voorbeelddataset van 10 datapunten. In de onderste rij past de functie op een voorbeelddataset van 100 datapunten. Zoals we kunnen zien, voor kleine steekproeven en complexe functies, is de fout op de trainingsset klein, maar de fout op de onderliggende gegevensdistributie is groot en we hebben de gegevens te goed aangepast. Als resultaat is de generalisatiefout groot. Naarmate het aantal monsterpunten toeneemt, convergeert de voorspellingsfout op training- en testgegevens en gaat de generalisatiefout naar 0.

De begrippen generalisatiefout en overfitting zijn nauw verwant. Overfitting treedt op wanneer de aangeleerde functie gevoelig wordt voor de ruis in de sample. Als gevolg hiervan zal de functie goed presteren op de trainingsset, maar niet goed presteren op andere gegevens uit de gezamenlijke kansverdeling van en . Dus hoe meer overfitting optreedt, hoe groter de generalisatiefout. ${\ displaystyle f_ {S}}$ ${\ displaystyle x}$ ${\ displaystyle y}$

De hoeveelheid overfitting kan worden getest met behulp kruisvalidatiestudies methodes, dat het monster in gesimuleerde trainingsmonsters en testen monsters verdeeld. Het model wordt vervolgens getraind op een trainingsmonster en geëvalueerd op het testmonster. De teststeekproef is voorheen onzichtbaar voor het algoritme en vertegenwoordigt dus een willekeurige steekproef uit de gezamenlijke kansverdeling van en . Met dit testvoorbeeld kunnen we de verwachte fout benaderen en als resultaat een bepaalde vorm van de generalisatiefout benaderen. ${\ displaystyle x}$ ${\ displaystyle y}$

Er zijn veel algoritmen om overfitting te voorkomen. Het minimalisatie-algoritme kan meer complexe functies bestraffen (bekend als Tikhonov- regularisatie ), of de hypotheseruimte kan worden beperkt, hetzij expliciet in de vorm van de functies, hetzij door beperkingen toe te voegen aan de minimalisatiefunctie (Ivanov-regularisatie).

De benadering om een functie te vinden die niet overfit is, staat op gespannen voet met het doel om een functie te vinden die voldoende complex is om de specifieke kenmerken van de gegevens vast te leggen. Dit staat bekend als de afweging tussen bias en variantie . Het simpel houden van een functie om overfitting te voorkomen, kan een vertekening in de resulterende voorspellingen introduceren, terwijl het ingewikkelder maken van een functie leidt tot overfitting en een grotere variantie in de voorspellingen. Het is onmogelijk om beide tegelijk te minimaliseren.

Referenties

Verder lezen

Bousquet, O., S. Boucheron en G. Lugosi. Inleiding tot statistische leertheorie . Advanced Lectures on Machine Learning Lecture Notes in Artificial Intelligence 3176, 169-207. (Eds.) Bousquet, O., U. von Luxburg en G. Ratsch, Springer, Heidelberg, Duitsland (2004)
Bousquet, O. en A. Elisseef (2002), Stabiliteit en generalisatie, Journal of Machine Learning Research, 499-526.
Devroye L., L. Gyorfi en G. Lugosi (1996). Een probabilistische theorie van patroonherkenning. Springer-Verlag. ISBN 978-0387946184 .
Poggio T. en S. Smale. De wiskunde van leren: omgaan met gegevens . Kennisgevingen van de AMS, 2003
Vapnik, V. (2000). De aard van statistische leertheorie. Informatiewetenschap en statistiek. Springer-Verlag. ISBN 978-0-387-98780-4 .
Bishop, CM (1995), Neural Networks for Pattern Recognition , Oxford: Oxford University Press, in het bijzonder paragraaf 6.4.
Finke, M., en Müller, K.-R. (1994), " Estimating a-posteriori probabilities using stochastic network models ," in Mozer, Smolensky, Touretzky, Elman, & Weigend, eds., Proceedings of the 1993 Connectionist Models Summer School , Hillsdale, NJ: Lawrence Erlbaum Associates, pp. 324-331.
Geman, S., Bienenstock, E. en Doursat, R. (1992), " Neural Networks and the Bias / Variance Dilemma ", Neural Computation , 4, 1-58.
Husmeier, D. (1999), Neurale netwerken voor voorwaardelijke kansschatting: Forecasting Beyond Point Predictions , Berlin: Springer Verlag, ISBN 1-85233-095-3 .
McCullagh, P. en Nelder, JA (1989) Generalized Linear Models , 2e ed., London: Chapman & Hall.
Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning , 2e ed., Boston: MIT Press.
Moody, JE (1992), " The Effective Number of Parameters: An Analysis of Generalization and Regularization in Nonlinear Learning Systems ", in Moody, JE, Hanson, SJ, en Lippmann, RP, Advances in Neural Information Processing Systems 4, 847- 854.
Ripley, BD (1996) Patroonherkenning en neurale netwerken , Cambridge: Cambridge University Press.
Rohwer, R., en van der Rest, JC (1996), " Minimum description length, regularization, and multimodal data ", Neural Computation , 8, 595-609.
Rojas, R. (1996), " A short proof of the posterior probability property of classifier neurale netwerken ", Neural Computation , 8, 41-43.
White, H. (1990), " Connectionist Nonparametric Regression: Multilayer Feedforward Networks Can Learn Arbitrary Mappings ", Neural Networks , 3, 535-550. Herdrukt in White (1992).
White, H. (1992a), " Nonparametric Estimation of Conditional Quantiles Using Neural Networks ", in Page, C. en Le Page, R. (eds.), Proceedings of the 23rd Sympsium on the Interface: Computing Science and Statistics , Alexandria , VA: American Statistical Association, blz. 190-199. Herdrukt in wit (1992b).
White, H. (1992b), kunstmatige neurale netwerken: benadering en leertheorie , Blackwell.

Languages

In other projects