Generalisatiefout - Generalization error
Voor supervised learning- toepassingen in machine learning en statistische leertheorie , is generalisatiefout (ook bekend als de out-of-sample error of het risico ) een maatstaf voor hoe nauwkeurig een algoritme uitkomstwaarden kan voorspellen voor voorheen onzichtbare gegevens. Omdat leeralgoritmen worden geëvalueerd op eindige steekproeven, kan de evaluatie van een leeralgoritme gevoelig zijn voor steekproeffouten . Als gevolg hiervan leveren metingen van voorspellingsfouten op de huidige gegevens mogelijk niet veel informatie over het voorspellend vermogen van nieuwe gegevens. Generalisatiefouten kunnen worden geminimaliseerd door overfitting in het leeralgoritme te vermijden . De prestaties van een algoritme voor machine learning worden gevisualiseerd door grafieken die waarden van schattingen van de generalisatiefout tijdens het leerproces weergeven, die leercurves worden genoemd .
Definitie
Bij een leerprobleem is het doel om een functie te ontwikkelen die outputwaarden voor elk inputdatum voorspelt . Het subscript geeft aan dat de functie is ontwikkeld op basis van een dataset van datapunten. De generalisatie fout of verwachte verlies of risico , van een bepaalde functie over alle mogelijke waarden van en is:
waarbij staat voor een verliesfunctie en is de onbekende gezamenlijke kansverdeling voor en .
Zonder de gezamenlijke kansverdeling te kennen , is het onmogelijk om te berekenen . In plaats daarvan kunnen we de fout berekenen op basis van voorbeeldgegevens, wat empirische fout (of empirisch risico ) wordt genoemd. Gegeven datapunten is de empirische fout van een kandidaatfunctie :
Er wordt gezegd dat een algoritme generaliseert als:
Van bijzonder belang is de generalisatiefout van de gegevensafhankelijke functie die wordt gevonden door een leeralgoritme op basis van de steekproef. Nogmaals, voor een onbekende kansverdeling, kan niet worden berekend. In plaats daarvan is het doel van veel problemen in de statistische leertheorie om het verschil tussen de generalisatiefout en de empirische fout in waarschijnlijkheid te beperken of te karakteriseren:
Dat wil zeggen, het doel is om de waarschijnlijkheid te karakteriseren dat de generalisatiefout kleiner is dan de empirische fout plus een zekere foutgebondenheid (in het algemeen afhankelijk van en ). Voor veel soorten algoritmen is aangetoond dat een algoritme generaliseringsgrenzen heeft als het aan bepaalde stabiliteitscriteria voldoet. Specifiek, als een algoritme symmetrisch is (de volgorde van de invoer heeft geen invloed op het resultaat), begrensd verlies heeft en voldoet aan twee stabiliteitsvoorwaarden, zal het generaliseren. De eerste stabiliteitsvoorwaarde, leave-one-out kruisvalidatie- stabiliteit, zegt dat om stabiel te zijn, de voorspellingsfout voor elk datapunt wanneer een leave-one-out kruisvalidatie wordt gebruikt, moet convergeren naar nul als . Aan de tweede voorwaarde, de verwachte foutstabiliteit (ook bekend als hypothesestabiliteit indien in de norm wordt gewerkt ) wordt voldaan als de voorspelling op een weggelaten datapunt niet verandert wanneer een enkel datapunt wordt verwijderd uit het trainingsgegevensset.
Deze voorwaarden kunnen worden geformaliseerd als:
Laat-één-uit kruisvalidatie Stabiliteit
Een algoritme heeft stabiliteit als er voor elk een en zodanig bestaat dat:
en en ga naar nul zoals naar oneindig gaat.
Verwachte-weglaat-een-out-fout Stabiliteit
Een algoritme heeft stabiliteit als er voor elk een en een bestaat zodat:
met en naar nul gaan voor .
Voor de stabiliteit in de norm is dit hetzelfde als hypothesestabiliteit:
met naar nul gaan zoals naar oneindig gaat.
Algoritmen met bewezen stabiliteit
Van een aantal algoritmen is bewezen dat ze stabiel zijn en als gevolg daarvan grenzen aan hun generalisatiefout. Een lijst van deze algoritmen en de artikelen die de stabiliteit hebben bewezen, is hier beschikbaar .
Relatie met overfitting
De begrippen generalisatiefout en overfitting zijn nauw verwant. Overfitting treedt op wanneer de aangeleerde functie gevoelig wordt voor de ruis in de sample. Als gevolg hiervan zal de functie goed presteren op de trainingsset, maar niet goed presteren op andere gegevens uit de gezamenlijke kansverdeling van en . Dus hoe meer overfitting optreedt, hoe groter de generalisatiefout.
De hoeveelheid overfitting kan worden getest met behulp kruisvalidatiestudies methodes, dat het monster in gesimuleerde trainingsmonsters en testen monsters verdeeld. Het model wordt vervolgens getraind op een trainingsmonster en geëvalueerd op het testmonster. De teststeekproef is voorheen onzichtbaar voor het algoritme en vertegenwoordigt dus een willekeurige steekproef uit de gezamenlijke kansverdeling van en . Met dit testvoorbeeld kunnen we de verwachte fout benaderen en als resultaat een bepaalde vorm van de generalisatiefout benaderen.
Er zijn veel algoritmen om overfitting te voorkomen. Het minimalisatie-algoritme kan meer complexe functies bestraffen (bekend als Tikhonov- regularisatie ), of de hypotheseruimte kan worden beperkt, hetzij expliciet in de vorm van de functies, hetzij door beperkingen toe te voegen aan de minimalisatiefunctie (Ivanov-regularisatie).
De benadering om een functie te vinden die niet overfit is, staat op gespannen voet met het doel om een functie te vinden die voldoende complex is om de specifieke kenmerken van de gegevens vast te leggen. Dit staat bekend als de afweging tussen bias en variantie . Het simpel houden van een functie om overfitting te voorkomen, kan een vertekening in de resulterende voorspellingen introduceren, terwijl het ingewikkelder maken van een functie leidt tot overfitting en een grotere variantie in de voorspellingen. Het is onmogelijk om beide tegelijk te minimaliseren.
Referenties
Verder lezen
- Bousquet, O., S. Boucheron en G. Lugosi. Inleiding tot statistische leertheorie . Advanced Lectures on Machine Learning Lecture Notes in Artificial Intelligence 3176, 169-207. (Eds.) Bousquet, O., U. von Luxburg en G. Ratsch, Springer, Heidelberg, Duitsland (2004)
- Bousquet, O. en A. Elisseef (2002), Stabiliteit en generalisatie, Journal of Machine Learning Research, 499-526.
- Devroye L., L. Gyorfi en G. Lugosi (1996). Een probabilistische theorie van patroonherkenning. Springer-Verlag. ISBN 978-0387946184 .
- Poggio T. en S. Smale. De wiskunde van leren: omgaan met gegevens . Kennisgevingen van de AMS, 2003
- Vapnik, V. (2000). De aard van statistische leertheorie. Informatiewetenschap en statistiek. Springer-Verlag. ISBN 978-0-387-98780-4 .
- Bishop, CM (1995), Neural Networks for Pattern Recognition , Oxford: Oxford University Press, in het bijzonder paragraaf 6.4.
- Finke, M., en Müller, K.-R. (1994), " Estimating a-posteriori probabilities using stochastic network models ," in Mozer, Smolensky, Touretzky, Elman, & Weigend, eds., Proceedings of the 1993 Connectionist Models Summer School , Hillsdale, NJ: Lawrence Erlbaum Associates, pp. 324-331.
- Geman, S., Bienenstock, E. en Doursat, R. (1992), " Neural Networks and the Bias / Variance Dilemma ", Neural Computation , 4, 1-58.
- Husmeier, D. (1999), Neurale netwerken voor voorwaardelijke kansschatting: Forecasting Beyond Point Predictions , Berlin: Springer Verlag, ISBN 1-85233-095-3 .
- McCullagh, P. en Nelder, JA (1989) Generalized Linear Models , 2e ed., London: Chapman & Hall.
- Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning , 2e ed., Boston: MIT Press.
- Moody, JE (1992), " The Effective Number of Parameters: An Analysis of Generalization and Regularization in Nonlinear Learning Systems ", in Moody, JE, Hanson, SJ, en Lippmann, RP, Advances in Neural Information Processing Systems 4, 847- 854.
- Ripley, BD (1996) Patroonherkenning en neurale netwerken , Cambridge: Cambridge University Press.
- Rohwer, R., en van der Rest, JC (1996), " Minimum description length, regularization, and multimodal data ", Neural Computation , 8, 595-609.
- Rojas, R. (1996), " A short proof of the posterior probability property of classifier neurale netwerken ", Neural Computation , 8, 41-43.
- White, H. (1990), " Connectionist Nonparametric Regression: Multilayer Feedforward Networks Can Learn Arbitrary Mappings ", Neural Networks , 3, 535-550. Herdrukt in White (1992).
- White, H. (1992a), " Nonparametric Estimation of Conditional Quantiles Using Neural Networks ", in Page, C. en Le Page, R. (eds.), Proceedings of the 23rd Sympsium on the Interface: Computing Science and Statistics , Alexandria , VA: American Statistical Association, blz. 190-199. Herdrukt in wit (1992b).
- White, H. (1992b), kunstmatige neurale netwerken: benadering en leertheorie , Blackwell.