Eroare de generalizare - Generalization error
Pentru aplicațiile de învățare supravegheate în învățarea automată și teoria învățării statistice , eroarea de generalizare (cunoscută și sub numele de eroare din eșantion sau risc ) este o măsură a cât de precis este un algoritm capabil să prezică valorile rezultatelor pentru datele nevăzute anterior. Deoarece algoritmii de învățare sunt evaluați pe eșantioane finite, evaluarea unui algoritm de învățare poate fi sensibilă la eroarea de eșantionare . Ca rezultat, măsurătorile erorii de predicție pe datele actuale pot să nu furnizeze prea multe informații despre capacitatea de predicție a datelor noi. Eroarea de generalizare poate fi redusă la minimum evitând supraadaptarea în algoritmul de învățare. Performanța unui algoritm de învățare automată este vizualizată de grafice care prezintă valori ale estimărilor erorii de generalizare prin procesul de învățare, care se numesc curbe de învățare .
Definiție
Într-o problemă de învățare, scopul este de a dezvolta o funcție care prezice valorile de ieșire pentru fiecare datum de intrare . Indicele indică faptul că funcția este dezvoltată pe baza unui set de date de puncte de date. Eroarea generalizare sau pierderea așteptată sau riscul , unei anumite funcții pe toate valorile posibile ale și este:
unde denotă o funcție de pierdere și este distribuția necunoscută a probabilității comune pentru și .
Fără a cunoaște distribuția comună a probabilității , este imposibil de calculat . În schimb, putem calcula eroarea pe datele eșantionului, care se numește eroare empirică (sau risc empiric ). Având în vedere punctele de date, eroarea empirică a unei funcții candidate este:
Se spune că un algoritm generalizează dacă:
O importanță deosebită este eroarea de generalizare a funcției dependente de date care este găsită de un algoritm de învățare bazat pe eșantion. Din nou, pentru o distribuție de probabilitate necunoscută, nu se poate calcula. În schimb, scopul multor probleme din teoria învățării statistice este de a lega sau de a caracteriza diferența erorii de generalizare și a erorii empirice de probabilitate:
Adică, scopul este de a caracteriza probabilitatea ca eroarea de generalizare să fie mai mică decât eroarea empirică plus o anumită eroare legată (în general dependentă de și ). Pentru multe tipuri de algoritmi, s-a demonstrat că un algoritm are limite de generalizare dacă îndeplinește anumite criterii de stabilitate . Mai exact, dacă un algoritm este simetric (ordinea intrărilor nu afectează rezultatul), are o pierdere mărginită și îndeplinește două condiții de stabilitate, se va generaliza. Prima condiție de stabilitate, concediu one-out cross-validare a stabilității, spune că pentru a fi stabil, eroarea de predicție pentru fiecare punct de date atunci când validarea încrucișată iasă dintr - unul-out este folosit trebuie să conveargă la zero . Cea de-a doua condiție, stabilitatea erorii așteptate de a părăsi o singură ieșire (cunoscută și sub numele de stabilitate de ipoteză dacă funcționează în normă ) este îndeplinită dacă predicția pentru un punct de date rămas nu se modifică atunci când un singur punct de date este eliminat din set de date de antrenament.
Aceste condiții pot fi formalizate ca:
Stabiliți stabilitatea de validare încrucișată
Un algoritm are stabilitate dacă pentru fiecare , există un și astfel încât:
și și du-te la zero așa cum merge la infinit.
Așteptat-lăsați-o singură eroare Stabilitate
Un algoritm are stabilitate dacă pentru fiecare există un și un astfel încât:
cu și mergând la zero pentru .
Pentru stabilitatea de tip „out-one-out” , aceasta este aceeași cu stabilitatea ipotezei:
cu mersul la zero ca și la infinit.
Algoritmi cu stabilitate dovedită
Un număr de algoritmi s-a dovedit a fi stabil și, ca urmare, au limite asupra erorii lor de generalizare. O listă a acestor algoritmi și a lucrărilor care au dovedit stabilitate este disponibilă aici .
Relația cu supra-dotarea
Conceptele de eroare de generalizare și supraadaptare sunt strâns legate. Suprapunerea apare atunci când funcția învățată devine sensibilă la zgomotul din eșantion. Ca rezultat, funcția va funcționa bine pe setul de antrenament, dar nu va funcționa bine pe alte date din distribuția comună a probabilității și . Astfel, cu cât are loc o supraadaptare mai mare, cu atât este mai mare eroarea de generalizare.
Cantitatea de supra-montare poate fi testată folosind metode de validare încrucișată , care împart eșantionul în probe de antrenament simulate și probe de testare. Modelul este apoi instruit pe un eșantion de instruire și evaluat pe eșantionul de testare. Eșantionul de testare este nevăzut anterior de algoritm și reprezintă un eșantion aleatoriu din distribuția comună a probabilității și . Acest eșantion de test ne permite să aproximăm eroarea așteptată și, ca rezultat, să aproximăm o anumită formă a erorii de generalizare.
Există mulți algoritmi pentru a preveni supraadaptarea. Algoritmul de minimizare poate penaliza funcții mai complexe (cunoscute sub numele de regularizare Tikhonov ), sau spațiul ipotezei poate fi limitat, fie în mod explicit sub forma funcțiilor, fie prin adăugarea de constrângeri la funcția de minimizare (regularizarea Ivanov).
Abordarea de a găsi o funcție care nu se potrivește este în contradicție cu scopul de a găsi o funcție suficient de complexă pentru a surprinde caracteristicile particulare ale datelor. Aceasta este cunoscută sub denumirea de compromis-variație . Menținerea unei funcții simple pentru a evita supraadaptarea poate introduce o prejudecată în predicțiile rezultate, permițând în același timp o mai complexă, duce la depășirea și la o varianță mai mare a predicțiilor. Este imposibil să le minimizăm pe ambele simultan.
Referințe
Lecturi suplimentare
- Bousquet, O., S. Boucheron și G. Lugosi. Introducere în teoria învățării statistice . Prelegeri avansate despre învățarea automată Note de prelegere în inteligență artificială 3176, 169-207. (Eds.) Bousquet, O., U. von Luxburg și G. Ratsch, Springer, Heidelberg, Germania (2004)
- Bousquet, O. și A. Elisseef (2002), Stabilitate și generalizare, Journal of Machine Learning Research, 499-526.
- Devroye L., L. Gyorfi și G. Lugosi (1996). O teorie probabilistică a recunoașterii tiparelor. Springer-Verlag. ISBN 978-0387946184 .
- Poggio T. și S. Smale. Matematica învățării: tratarea datelor . Notificări ale AMS, 2003
- Vapnik, V. (2000). Natura teoriei învățării statistice. Știința informației și statisticile. Springer-Verlag. ISBN 978-0-387-98780-4 .
- Bishop, CM (1995), Rețele neuronale pentru recunoașterea modelelor , Oxford: Oxford University Press, în special secțiunea 6.4.
- Finke, M. și Müller, K.-R. (1994), „ Estimarea a-posteriori a probabilităților folosind modele de rețea stocastice ”, în Mozer, Smolensky, Touretzky, Elman și Weigend, eds., Proceedings of the 1993 Connectionist Models Summer School , Hillsdale, NJ: Lawrence Erlbaum Associates, pp. 324–331.
- Geman, S., Bienenstock, E. și Doursat, R. (1992), „ Rețelele neuronale și dilema Bias / Variance ”, Neural Computation , 4, 1-58.
- Husmeier, D. (1999), Rețele neuronale pentru estimarea probabilității condiționate: prognozarea dincolo de previziuni punctuale , Berlin: Springer Verlag, ISBN 1-85233-095-3 .
- McCullagh, P. și Nelder, JA (1989) Generalized Linear Models , ediția a II-a, Londra: Chapman & Hall.
- Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning , ediția a doua, Boston: MIT Press.
- Moody, JE (1992), „ Numărul efectiv de parametri: o analiză a generalizării și regularizării în sistemele de învățare neliniare ”, în Moody, JE, Hanson, SJ și Lippmann, RP, Progrese în sistemele de procesare a informațiilor neuronale 4, 847- 854.
- Ripley, BD (1996) Pattern Recognition and Neural Networks , Cambridge: Cambridge University Press.
- Rohwer, R. și van der Rest, JC (1996), " Lungimea descrierii minime, regularizarea și datele multimodale ", Neural Computation , 8, 595-609.
- Rojas, R. (1996), „ O scurtă dovadă a proprietății probabilității posterioare a rețelelor neuronale de clasificare ”, Neural Computation , 8, 41-43.
- White, H. (1990), „ Regresie nonparametrică conexionistă: rețelele multistrat avansate pot învăța mapări arbitrare ” , Rețele neuronale , 3, 535-550. Reeditat în alb (1992).
- White, H. (1992a), " Estimarea nonparametrică a cuantilelor condiționate folosind rețele neuronale ", în Page, C. și Le Page, R. (eds.), Proceedings of the 23rd Sympsium on the Interface: Computing Science and Statistics , Alexandria , VA: American Statistical Association, pp. 190-199. Reeditat în alb (1992b).
- White, H. (1992b), Rețele neuronale artificiale: aproximare și teorie a învățării , Blackwell.