Modellválasztás - Model selection
A modell kiválasztása az a feladat, hogy statisztikai modellt válasszon ki a jelölt modellekből, adott adatokból. A legegyszerűbb esetekben egy már létező adatsort veszünk figyelembe. A feladat azonban magában foglalhatja olyan kísérletek tervezését is , hogy az összegyűjtött adatok jól illeszkedjenek a modellválasztás problémájához. A hasonló prediktív vagy magyarázó erejű jelöltmodellek mellett valószínűleg a legegyszerűbb modell a legjobb választás ( Occam borotvája ).
Konishi & Kitagawa (2008 , 75. o.) Kijelentik: "A statisztikai következtetések problémáinak többsége a statisztikai modellezéssel kapcsolatos problémáknak tekinthető". Ehhez kapcsolódóan Cox (2006 , 197. o.) Azt mondta: "Az elemzés legkritikusabb része gyakran az, ahogyan a tárgyi problémáról a statisztikai modellre fordítják".
A modellválasztás utalhat arra a problémára is, hogy a reprezentatív modelleket nagy számítási modellekből kell kiválasztani a döntéshozatal vagy az optimalizálás céljából a bizonytalanság alatt.
Bevezetés
A modellválasztás a legalapvetőbb formáiban a tudományos kutatás egyik alapvető feladata . A megfigyelések sorozatát megmagyarázó elv meghatározása gyakran közvetlenül kapcsolódik egy ezeket a megfigyeléseket megjósló matematikai modellhez. Például, amikor Galileo elvégezte ferde sík kísérleteit, bebizonyította, hogy a golyók mozgása illeszkedik a modellje által megjósolt parabolához.
A számtalan lehetséges mechanizmus és folyamat közül, amelyek előállíthatták az adatokat, hogyan is lehetne elkezdeni kiválasztani a legjobb modellt? A matematikai megközelítés általánosan alkalmazott jelöltmodellek között dönt; ezt a készletet a kutatónak kell megválasztania. Gyakran egyszerű modelleket, például polinomokat használnak, legalábbis kezdetben. Burnham & Anderson (2002) könyvükben hangsúlyozzák a megalapozott tudományos elveken alapuló modellek kiválasztásának fontosságát, például az adatok mögött álló fenomenológiai folyamatok vagy mechanizmusok (pl. Kémiai reakciók) megértését.
Miután kiválasztották a jelölt modellek halmazát, a statisztikai elemzés lehetővé teszi számunkra, hogy kiválasszuk ezek közül a legjobbakat. Ami a legjobbat jelenti, ellentmondásos. A jó modellválasztási technika egyensúlyba hozza az illeszkedés jóságát az egyszerűséggel. A bonyolultabb modellek jobban képesek alakjukat úgy alakítani, hogy illeszkedjenek az adatokhoz (például egy ötödrendű polinom pontosan elfér hat ponton), de a további paraméterek nem jelenthetnek semmi hasznosat. (Talán ez a hat pont valójában csak véletlenszerűen oszlik el egy egyenes körül.) Az illeszkedés jóságát általában a valószínűség arányának megközelítésével, vagy ennek közelítésével határozzák meg, ami khi-négyzet teszthez vezet . A bonyolultságot általában a modellben szereplő paraméterek számával mérik .
A modellválasztási technikák valamilyen fizikai mennyiség becslésének tekinthetők , például annak valószínűsége, hogy a modell előállítja az adott adatokat. A torzítás és a variancia egyaránt fontos mérőszámai ennek a becslésnek a minőségében; a hatékonyságot is gyakran figyelembe veszik.
A modellválasztás egyik standard példája a görbeillesztés , ahol egy ponthalmaz és egyéb háttérismeretek (pl. A pontok iid minták eredményeként ) meg kell választanunk egy görbét, amely leírja a pontokat létrehozó függvényt.
A modellválasztás két iránya
A következtetésnek és az adatokból való tanulásnak két fő célja van. Az egyik a tudományos felfedezés, az alapul szolgáló adat-előállító mechanizmus megértése és az adatok természetének értelmezése. Az adatokból való tanulás másik célja a jövőbeni vagy nem látott megfigyelések előrejelzése. A második célkitűzésben az adatkutató nem feltétlenül foglalkozik az adatok pontos valószínűségi leírásával. Természetesen az is érdekelheti mindkét irányt.
A két különböző célkitűzésnek megfelelően a modellválasztásnak két iránya is lehet: modellválasztás a következtetéshez és modellválasztás az előrejelzéshez. Az első irány az adatok legjobb modelljének meghatározása, amely előnyösen megbízhatóan jellemzi a bizonytalanság forrásait a tudományos értelmezéshez. E cél érdekében jelentősen fontos, hogy a kiválasztott modell ne legyen túl érzékeny a minta méretére. Ennek megfelelően a megfelelő fogalom értékelésére modell kiválasztása a kiválasztási összhang, ami azt jelenti, hogy a legtöbb robusztus pályázót következetesen kiválasztott adott kellően sok adat mintákat.
A második irány az, hogy olyan modellt válasszunk gépként, amely kiváló prediktív teljesítményt nyújt. Ez utóbbi esetében azonban a kiválasztott modell egyszerűen a szerencsés nyertes lehet néhány közeli versenytárs között, mégis a prediktív teljesítmény a lehető legjobb lehet. Ha igen, akkor a modell kiválasztása megfelel a második célnak (jóslatnak), de a kiválasztott modell használata betekintéshez és értelmezéshez súlyosan megbízhatatlan és félrevezető lehet. Sőt, az így kiválasztott nagyon összetett modellek esetében még a jóslatok is ésszerűtlenek lehetnek, ha az adatok csak kissé különböznek azoktól, amelyeken a kiválasztás történt.
Módszerek a jelöltmodellek megválasztásában
Kritériumok
Az alábbiakban felsoroljuk a modell kiválasztásának kritériumait. A leggyakrabban használt kritériumok (i) az Akaike információs kritérium és (ii) a Bayes-faktor és / vagy a Bayes-i információs kritérium (amely bizonyos mértékben közelíti a Bayes-faktort), lásd áttekintésként Stoica & Selen (2004) .
- Akaike információs kritérium (AIC), egy becsült statisztikai modell jósági illeszkedésének mértéke
- Bayes-faktor
- Bayesi információs kritérium (BIC), más néven Schwarz információs kritérium, a modell kiválasztásának statisztikai kritériuma
- Hídkritérium (BC), egy olyan statisztikai kritérium, amely a modellspecifikáció megfelelősége ellenére képes elérni az AIC és a BIC jobb teljesítményét.
- Keresztellenőrzés
- Deviacinformációs kritérium (DIC), egy másik Bayes-orientált modellválasztási kritérium
- Hamis felfedezési arány
- Összpontosított információ kritérium (FIC), egy kiválasztási kritérium, a statisztikai modellek szortírozása az adott fókuszparaméter hatékonysága szerint
- Hannan – Quinn információs kritérium , az Akaike és a Bayes kritérium alternatívája
- A Kashyap információs kritérium (KIC) hatékony alternatíva az AIC és a BIC mellett, mert a TIT Fisher információs mátrixot használ
- Valószínűség-arány teszt
- Mallows's C o
- A leírás minimális hossza
- Minimális üzenethossz (MML)
- PRESS statisztika , más néven PRESS kritérium
- Strukturális kockázatminimalizálás
- Fokozatos regresszió
- A Watanabe – Akaike információs kritérium (WAIC), amelyet széles körben alkalmazható információs kritériumnak is neveznek
- Az Extended Bayesian Information Criterion (EBIC) a szokásos Bayes-i információs kritérium (BIC) kiterjesztése a nagy paraméterű terekkel rendelkező modellek számára.
- Az Extended Fisher Information Criterion (EFIC) a lineáris regressziós modellek modellválasztási kritériuma.
Ezen kritériumok közül általában a keresztellenőrzés a legpontosabb és számítási szempontból a legdrágább a felügyelt tanulási problémák esetében.
Burnham & Anderson (2002 , 6.3. Bekezdés) a következőket mondja:
Számos modellválasztási módszer létezik. A módszer statisztikai teljesítményének és a felhasználás tervezett kontextusának szempontjából azonban csak két különálló módszercsoport létezik: Ezeket hatékonyaknak és következeteseknek nevezték el . (...) A modellválasztás gyakorisági paradigmája szerint általában három fő megközelítés van: (I) egyes kiválasztási kritériumok optimalizálása, (II) hipotézisek tesztje és (III) ad hoc módszerek.
Lásd még
- Minden modell téves
- Versenyző hipotézisek elemzése
- Automatizált gépi tanulás (AutoML)
- Elfogultság-szórás dilemma
- Funkcióválasztás
- Freedman paradoxona
- Rács keresés
- Azonosíthatóság elemzése
- Log-lineáris elemzés
- A modell azonosítása
- Occam borotvája
- Optimális kialakítás
- Paraméter azonosítási probléma
- Tudományos modellezés
- Statisztikai modell validálása
- Stein paradoxona
Megjegyzések
Hivatkozások
- AH ok.; Derryberry, D .; Peterson, T. (2014), "Modellválasztás ökológusoknak: az AIC és a BIC világnézete", Ökológia , 95 (3) : 631–636 , doi : 10.1890 / 13-1452.1 , PMID 24804445
- Akaike, H. (1994), "Az információs nézőpont következményei a statisztikai tudomány fejlődésében", Bozdogan, H. (szerk.), Az első amerikai / japán konferencia közleménye a statisztikai modellezés határain: egy információs Megközelítés - 3. kötet , Kluwer Academic Publishers , 27–38
- Anderson, DR (2008), Modellalapú következtetés az élettudományokban , Springer, ISBN 9780387740751
- Ando, T. (2010), Bayesi modellválasztás és statisztikai modellezés , CRC Press , ISBN 9781439836156
- Breiman, L. (2001), "Statisztikai modellezés: a két kultúra", Statistics Science , 16 : 199–231, doi : 10.1214 / ss / 1009213726
- Burnham, KP; Anderson, DR (2002), Modellválasztás és multimodelles következtetés: gyakorlati információelméleti megközelítés (2. kiadás), Springer-Verlag, ISBN 0-387-95364-7[ennek több mint 38000 hivatkozása van a Google Tudósban ]
- Chamberlin, TC (1890), "A többféle hipotézis módszere", Science , 15 (366): 92–6, Bibcode : 1890Sci .... 15R..92. , doi : 10.1126 / science.ns-15.366.92 , PMID 17782687(újranyomás 1965, Science 148: 754–759 [1] doi : 10.1126 / science.148.3671.754 )
- Claeskens, G. (2016), "Statisztikai modellválasztás" (PDF) , A statisztika és alkalmazásának éves áttekintése , 3 (1): 233–256, Bibcode : 2016AnRSA ... 3..233C , doi : 10.1146 / annurev -statisztika-041715-033413
- Claeskens, G.; Hjort, NL (2008), Model Selection and Model Averageaging , Cambridge University Press, ISBN 9781139471800
- Cox, DR (2006), Statisztikai következtetések alapelvei , Cambridge University Press
- Kashyap, RL (1982), "AR és MA részek optimális megválasztása az autoregresszív mozgóátlagos modellekben", IEEE tranzakciók a mintaelemzésen és a gépi intelligencián , IEEE, PAMI-4 (2): 99-104, doi : 10.1109 / TPAMI. 1982.4767213 , PMID 21869012 , S2CID 18484243
- Konishi, S .; Kitagawa, G. (2008), Információs kritériumok és statisztikai modellezés , Springer, Bibcode : 2007icsm.book ..... K , ISBN 9780387718866
- Lahiri, P. (2001), Modellválasztás , Matematikai Statisztikai Intézet
- Leeb, H .; Pötscher, BM (2009), "Model selection", Anderson, TG (szerk.), Handbook of Financial Time Series , Springer, 889–925., Doi : 10.1007 / 978-3-540-71297-8_39 , ISBN 978-3-540-71296-1
- Lukács, miniszterelnök; Thompson, WL; Kendall, WL; Gould, WR; Doherty, PF Jr .; Burnham, KP; Anderson, DR (2007), "Aggodalmak az információelmélet és a hipotézisek tesztelésének pluralizmusára való felhívás miatt", Journal of Applied Ecology , 44 (2): 456–460, doi : 10.1111 / j.1365-2664.2006.01267.x
- McQuarrie, Allan DR; Tsai, Chih-Ling (1998), Regressziós és idősoros modellválasztás , Szingapúr: World Scientific, ISBN 981-02-3242-X
- Massart, P. (2007), Koncentrációs egyenlőtlenségek és modellválasztás , Springer
- Massart, P. (2014), "Egy nem aszimptotikus séta a valószínűségben és a statisztikában" , Lin, Xihong (szerk.), Past, Present and Future of Statistics Science , Chapman & Hall , 309–321., ISBN 9781482204988
- Navarro, DJ (2019), "Az ördög és a mélykék tenger között: feszültségek a tudományos megítélés és a statisztikai modellválasztás között", Computational Brain & Behavior , 2 : 28–34, doi : 10.1007 / s42113-018-0019-z
- Resende, Paulo Angelo Alves; Dorea, Chang Chung Yu (2016), " Modellazonosítás a hatékony meghatározási kritérium használatával", Journal of Multivariate Analysis , 150 : 229–244, arXiv : 1409.7441 , doi : 10.1016 / j.jmva.2016.06.002 , S2CID 5469654
- Shmueli, G. (2010), "Megmagyarázni vagy megjósolni?" , Statistics Science , 25 (3): 289-310, arXiv : 1101.0891 , doi : 10.1214 / 10-STS330 , MR 2791669 , S2CID 15900983
- Stoica, P .; Selen, Y. (2004), "Modell-sorrend kiválasztása: az információs kritériumok áttekintése" (PDF) , IEEE jelfeldolgozó magazin , 21 (4): 36–47
- Wit, E .; van den Heuvel, E .; Romeijn, J.-W. (2012), " " Minden modell téves ... ": bevezetés a modell bizonytalanságába" (PDF) , Statistica Neerlandica , 66 (3): 217–236, doi : 10.1111 / j.1467-9574.2012.00530.x
- Wit, E .; McCullagh, P. (2001), Viana, MAG; Richards, D. St. P. (szerk.), "A statisztikai modellek kiterjeszthetősége", Algebrai módszerek a statisztikában és a valószínűségben , 327–340.
- Wójtowicz, Anna; Bigaj, Tomasz (2016), "Igazolás, megerősítés és az egymást kizáró hipotézisek problémája", Kuźniar, Adrian; Odrowąż-Sypniewska, Joanna (szerk.), Tények és értékek feltárása , Brill Publishers , 122–143. Oldal, doi : 10.1163 / 9789004312654_009 , ISBN 9789004312654
- Owrang, Arash; Jansson, Magnus (2018), "A modell kiválasztási kritériuma a nagy dimenziós lineáris regresszióhoz" , IEEE tranzakciók a jelfeldolgozáson , 66 (13): 3436–3446, Bibcode : 2018ITSP ... 66.3436O , doi : 10.1109 / TSP. 2018.2821628 , ISSN 1941-0476 , S2CID 46931136