Modellválasztás - Model selection

A modell kiválasztása az a feladat, hogy statisztikai modellt válasszon ki a jelölt modellekből, adott adatokból. A legegyszerűbb esetekben egy már létező adatsort veszünk figyelembe. A feladat azonban magában foglalhatja olyan kísérletek tervezését is , hogy az összegyűjtött adatok jól illeszkedjenek a modellválasztás problémájához. A hasonló prediktív vagy magyarázó erejű jelöltmodellek mellett valószínűleg a legegyszerűbb modell a legjobb választás ( Occam borotvája ).

Konishi & Kitagawa (2008 , 75. o.) Kijelentik: "A statisztikai következtetések problémáinak többsége a statisztikai modellezéssel kapcsolatos problémáknak tekinthető". Ehhez kapcsolódóan Cox (2006 , 197. o.) Azt mondta: "Az elemzés legkritikusabb része gyakran az, ahogyan a tárgyi problémáról a statisztikai modellre fordítják".

A modellválasztás utalhat arra a problémára is, hogy a reprezentatív modelleket nagy számítási modellekből kell kiválasztani a döntéshozatal vagy az optimalizálás céljából a bizonytalanság alatt.

Bevezetés

A tudományos megfigyelési ciklus.

A modellválasztás a legalapvetőbb formáiban a tudományos kutatás egyik alapvető feladata . A megfigyelések sorozatát megmagyarázó elv meghatározása gyakran közvetlenül kapcsolódik egy ezeket a megfigyeléseket megjósló matematikai modellhez. Például, amikor Galileo elvégezte ferde sík kísérleteit, bebizonyította, hogy a golyók mozgása illeszkedik a modellje által megjósolt parabolához.

A számtalan lehetséges mechanizmus és folyamat közül, amelyek előállíthatták az adatokat, hogyan is lehetne elkezdeni kiválasztani a legjobb modellt? A matematikai megközelítés általánosan alkalmazott jelöltmodellek között dönt; ezt a készletet a kutatónak kell megválasztania. Gyakran egyszerű modelleket, például polinomokat használnak, legalábbis kezdetben. Burnham & Anderson (2002) könyvükben hangsúlyozzák a megalapozott tudományos elveken alapuló modellek kiválasztásának fontosságát, például az adatok mögött álló fenomenológiai folyamatok vagy mechanizmusok (pl. Kémiai reakciók) megértését.

Miután kiválasztották a jelölt modellek halmazát, a statisztikai elemzés lehetővé teszi számunkra, hogy kiválasszuk ezek közül a legjobbakat. Ami a legjobbat jelenti, ellentmondásos. A jó modellválasztási technika egyensúlyba hozza az illeszkedés jóságát az egyszerűséggel. A bonyolultabb modellek jobban képesek alakjukat úgy alakítani, hogy illeszkedjenek az adatokhoz (például egy ötödrendű polinom pontosan elfér hat ponton), de a további paraméterek nem jelenthetnek semmi hasznosat. (Talán ez a hat pont valójában csak véletlenszerűen oszlik el egy egyenes körül.) Az illeszkedés jóságát általában a valószínűség arányának megközelítésével, vagy ennek közelítésével határozzák meg, ami khi-négyzet teszthez vezet . A bonyolultságot általában a modellben szereplő paraméterek számával mérik .

A modellválasztási technikák valamilyen fizikai mennyiség becslésének tekinthetők , például annak valószínűsége, hogy a modell előállítja az adott adatokat. A torzítás és a variancia egyaránt fontos mérőszámai ennek a becslésnek a minőségében; a hatékonyságot is gyakran figyelembe veszik.

A modellválasztás egyik standard példája a görbeillesztés , ahol egy ponthalmaz és egyéb háttérismeretek (pl. A pontok iid minták eredményeként ) meg kell választanunk egy görbét, amely leírja a pontokat létrehozó függvényt.

A modellválasztás két iránya

A következtetésnek és az adatokból való tanulásnak két fő célja van. Az egyik a tudományos felfedezés, az alapul szolgáló adat-előállító mechanizmus megértése és az adatok természetének értelmezése. Az adatokból való tanulás másik célja a jövőbeni vagy nem látott megfigyelések előrejelzése. A második célkitűzésben az adatkutató nem feltétlenül foglalkozik az adatok pontos valószínűségi leírásával. Természetesen az is érdekelheti mindkét irányt.

A két különböző célkitűzésnek megfelelően a modellválasztásnak két iránya is lehet: modellválasztás a következtetéshez és modellválasztás az előrejelzéshez. Az első irány az adatok legjobb modelljének meghatározása, amely előnyösen megbízhatóan jellemzi a bizonytalanság forrásait a tudományos értelmezéshez. E cél érdekében jelentősen fontos, hogy a kiválasztott modell ne legyen túl érzékeny a minta méretére. Ennek megfelelően a megfelelő fogalom értékelésére modell kiválasztása a kiválasztási összhang, ami azt jelenti, hogy a legtöbb robusztus pályázót következetesen kiválasztott adott kellően sok adat mintákat.

A második irány az, hogy olyan modellt válasszunk gépként, amely kiváló prediktív teljesítményt nyújt. Ez utóbbi esetében azonban a kiválasztott modell egyszerűen a szerencsés nyertes lehet néhány közeli versenytárs között, mégis a prediktív teljesítmény a lehető legjobb lehet. Ha igen, akkor a modell kiválasztása megfelel a második célnak (jóslatnak), de a kiválasztott modell használata betekintéshez és értelmezéshez súlyosan megbízhatatlan és félrevezető lehet. Sőt, az így kiválasztott nagyon összetett modellek esetében még a jóslatok is ésszerűtlenek lehetnek, ha az adatok csak kissé különböznek azoktól, amelyeken a kiválasztás történt.

Módszerek a jelöltmodellek megválasztásában

Kritériumok

Az alábbiakban felsoroljuk a modell kiválasztásának kritériumait. A leggyakrabban használt kritériumok (i) az Akaike információs kritérium és (ii) a Bayes-faktor és / vagy a Bayes-i információs kritérium (amely bizonyos mértékben közelíti a Bayes-faktort), lásd áttekintésként Stoica & Selen (2004) .

Akaike információs kritérium (AIC), egy becsült statisztikai modell jósági illeszkedésének mértéke
Bayes-faktor
Bayesi információs kritérium (BIC), más néven Schwarz információs kritérium, a modell kiválasztásának statisztikai kritériuma
Hídkritérium (BC), egy olyan statisztikai kritérium, amely a modellspecifikáció megfelelősége ellenére képes elérni az AIC és a BIC jobb teljesítményét.
Keresztellenőrzés
Deviacinformációs kritérium (DIC), egy másik Bayes-orientált modellválasztási kritérium
Hamis felfedezési arány
Összpontosított információ kritérium (FIC), egy kiválasztási kritérium, a statisztikai modellek szortírozása az adott fókuszparaméter hatékonysága szerint
Hannan – Quinn információs kritérium , az Akaike és a Bayes kritérium alternatívája
A Kashyap információs kritérium (KIC) hatékony alternatíva az AIC és a BIC mellett, mert a TIT Fisher információs mátrixot használ
Valószínűség-arány teszt
Mallows's C _o
A leírás minimális hossza
Minimális üzenethossz (MML)
PRESS statisztika , más néven PRESS kritérium
Strukturális kockázatminimalizálás
Fokozatos regresszió
A Watanabe – Akaike információs kritérium (WAIC), amelyet széles körben alkalmazható információs kritériumnak is neveznek
Az Extended Bayesian Information Criterion (EBIC) a szokásos Bayes-i információs kritérium (BIC) kiterjesztése a nagy paraméterű terekkel rendelkező modellek számára.
Az Extended Fisher Information Criterion (EFIC) a lineáris regressziós modellek modellválasztási kritériuma.

Ezen kritériumok közül általában a keresztellenőrzés a legpontosabb és számítási szempontból a legdrágább a felügyelt tanulási problémák esetében.

Burnham & Anderson (2002 , 6.3. Bekezdés) a következőket mondja:

Számos modellválasztási módszer létezik. A módszer statisztikai teljesítményének és a felhasználás tervezett kontextusának szempontjából azonban csak két különálló módszercsoport létezik: Ezeket hatékonyaknak és következeteseknek nevezték el . (...) A modellválasztás gyakorisági paradigmája szerint általában három fő megközelítés van: (I) egyes kiválasztási kritériumok optimalizálása, (II) hipotézisek tesztje és (III) ad hoc módszerek.

Lásd még

Megjegyzések

Hivatkozások

AH ok.; Derryberry, D .; Peterson, T. (2014), "Modellválasztás ökológusoknak: az AIC és a BIC világnézete", Ökológia , 95 (3) : 631–636 , doi : 10.1890 / 13-1452.1 , PMID 24804445
Akaike, H. (1994), "Az információs nézőpont következményei a statisztikai tudomány fejlődésében", Bozdogan, H. (szerk.), Az első amerikai / japán konferencia közleménye a statisztikai modellezés határain: egy információs Megközelítés - 3. kötet , Kluwer Academic Publishers , 27–38
Anderson, DR (2008), Modellalapú következtetés az élettudományokban , Springer, ISBN 9780387740751
Ando, T. (2010), Bayesi modellválasztás és statisztikai modellezés , CRC Press , ISBN 9781439836156
Breiman, L. (2001), "Statisztikai modellezés: a két kultúra", Statistics Science , 16 : 199–231, doi : 10.1214 / ss / 1009213726
Burnham, KP; Anderson, DR (2002), Modellválasztás és multimodelles következtetés: gyakorlati információelméleti megközelítés (2. kiadás), Springer-Verlag, ISBN 0-387-95364-7[ennek több mint 38000 hivatkozása van a Google Tudósban ]
Chamberlin, TC (1890), "A többféle hipotézis módszere", Science , 15 (366): 92–6, Bibcode : 1890Sci .... 15R..92. , doi : 10.1126 / science.ns-15.366.92 , PMID 17782687(újranyomás 1965, Science 148: 754–759 [1] doi : 10.1126 / science.148.3671.754 )
Claeskens, G. (2016), "Statisztikai modellválasztás" (PDF) , A statisztika és alkalmazásának éves áttekintése , 3 (1): 233–256, Bibcode : 2016AnRSA ... 3..233C , doi : 10.1146 / annurev -statisztika-041715-033413
Claeskens, G.; Hjort, NL (2008), Model Selection and Model Averageaging , Cambridge University Press, ISBN 9781139471800
Cox, DR (2006), Statisztikai következtetések alapelvei , Cambridge University Press
Kashyap, RL (1982), "AR és MA részek optimális megválasztása az autoregresszív mozgóátlagos modellekben", IEEE tranzakciók a mintaelemzésen és a gépi intelligencián , IEEE, PAMI-4 (2): 99-104, doi : 10.1109 / TPAMI. 1982.4767213 , PMID 21869012 , S2CID 18484243
Konishi, S .; Kitagawa, G. (2008), Információs kritériumok és statisztikai modellezés , Springer, Bibcode : 2007icsm.book ..... K , ISBN 9780387718866
Lahiri, P. (2001), Modellválasztás , Matematikai Statisztikai Intézet
Leeb, H .; Pötscher, BM (2009), "Model selection", Anderson, TG (szerk.), Handbook of Financial Time Series , Springer, 889–925., Doi : 10.1007 / 978-3-540-71297-8_39 , ISBN 978-3-540-71296-1
Lukács, miniszterelnök; Thompson, WL; Kendall, WL; Gould, WR; Doherty, PF Jr .; Burnham, KP; Anderson, DR (2007), "Aggodalmak az információelmélet és a hipotézisek tesztelésének pluralizmusára való felhívás miatt", Journal of Applied Ecology , 44 (2): 456–460, doi : 10.1111 / j.1365-2664.2006.01267.x
McQuarrie, Allan DR; Tsai, Chih-Ling (1998), Regressziós és idősoros modellválasztás , Szingapúr: World Scientific, ISBN 981-02-3242-X
Massart, P. (2007), Koncentrációs egyenlőtlenségek és modellválasztás , Springer
Massart, P. (2014), "Egy nem aszimptotikus séta a valószínűségben és a statisztikában" , Lin, Xihong (szerk.), Past, Present and Future of Statistics Science , Chapman & Hall , 309–321., ISBN 9781482204988
Navarro, DJ (2019), "Az ördög és a mélykék tenger között: feszültségek a tudományos megítélés és a statisztikai modellválasztás között", Computational Brain & Behavior , 2 : 28–34, doi : 10.1007 / s42113-018-0019-z
Resende, Paulo Angelo Alves; Dorea, Chang Chung Yu (2016), " Modellazonosítás a hatékony meghatározási kritérium használatával", Journal of Multivariate Analysis , 150 : 229–244, arXiv : 1409.7441 , doi : 10.1016 / j.jmva.2016.06.002 , S2CID 5469654
Shmueli, G. (2010), "Megmagyarázni vagy megjósolni?" , Statistics Science , 25 (3): 289-310, arXiv : 1101.0891 , doi : 10.1214 / 10-STS330 , MR 2791669 , S2CID 15900983
Stoica, P .; Selen, Y. (2004), "Modell-sorrend kiválasztása: az információs kritériumok áttekintése" (PDF) , IEEE jelfeldolgozó magazin , 21 (4): 36–47
Wit, E .; van den Heuvel, E .; Romeijn, J.-W. (2012), " " Minden modell téves ... ": bevezetés a modell bizonytalanságába" (PDF) , Statistica Neerlandica , 66 (3): 217–236, doi : 10.1111 / j.1467-9574.2012.00530.x
Wit, E .; McCullagh, P. (2001), Viana, MAG; Richards, D. St. P. (szerk.), "A statisztikai modellek kiterjeszthetősége", Algebrai módszerek a statisztikában és a valószínűségben , 327–340.
Wójtowicz, Anna; Bigaj, Tomasz (2016), "Igazolás, megerősítés és az egymást kizáró hipotézisek problémája", Kuźniar, Adrian; Odrowąż-Sypniewska, Joanna (szerk.), Tények és értékek feltárása , Brill Publishers , 122–143. Oldal, doi : 10.1163 / 9789004312654_009 , ISBN 9789004312654
Owrang, Arash; Jansson, Magnus (2018), "A modell kiválasztási kritériuma a nagy dimenziós lineáris regresszióhoz" , IEEE tranzakciók a jelfeldolgozáson , 66 (13): 3436–3446, Bibcode : 2018ITSP ... 66.3436O , doi : 10.1109 / TSP. 2018.2821628 , ISSN 1941-0476 , S2CID 46931136

Languages

In other projects