Dobozos cselekmény - Box plot
A leíró statisztika , a box plot vagy box-plot egy eljárást grafikusan ábrázoló csoportok számszerű adatok révén quartilist . A dobozábrákon a dobozokból ( bajuszokból ) kihúzódó vonalak is lehetnek, amelyek a felső és az alsó kvartilisen kívüli változékonyságot jelzik, ezért a box-and-whisker plot és box-and-whisker diagram kifejezések . A kiugró értékeket egyedi pontokként lehet ábrázolni. A dobozdiagramok nem paraméteresek : eltéréseket jelenítenek meg egy statisztikai sokaság mintáiban anélkül, hogy feltételezéseket tennének az alapul szolgáló statisztikai eloszlásról (bár Tukey boxplotja szimmetriát feltételez a bajuszok tekintetében, és normális a hosszuk tekintetében). A doboz különböző részei közötti távolságok jelzik az adatok szóródásának (elterjedésének) és ferdeségének mértékét , és kiugró értékeket mutatnak . Maguk a pontok mellett vizuálisan is megbecsülhetik a különböző L-becsléseket , nevezetesen az interkvartilis tartományt , a midhinge-t , a tartományt , a középtartományt és a trimeánt . A dobozrajzok vízszintesen vagy függőlegesen is rajzolhatók. A dobozos parcellák a középső dobozból kapták a nevüket, és a cselekményből.
Történelem
A tartomány-sávot Mary Eleanor Spear vezette be 1952-ben, majd 1969-ben. A dobozt és a bajuszt ábrázoló filmet először 1970-ben mutatta be John Tukey , aki később, 1977-ben megjelent „Exploratory Data Analysis” című könyvében.
Elemek
A boxplot az adatkészlet szabványosított megjelenítési módja öt számjegyű összegzés alapján : a minimum, a maximum, a minta mediánja, valamint az első és a harmadik kvartilis.
- Minimum ( Q 0 vagy 0. Percentilis ) : a legalacsonyabb adatpont, az esetleges kiugró értékeket nem számítva.
- Maximum ( Q 4 vagy 100. percentilis) : a legnagyobb adatpont, kivéve a kiugró értékeket.
- Medián ( Q 2 vagy 50. percentilis) : a középső érték a adatbázisba.
- Első kvartilis ( Q 1 vagy 25. percentilis) : más néven a alsó kvartilist q n (0,25), a medián az alsó felében a adatbázisba.
- Harmadik kvartilis ( Q 3 vagy 75. percentilis) : más néven felső kvartilis q n (0,75), az adathalmaz felső felének mediánja.
Egy fontos elem, amelyet a dobozdiagram létrehozásához használtak a lehetséges minimális és maximális adatértékek meghatározásával, de nem része a fent említett öt számjegyű összefoglalónak, az alábbiakban jelzett interkvartilis tartomány vagy IQR:
- Interkvartilis tartomány (IQR) : a felső és az alsó kvartilis közötti távolság.
A boxplot két részből, egy dobozból és egy bajuszkészletből áll, amelyek a 2. ábrán láthatók. A legalacsonyabb pont az adathalmaz minimuma, a legmagasabb pedig az adathalmaz maximuma. A dobozt Q 1 -től Q 3 -ig húzzuk, középen egy vízszintes vonallal, amely a mediánt jelöli.
Ugyanez az adathalmaz a 3. ábrán látható boxplot -ként is ábrázolható. A felső kvartilis fölött az IQR 1,5 -szeresét mérjük ki, és egy bajuszt rajzolunk az adathalmaz legnagyobb megfigyelt pontjához, amely ebbe tartozik. távolság. Hasonlóképpen, az IQR 1,5 -szeres távolságát mérjük ki az alsó kvartilis alatt, és egy bajuszt rajzolunk az alsó megfigyelési ponthoz az ezen a távolságon belüli adatkészletből. Az összes többi megfigyelt pontot kiugró értékként ábrázoljuk.
A bajusz azonban számos alternatív értéket képviselhet, köztük:
- az összes adat minimuma és maximuma (lásd a 2. ábrát)
- egy szórás az adatok átlaga felett és alatt
- a 9. és a 91. percentilis
- a 2. és a 98. percentilis.
Minden olyan adatot, amely nem szerepel a bajuszok között, ki kell jelölni pontozással, kis körrel vagy csillaggal, de esetenként ez nem történik meg.
Egyes dobozdiagramok további karaktereket tartalmaznak, amelyek az adatok átlagát jelzik.
Néhány doboztáblán minden bajuszra kereszteződést helyeznek, a bajusz vége előtt.
Ritkán lehet dobozos parcellákat bemutatni bajusz nélkül.
E változékonyság miatt helyénvaló leírni a bajuszokra és a kiugró értékekre vonatkozó konvenciót a cselekmény feliratában.
A szokatlan 2%, 9%, 91%, 98%-os percentiliseket néha a bajusz keresztbevonásánál és a bajuszvégnél használják a hét számjegyű összefoglaló megjelenítéséhez . Ha az adatok rendesen eloszlanak , a dobozon lévő hét jel helyei egyenlő távolságra lesznek egymástól.
Variációk
Mióta John W. Tukey matematikus 1969 -ben népszerűsítette az ilyen típusú vizuális adatmegjelenítést, a hagyományos dobozdiagram számos változatát írták le. A leggyakoribb kettő a változó szélességű és a rovátkolt dobozos parcellák (lásd a 4. ábrát).
A változó szélességű dobozdiagramok szemléltetik az egyes csoportok méretét, amelyek adatait ábrázolják, úgy, hogy a doboz szélességét arányossá teszik a csoport méretével. Népszerű konvenció, hogy a doboz szélességét arányossá kell tenni a csoport méretének négyzetgyökével.
A rovátkolt dobozábrák a medián körül "bevágást" vagy a doboz szűkítését alkalmazzák. A bevágások hasznosak ahhoz, hogy hozzávetőleges útmutatást nyújtsanak a mediánok közötti különbség jelentőségéhez; ha két doboz bevágásai nem fedik egymást, ez bizonyítékot szolgáltat a mediánok közötti statisztikailag szignifikáns különbségre. A bevágások szélessége arányos a minta interkvartilis tartományával (IQR), és fordítottan arányos a minta négyzetgyökével. Bizonytalanság van azonban a legmegfelelőbb szorzóval kapcsolatban (mivel ez a minták varianciáinak hasonlóságától függően változhat). Az egyik konvenció a használat .
A beállított dobozparcellák ferde elosztásra szolgálnak . Támaszkodnak a medvepár statisztikájára. Az MC medcouple értéke esetén a felső és az alsó bajusz hossza a következő
Szimmetrikus eloszlás esetén a medoupero nulla lesz, és ez Tukey boxplot -jára csökken, mindkét bajusz egyenlő bajuszhosszával .
Más típusú cselekmények, mint például a hegedű és a babos parcellák, megmutathatják a különbséget az egymodális és a multimodális eloszlás között, ami nem látható az eredeti dobozon.
Példák
Példa kívülállók nélkül
Egy órás hőmérséklet -sorozatot mértek egész nap Fahrenheit fokban. A rögzített értékek a következő sorrendben vannak felsorolva: 57, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 81.
Az adatok dobozdiagramja öt releváns érték kiszámításával állítható elő: minimum, maximum, medián, első kvartilis és harmadik kvartilis.
A minimum a halmaz legkisebb száma. Ebben az esetben a minimális nappali hőmérséklet 57 ° F.
A maximum a halmaz legnagyobb száma. Ebben az esetben a maximális nappali hőmérséklet 81 ° F.
A medián a rendezett halmaz "középső" száma. Ez azt jelenti, hogy az elemek pontosan 50% -a kevesebb, mint a medián, és 50% -a nagyobb, mint a medián. Ennek a rendezett halmaznak a mediánja 70 ° F.
Az első kvartilis érték a rendezett halmaz egynegyedét jelző szám. Más szóval, az elemek pontosan 25% -a kisebb, mint az első kvartilis, és pontosan 75% -a nagyobb. Az első kvartilis érték könnyen meghatározható a "középső" szám megtalálásával a minimum és a medián között. Óránkénti hőmérséklet esetén a "középső" szám 57 ° F és 70 ° F között 66 ° F.
A harmadik kvartilis érték a rendezett halmaz háromnegyedét jelző szám. Más szóval, az elemek pontosan 75% -a kisebb, mint a harmadik kvartilis, és 25% -a nagyobb. A harmadik kvartilis érték könnyen meghatározható a "középső" szám megtalálásával a medián és a maximum között. Óránkénti hőmérséklet esetén a "középső" szám 70 ° F és 81 ° F között 75 ° F.
Az interkvartilis tartomány vagy IQR kiszámítható:
Ennélfogva,
1,5 IQR a harmadik kvartilis felett:
Az első kvartilis alatti 1.5IQR:
A dobozdiagram felső bajusza a legnagyobb adathalmaz -szám, amely kisebb, mint 1,5IQR a harmadik kvartilis felett. Itt a harmadik kvartilis feletti 1,5IQR 88,5 ° F, a maximum 81 ° F. Ezért a felső bajuszt a maximális értéken, 81 ° F -en kell megrajzolni.
Hasonlóképpen, a dobozdiagram alsó bajusza a legkisebb adathalmaz száma, amely nagyobb, mint 1,5IQR az első kvartilis alatt. Itt az első kvartilis alatti 1,5IQR 52,5 ° F, a minimum 57 ° F. Ezért az alsó bajuszt a minimális értéken, 57 ° F -en kell rajzolni.
Példa kiugró értékekkel
A fenti példa egy kiugrás nélküli példa. Íme egy követendő példa a kiugró értékekkel:
A megrendelt készlet: 52, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79 , 89.
Ebben a példában csak az első és az utolsó szám változik. A medián, a harmadik kvartilis és az első kvartilis ugyanaz marad.
Ebben az esetben a maximum 89 ° F és a 1,5IQR a harmadik kvartilis felett 88,5 ° F. A maximum nagyobb, mint 1,5IQR plusz a harmadik kvartilis, tehát a maximum kiugró. Ezért a felső bajuszt a legnagyobb értéknél, 1,5IQR -nél kisebb értéken kell rajzolni a harmadik kvartilis fölött, ami 79 ° F.
Hasonlóképpen, a minimum 52 ° F és az 1.5IQR az első kvartilis alatt 52,5 ° F. A minimum kisebb, mint 1,5IQR mínusz az első kvartilis, tehát a minimum is kiugró. Ezért az alsó bajuszt az első kvartilis alatti 1,5IQR -nál kisebb legkisebb értéken kell megrajzolni, ami 57 ° F.
Nagy adathalmazok esetén
Általános egyenlet az empirikus kvantilisek kiszámításához
A fenti példa segítségével, 24 adatponttal, azaz n = 24, ki lehet számítani a mediánt, az első és a harmadik kvartilt matematikailag és vizuálisan.
Medián :
Első kvartilis :
Harmadik kvartilis :
Megjelenítés
A dobozdiagram lehetővé teszi egy vagy több adathalmaz gyors grafikus vizsgálatát. A dobozdiagramok primitívebbnek tűnhetnek, mint a hisztogram vagy a kernelsűrűség becslése, de vannak előnyei. Kevesebb helyet foglalnak el, ezért különösen hasznosak több csoport vagy adathalmaz közötti eloszlás összehasonlításához (lásd például az 1. ábrát). A tárolók számának és szélességének megválasztása nagymértékben befolyásolhatja a hisztogram megjelenését, a sávszélesség megválasztása pedig erősen befolyásolhatja a kernelsűrűség -becslés megjelenését.
Mivel a statisztikai eloszlás nézése mindennaposabb, mint a dobozdiagram, a dobozdiagram összehasonlítása a valószínűségi sűrűség függvényével (elméleti hisztogram) normál N (0, σ 2 ) eloszlás esetén hasznos eszköz lehet a dobozdiagram megértéséhez (7. ábra).
Lásd még
- Kétváltozós boxplot
- Gyertyatartó diagram
- Feltáró adatelemzés
- Ventilátor diagram
- Öt számjegyű összefoglaló
- Funkcionális boxplot
- Hét számjegyű összefoglaló
Hivatkozások
További irodalom
- John W. Tukey (1977). Feltáró adatok elemzése . Addison-Wesley .
- Benjamini, Y. (1988). "A dobozdoboz kinyitása". Az amerikai statisztikus . 42 (4): 257–262. doi : 10.2307/2685133 . JSTOR 2685133 .
- Rousseeuw, PJ ; Ruts, I .; Tukey, JW (1999). "A zsák: kétváltozós doboz". Az amerikai statisztikus . 53. (4): 382–387. doi : 10.2307/2686061 . JSTOR 2686061 .
Külső linkek
- On-line dobozgrafikus számológép magyarázatokkal és példákkal (Beeswarm példa)
- Beeswarm Boxplot - egy frekvenciasávos szalagdiagram ráhelyezése egy doboz diagramra
- Komplex online dobozdiagram készítő példaadatokkal - lásd még BoxPlotR: webes eszköz dobozdiagramok előállításához Spitzer et al. Nature Methods 11, 121–122 (2014)