Laatikko - Box plot

Image
Kuva 1. Michelson -kokeen tietojen laatikkokaavio

In kuvailevia tilastoja , eli rasiakuvaaja tai Boxplot-kuviota on menetelmä kuvaa graafisesti ryhmien numeeriset tiedot kautta kvartiileja . Rasiakuvaajat voi olla myös linjat, jotka ulottuvat laatikot ( kuitukiteitä ), joka osoittaa vaihtelevuuden ulkopuolella ylä- ja alakvartiilit, joten ehdot laatikko-ja-viiksikarvan juoni ja laatikko-ja-viiksi kaavio . Poikkeamat voidaan piirtää yksittäisiksi pisteiksi. Laatikkokaaviot ovat ei-parametrisiä : ne näyttävät vaihtelua tilastollisen populaation näytteistä tekemättä oletuksia taustalla olevasta tilastollisesta jakautumisesta (vaikka Tukeyn laatikko kuvaa symmetriaa viiksille ja normaalia niiden pituudelle). Laatikon eri osien väliset etäisyydet osoittavat tietojen hajautumisasteen (levinneisyyden) ja vinoutumisen sekä poikkeamat . Lisäksi pisteiden itse, ne mahdollistavat yksi visuaalisesti arvioida eri L-estimaattorit , erityisesti kvartiiliväli , midhinge , alue , keskitason , ja trimean . Laatikot voidaan piirtää joko vaaka- tai pystysuunnassa. Laatikkotontit saivat nimensä keskellä olevasta laatikosta ja tontista.

Historia

Aluepalkin esitteli Mary Eleanor Spear vuonna 1952 ja uudelleen vuonna 1969. Laatikon ja viiksien juonen esitteli ensimmäisen kerran vuonna 1970 John Tukey , joka myöhemmin julkaisi aiheesta kirjassaan "Exploratory Data Analysis" vuonna 1977.

Elementit

Image
Kuva 2. Laatikko, jossa viikset minimistä maksimiin
Image
Kuva 3. Sama Boxplot, jossa on viikset, joiden IQR on enintään 1,5

Boxplot on standardoitu tapa näyttää tietojoukko viiden numeron yhteenvedon perusteella : minimi, maksimi, otoksen mediaani ja ensimmäinen ja kolmas kvartiili.

  • Suurin ( Q 4 tai 100. prosenttipiste) : suurin datapiste ilman poikkeamia.
  • Mediaani ( Q 2 tai 50. prosenttipiste) : tietojoukon keskiarvo.
  • Ensimmäinen kvartiili ( Q 1 tai 25. prosenttipiste) : tunnetaan myös nimellä alempi kvartiili q n (0,25), on tietojoukon alaosan mediaani.
  • Kolmas kvartiili ( Q 3 tai 75. prosenttipiste) : tunnetaan myös ylemmänä kvartiilina q n (0,75), on tietojoukon yläosan mediaani.

Tärkeä elementti, jota käytetään laatikkokaavion rakentamiseen määrittämällä toteutettavat vähimmäis- ja enimmäisarvoarvot, mutta ei ole osa edellä mainittua viisinumeroista yhteenvetoa, on alla esitetty neljännesvälinen alue tai IQR:

Laatikkoplotti koostuu kahdesta osasta, laatikosta ja viiksistä, jotka on esitetty kuviossa 2. Alin piste on tietojoukon minimi ja korkein piste on tietojoukon maksimipiste. Laatikko on peräisin Q 1 ja Q 3 , jossa on vaakasuora viiva, keskellä tarkoittamaan mediaani.

Sama tietojoukko voidaan esittää myös kuviossa 3 esitetyllä laatikkokaaviona. Ylemmän kvartiilin yläpuolelta mitataan 1,5 -kertainen etäisyys IQR: stä ja piirretään viikset suurimpaan havaittuun pisteeseen tietojoukosta, joka kuuluu tähän etäisyys. Samoin 1,5 -kertainen IQR -etäisyys mitataan alemman kvartiilin alapuolelta ja viikset vedetään alempaan havaittuun pisteeseen tämän etäisyyden sisältävästä tietojoukosta. Kaikki muut havaitut pisteet on piirretty poikkeaviksi.

Viikset voivat kuitenkin edustaa useita vaihtoehtoisia arvoja, kuten:

  • kaikkien tietojen vähimmäis- ja enimmäismäärä (kuten kuvassa 2)
  • yksi keskihajonta tietojen keskiarvon ylä- ja alapuolella
  • yhdeksäs prosenttipiste ja 91. prosenttipiste
  • toinen prosenttipiste ja 98.

Kaikki tiedot, jotka eivät sisälly viiksien väliin, on piirrettävä poikkeavaksi pisteeksi, pieneksi ympyräksi tai tähdeksi, mutta toisinaan tätä ei tehdä.

Joissakin ruutukaavioissa on lisämerkki, joka edustaa tietojen keskiarvoa.

Joissakin laatikkotiloissa ristiviiva asetetaan jokaiseen viikseen ennen viiksen loppua.

Harvoin laatikot voidaan esittää ilman viikset.

Tämän vaihtelevuuden vuoksi on asianmukaista kuvata kaavion kuvatekstissä tapa, jolla viikset ja poikkeamat käytetään.

Epätavallisia prosenttipisteitä 2%, 9%, 91%, 98%käytetään joskus viiksien ristiluukuissa ja viiksien päissä seitsemän numeron yhteenvedon näyttämiseksi . Jos tiedot jaetaan normaalisti , laatikon kuvaajan seitsemän merkin sijainti on tasavälein.

Muunnelmat

Image
Kuva 4. Neljä laatikkokaaviota, lovilla ja ilman ja vaihtelevalla leveydellä

Koska matemaatikko John W. Tukey suositteli tämän tyyppistä visuaalista näyttöä vuonna 1969, on kuvattu useita muunnelmia perinteisestä laatikkokaaviosta. Kaksi yleisimpiä ovat vaihtelevan leveyden laatikkotontit ja lovetut laatikkotontit (ks. Kuva 4).

Muuttuvan leveyden laatikkokaaviot kuvaavat kunkin ryhmän kokoa, jonka tietoja piirretään, tekemällä laatikon leveydestä verrannollinen ryhmän kokoon. Suosittu tapa on tehdä laatikon leveydestä verrannollinen ryhmän koon neliöjuureen.

Lokeroidut laatikkokaaviot levittävät "loven" tai kaventavat laatikon mediaanin ympärille. Lovista on hyötyä, kun ne tarjoavat karkean oppaan mediaanierojen merkityksestä; jos kahden laatikon lovet eivät ole päällekkäisiä, tämä osoittaa, että mediaanien välillä on tilastollisesti merkitsevä ero. Lovien leveys on verrannollinen näytteen neljännesvälialueeseen (IQR) ja kääntäen verrannollinen näytteen koon neliöjuureen. Sopivimmasta kertoimesta on kuitenkin epävarmuutta (koska tämä voi vaihdella näytteiden varianssien samankaltaisuuden mukaan). Yksi käytäntö on käyttää .

Säädetyt laatikkokaaviot on tarkoitettu vinojakaumiin . He luottavat vinouden medcouple -tilastoon. Med -parin MC -arvon osalta ylemmän ja alemman viiksen pituudet määritellään vastaavasti

Symmetristen jakaumien tapauksessa medparin arvo on nolla, ja tämä pienenee Tukeyn laatikkoon, jossa on yhtä pitkät viiksen pituudet molemmille viiksille.

Muuntyyppiset juonet, kuten viulu- ja papukaaviot, voivat näyttää eron yksimodaalisen ja multimodaalisen jakauman välillä, mitä ei voi nähdä alkuperäisen laatikkokaavion kanssa.

Esimerkkejä

Esimerkki ilman poikkeamia

Image
Kuva 5. Esimerkin luotu laatikkokuvio vasemmalla ilman poikkeamia.

Sarja tuntilämpötiloja mitattiin koko päivän ajan Fahrenheit -asteina. Tallennetut arvot on lueteltu seuraavassa järjestyksessä: 57, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 81.

Tietojen laatikkokaavio voidaan luoda laskemalla viisi relevanttia arvoa: minimi, maksimi, mediaani, ensimmäinen kvartiili ja kolmas kvartiili.

Minimi on sarjan pienin luku. Tässä tapauksessa päivän vähimmäislämpötila on 57 ° F.

Suurin on sarjan suurin numero. Tässä tapauksessa päivän suurin lämpötila on 81 ° F.

Mediaani on tilatun sarjan "keskimmäinen" numero. Tämä tarkoittaa, että alkuaineita on täsmälleen 50% vähemmän kuin mediaani ja 50% elementtejä on suurempi kuin mediaani. Tämän tilatun sarjan mediaani on 70 ° F.

Ensimmäinen kvartiiliarvo on numero, joka merkitsee neljänneksen tilatusta joukosta. Toisin sanoen elementtejä on täsmälleen 25%, jotka ovat pienempiä kuin ensimmäinen kvartiili, ja täsmälleen 75% alkeista, jotka ovat suurempia. Ensimmäinen kvartiiliarvo voidaan helposti määrittää etsimällä "keskimmäinen" luku minimin ja mediaanin väliltä. Tuntilämpötilojen "keskimmäinen" luku välillä 57 ° F ja 70 ° F on 66 ° F.

Kolmas kvartiili on luku, joka merkitsee kolme neljäsosaa tilatusta joukosta. Toisin sanoen on täsmälleen 75% alkuaineista, jotka ovat pienempiä kuin kolmas kvartiili, ja 25% elementeistä, jotka ovat suurempia. Kolmas kvartiiliarvo voidaan helposti määrittää etsimällä "keskimmäinen" luku mediaanin ja maksimin väliltä. Tuntilämpötilojen "keskimmäinen" luku välillä 70 ° F - 81 ° F on 75 ° F.

Neljännesvälin alue tai IQR voidaan laskea:

Siten,

1.5 IQR kolmannen kvartiilin yläpuolella on:

1.5IQR ensimmäisen kvartiilin alapuolella on:

Laatikkokaavion ylävirta on suurin tietojoukon numero, joka on pienempi kuin 1,5IQR kolmannen kvartiilin yläpuolella. Tässä 1.5IQR kolmannen kvartiilin yläpuolella on 88,5 ° F ja suurin on 81 ° F. Siksi ylempi viikset piirretään maksimiarvoon, 81 ° F.

Vastaavasti laatikkokaavion alempi viiva on pienin tietojoukon numero, joka on suurempi kuin 1,5IQR ensimmäisen kvartiilin alapuolella. Tässä 1.5IQR ensimmäisen kvartiilin alapuolella on 52,5 ° F ja minimi 57 ° F. Siksi alempi viikset piirretään minimiarvoon, 57 ° F.

Esimerkki poikkeavista

Image
Kuva 6. Esimerkin luotu laatikkoplotti vasemmalla ja poikkeamat.

Yllä on esimerkki ilman poikkeamia. Tässä on esimerkki poikkeavista:

Tilattu sarja on: 52, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79 , 89.

Tässä esimerkissä vain ensimmäinen ja viimeinen numero muutetaan. Mediaani, kolmas kvartiili ja ensimmäinen kvartiili pysyvät samana.

Tässä tapauksessa maksimi on 89 ° F ja 1,5IQR kolmannen kvartiilin yläpuolella on 88,5 ° F. Maksimi on suurempi kuin 1,5IQR plus kolmas kvartiili, joten maksimiarvo on outlier. Siksi ylempi viikset piirretään suurimmalla arvolla, joka on pienempi kuin 1,5IQR kolmannen kvartiilin yläpuolella, mikä on 79 ° F.

Samoin minimi on 52 ° F ja 1,5IQR ensimmäisen kvartiilin alapuolella on 52,5 ° F. Minimi on pienempi kuin 1,5IQR miinus ensimmäinen kvartiili, joten minimi on myös outlier. Siksi alempi viikset piirretään pienimmällä arvolla, joka on suurempi kuin 1,5IQR ensimmäisen kvartiilin alapuolella, eli 57 ° F.

Suurten tietojoukkojen tapauksessa

Yleinen yhtälö empiiristen kvanttiilien laskemiseksi

Käyttämällä yllä olevaa esimerkkiä, jossa on 24 datapistettä eli n  = 24, voidaan laskea myös mediaani, ensimmäinen ja kolmas kvartiili matemaattisesti vs. visuaalisesti.

Mediaani  :

Ensimmäinen kvartiili  :

Kolmas kvartiili  :

Visualisointi

Image
Kuva 7. Boxplot ja todennäköisyystiheysfunktio (pdf) normaalista N (0,1σ 2 ) -populaatiosta

Laatikkokaavio mahdollistaa yhden tai useamman tietojoukon nopean graafisen tarkastelun. Laatikkokaaviot voivat vaikuttaa primitiivisemmiltä kuin histogrammi tai ytimen tiheysarvio, mutta niillä on joitain etuja. Ne vievät vähemmän tilaa ja ovat siksi erityisen hyödyllisiä vertailussa useiden tietoryhmien tai -joukkojen välisiä jakaumia (katso esimerkki kuvasta 1). Säiliöiden lukumäärän ja leveyden valinta voi vaikuttaa voimakkaasti histogrammin ulkoasuun, ja kaistanleveyden valinta voi vaikuttaa voimakkaasti ytimen tiheysarvion ulkonäköön.

Koska tilastollisen jakauman tarkastelu on tavallisempaa kuin laatikkokaavion tarkastelu, laatikkokaavion vertaaminen todennäköisyystiheysfunktioon (teoreettinen histogrammi) normaalille N (0, σ 2 ) -jakaumalle voi olla hyödyllinen työkalu laatikkokaavion ymmärtämiseen (Kuva 7).

Image
Kuva 8. Ruudukot, joissa näkyy vinossa

Katso myös

Viitteet

Lue lisää

Ulkoiset linkit