Box plot - Box plot

Image
Obrázek 1. Boxový diagram dat z Michelsonova experimentu

V popisné statistice je box plot nebo boxplot metoda pro grafické znázornění skupin numerických dat prostřednictvím jejich kvartilů . Krabicové grafy mohou mít také čáry vybíhající z rámečků ( vousů ) indikující variabilitu mimo horní a dolní kvartily, proto termíny box-and-whisker plot a box-and-whisker diagram . Odlehlé hodnoty lze vykreslit jako jednotlivé body. Krabicové grafy jsou neparametrické : zobrazují variace ve vzorcích statistické populace, aniž by činily jakékoli předpoklady podkladové statistické distribuce (ačkoli Tukeyův boxplot předpokládá symetrii pro vousy a normálnost pro jejich délku). Rozestupy mezi různými částmi krabice udávají stupeň rozptylu (šíření) a šikmost v datech a ukazují odlehlé hodnoty . Kromě samotných bodů umožňují vizuální odhad různých L-odhadů , zejména mezikvartilového rozsahu , midhinge , range , mid-range a trimean . Krabicové grafy lze kreslit vodorovně nebo svisle. Krabicové grafy dostaly své jméno podle políčka uprostřed a podle zápletky, kterou jsou.

Dějiny

Lištu dosahu představila Mary Eleanor Spear v roce 1952 a znovu v roce 1969. Děj boxu a vousů poprvé představil v roce 1970 John Tukey , který na toto téma později publikoval ve své knize „Průzkumná analýza dat“ v roce 1977.

Elementy

Image
Obrázek 2. Boxplot s vousy od minima po maximum
Image
Obrázek 3. Stejný Boxplot s vousy s maximálně 1,5 IQR

Boxplot je standardizovaný způsob zobrazení datové sady na základě pětimístného souhrnu : minima, maxima, mediánu vzorku a prvního a třetího kvartilu.

  • Minimum ( Q 0 nebo 0. Percentil ) : nejnižší datový bod bez jakýchkoli odlehlých hodnot.
  • Maximum ( Q 4 nebo 100. percentil) : největší datový bod bez jakýchkoli odlehlých hodnot.
  • Medián ( Q 2 nebo 50. percentil) : střední hodnota datové sady.
  • První kvartil ( Q 1 nebo 25. percentil) : také známý jako dolní kvartil q n (0,25), je medián dolní poloviny datové sady.
  • Třetí kvartil ( Q 3 nebo 75. percentil) : také známý jako horní kvartil q n (0,75), je medián horní poloviny datové sady.

Důležitým prvkem použitým k vytvoření rámcového grafu určením proveditelných minimálních a maximálních hodnot dat, ale není součástí výše uvedeného pětičíselného souhrnu, je mezikvartilové rozmezí nebo IQR označené níže:

Boxplot je sestaven ze dvou částí, krabice a sady vousů znázorněných na obrázku 2. Nejnižší bod je minimum datové sady a nejvyšší bod je maximum datové sady. Krabice je nakreslena od Q 1 do Q 3 s vodorovnou čarou nakreslenou uprostřed pro označení mediánu.

Stejný soubor dat lze také znázornit jako boxplot zobrazený na obrázku 3. Shora nad horním kvartilem je změřena vzdálenost 1,5násobku IQR a z datové sady, která spadá do této oblasti, se vytáhne whisker k největšímu pozorovanému bodu. vzdálenost. Podobně se měří vzdálenost 1,5násobku IQR pod dolním kvartilem a z datové sady, která spadá do této vzdálenosti, se k dolnímu pozorovanému bodu nakreslí metlička. Všechny ostatní pozorované body jsou vykresleny jako odlehlé hodnoty.

Vousy však mohou představovat několik alternativních hodnot, mezi nimi:

  • minimum a maximum všech dat (jako na obrázku 2)
  • jedna standardní odchylka nad a pod průměrem dat
  • 9. percentil a 91. percentil
  • 2. percentil a 98. percentil.

Všechna data, která nejsou zahrnuta mezi vousy, by měla být vykreslena jako odlehlá tečka, malý kruh nebo hvězda, ale občas se to nedělá.

Některé rámečkové grafy obsahují další znak, který představuje průměr dat.

Na některých krabicových grafech je na každý vous umístěn křížový šraf, před koncem vousku.

Zřídka mohou být krabicové grafy prezentovány bez jakýchkoli vousů.

Kvůli této variabilitě je vhodné popsat konvenci používanou pro vousy a odlehlé hodnoty v titulku pro graf.

Neobvyklé percentily 2%, 9%, 91%, 98%se někdy používají k šrafování šlehů a konce vousů ukazují souhrn sedmi čísel . Pokud jsou data normálně distribuována , umístění sedmi značek na krabicovém grafu bude rovnoměrně rozmístěno.

Variace

Image
Obrázek 4. Čtyři rámečkové grafy se zářezy a bez zářezů a proměnnou šířkou

Vzhledem k tomu, že matematik John W. Tukey v roce 1969 propagoval tento typ zobrazení vizuálních dat, bylo popsáno několik variací na tradiční krabicovou grafiku. Dva z nejběžnějších jsou rámečkové diagramy s proměnnou šířkou a vrubové plotové grafy (viz obrázek 4).

Plošné rámečky s proměnnou šířkou znázorňují velikost každé skupiny, jejíž data jsou vykreslována, tím, že šířka pole je úměrná velikosti skupiny. Oblíbenou konvencí je, aby šířka pole byla úměrná druhé odmocnině velikosti skupiny.

Vrubové políčka vykreslují „zářez“ nebo zúžení rámečku kolem mediánu. Zářezy jsou užitečné při nabízení hrubého průvodce významností rozdílu mediánů; pokud se zářezy dvou polí nepřekrývají, nabízí to důkaz statisticky významného rozdílu mezi mediány. Šířka zářezů je úměrná mezikvartilovému rozsahu (IQR) vzorku a nepřímo úměrná druhé odmocnině velikosti vzorku. Existuje však nejistota ohledně nejvhodnějšího multiplikátoru (který se může lišit v závislosti na podobnosti odchylek vzorků). Jednou z konvencí je použití .

Upravené krabicové grafy jsou určeny pro šikmé rozvody . Spoléhají na medcouple statistiku šikmosti. Pro střední hodnotu MC jsou délky horních a dolních vousů definovány jako

U symetrických rozdělení bude medcouple nulový, a to se zmenší na Tukeyův boxplot se stejnými délkami vousů pro oba vousy.

Jiné druhy grafů, jako jsou houslové a fazolové grafy, mohou ukázat rozdíl mezi single-modální a multimodální distribucí, rozdíl, který nelze vidět u původního boxplotu.

Příklady

Příklad bez extrémních hodnot

Image
Obrázek 5. Vygenerovaný obrázek boxplotu příkladu vlevo bez odlehlých hodnot.

Během dne byla měřena řada hodinových teplot ve stupních Fahrenheita. Zaznamenané hodnoty jsou uvedeny v následujícím pořadí: 57, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 81.

Krabicový graf dat lze generovat výpočtem pěti relevantních hodnot: minimální, maximální, medián, první kvartil a třetí kvartil.

Minimum je nejmenší číslo sady. V tomto případě je minimální denní teplota 57 ° F.

Maximum je největší počet ze sady. V tomto případě je maximální denní teplota 81 ° F.

Medián je „střední“ číslo seřazené sady. To znamená, že je přesně 50% prvků méně než medián a 50% prvků je větší než medián. Medián této seřazené sady je 70 ° F.

První kvartilová hodnota je číslo, které označuje jednu čtvrtinu seřazené sady. Jinými slovy, existuje přesně 25% prvků, které jsou menší než první kvartil, a přesně 75% prvků, které jsou větší. První kvartilovou hodnotu lze snadno určit nalezením „středního“ čísla mezi minimem a mediánem. Pro hodinové teploty je „střední“ číslo mezi 57 ° F a 70 ° F 66 ° F.

Třetí kvartilová hodnota je číslo, které označuje tři čtvrtiny seřazené sady. Jinými slovy, existuje přesně 75% prvků, které jsou menší než třetí kvartil, a 25% prvků, které jsou větší. Třetí kvartilovou hodnotu lze snadno určit nalezením „středního“ čísla mezi mediánem a maximem. Pro hodinové teploty je „střední“ číslo mezi 70 ° F a 81 ° F 75 ° F.

Interquartile range, nebo IQR, lze vypočítat:

Proto,

1,5 IQR nad třetím kvartilem je:

1,5 IQR pod prvním kvartilem je:

Horní whisker boxového grafu je největší číslo datové sady menší než 1,5 IQR nad třetím kvartilem. Zde je 1,5IQR nad třetím kvartilem 88,5 ° F a maximum je 81 ° F. Proto je horní vous nakreslen na hodnotě maxima, 81 ° F.

Podobně je spodní whisker boxového grafu nejmenší číslo datové sady větší než 1,5 IQR pod prvním kvartilem. Zde je 1,5IQR pod prvním kvartilem 52,5 ° F a minimum je 57 ° F. Proto je spodní vous kreslen na hodnotu minima, 57 ° F.

Příklad s odlehlými hodnotami

Image
Obrázek 6. Vygenerovaný boxplot příkladu vlevo s odlehlými hodnotami.

Nahoře je příklad bez extrémních hodnot. Zde je následný příklad s odlehlými hodnotami:

Objednaná sada je: 52, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79 , 89.

V tomto případě se změní pouze první a poslední číslo. Medián, třetí kvartil a první kvartil zůstávají stejné.

V tomto případě je maximum 89 ° F a 1,5 IQR nad třetím kvartilem je 88,5 ° F. Maximum je větší než 1,5 IQR plus třetí kvartil, takže maximum je odlehlá hodnota. Proto je horní vous kreslen s největší hodnotou menší než 1,5 IQR nad třetím kvartilem, což je 79 ° F.

Podobně je minimum 52 ° F a 1,5 IQR pod prvním kvartilem je 52,5 ° F. Minimum je menší než 1,5 IQR minus první kvartil, takže minimum je také odlehlá hodnota. Proto je spodní vous nakreslen na nejmenší hodnotu větší než 1,5 IQR pod prvním kvartilem, což je 57 ° F.

V případě velkých datových sad

Obecná rovnice pro výpočet empirických kvantilů

Pomocí výše uvedeného příkladu s 24 datovými body, což znamená n  = 24, lze také vypočítat medián, první a třetí kvartil matematicky vs. vizuálně.

Medián  :

První kvartil  :

Třetí kvartil  :

Vizualizace

Image
Obrázek 7. Boxplot a funkce hustoty pravděpodobnosti (pdf ) populace s normálním N (0,1σ 2 )

Krabicový graf umožňuje rychlé grafické posouzení jednoho nebo více datových souborů. Krabicové grafy se mohou zdát primitivnější než odhad histogramu nebo hustoty jádra, ale mají určité výhody. Zabírají méně místa, a jsou proto zvláště užitečné pro srovnání distribucí mezi několika skupinami nebo sadami dat (příklad viz obrázek 1). Volba technik počtu a šířky zásobníků může silně ovlivnit vzhled histogramu a volba šířky pásma může výrazně ovlivnit vzhled odhadu hustoty jádra.

Protože je prohlížení statistického rozdělení běžnější než prohlížení krabicového grafu, může být porovnání boxového grafu s funkcí hustoty pravděpodobnosti (teoretický histogram) pro normální rozdělení N (0, σ 2 ) užitečným nástrojem pro pochopení rámcového diagramu. (Obrázek 7).

Image
Obrázek 8. Boxplots zobrazující zkosení

Viz také

Reference

Další čtení

externí odkazy