Box plot - Box plot
V popisné statistice je box plot nebo boxplot metoda pro grafické znázornění skupin numerických dat prostřednictvím jejich kvartilů . Krabicové grafy mohou mít také čáry vybíhající z rámečků ( vousů ) indikující variabilitu mimo horní a dolní kvartily, proto termíny box-and-whisker plot a box-and-whisker diagram . Odlehlé hodnoty lze vykreslit jako jednotlivé body. Krabicové grafy jsou neparametrické : zobrazují variace ve vzorcích statistické populace, aniž by činily jakékoli předpoklady podkladové statistické distribuce (ačkoli Tukeyův boxplot předpokládá symetrii pro vousy a normálnost pro jejich délku). Rozestupy mezi různými částmi krabice udávají stupeň rozptylu (šíření) a šikmost v datech a ukazují odlehlé hodnoty . Kromě samotných bodů umožňují vizuální odhad různých L-odhadů , zejména mezikvartilového rozsahu , midhinge , range , mid-range a trimean . Krabicové grafy lze kreslit vodorovně nebo svisle. Krabicové grafy dostaly své jméno podle políčka uprostřed a podle zápletky, kterou jsou.
Dějiny
Lištu dosahu představila Mary Eleanor Spear v roce 1952 a znovu v roce 1969. Děj boxu a vousů poprvé představil v roce 1970 John Tukey , který na toto téma později publikoval ve své knize „Průzkumná analýza dat“ v roce 1977.
Elementy
Boxplot je standardizovaný způsob zobrazení datové sady na základě pětimístného souhrnu : minima, maxima, mediánu vzorku a prvního a třetího kvartilu.
- Maximum ( Q 4 nebo 100. percentil) : největší datový bod bez jakýchkoli odlehlých hodnot.
- Medián ( Q 2 nebo 50. percentil) : střední hodnota datové sady.
- První kvartil ( Q 1 nebo 25. percentil) : také známý jako dolní kvartil q n (0,25), je medián dolní poloviny datové sady.
- Třetí kvartil ( Q 3 nebo 75. percentil) : také známý jako horní kvartil q n (0,75), je medián horní poloviny datové sady.
Důležitým prvkem použitým k vytvoření rámcového grafu určením proveditelných minimálních a maximálních hodnot dat, ale není součástí výše uvedeného pětičíselného souhrnu, je mezikvartilové rozmezí nebo IQR označené níže:
- Interquartile range (IQR) : je vzdálenost mezi horním a dolním kvartilem.
Boxplot je sestaven ze dvou částí, krabice a sady vousů znázorněných na obrázku 2. Nejnižší bod je minimum datové sady a nejvyšší bod je maximum datové sady. Krabice je nakreslena od Q 1 do Q 3 s vodorovnou čarou nakreslenou uprostřed pro označení mediánu.
Stejný soubor dat lze také znázornit jako boxplot zobrazený na obrázku 3. Shora nad horním kvartilem je změřena vzdálenost 1,5násobku IQR a z datové sady, která spadá do této oblasti, se vytáhne whisker k největšímu pozorovanému bodu. vzdálenost. Podobně se měří vzdálenost 1,5násobku IQR pod dolním kvartilem a z datové sady, která spadá do této vzdálenosti, se k dolnímu pozorovanému bodu nakreslí metlička. Všechny ostatní pozorované body jsou vykresleny jako odlehlé hodnoty.
Vousy však mohou představovat několik alternativních hodnot, mezi nimi:
- minimum a maximum všech dat (jako na obrázku 2)
- jedna standardní odchylka nad a pod průměrem dat
- 9. percentil a 91. percentil
- 2. percentil a 98. percentil.
Všechna data, která nejsou zahrnuta mezi vousy, by měla být vykreslena jako odlehlá tečka, malý kruh nebo hvězda, ale občas se to nedělá.
Některé rámečkové grafy obsahují další znak, který představuje průměr dat.
Na některých krabicových grafech je na každý vous umístěn křížový šraf, před koncem vousku.
Zřídka mohou být krabicové grafy prezentovány bez jakýchkoli vousů.
Kvůli této variabilitě je vhodné popsat konvenci používanou pro vousy a odlehlé hodnoty v titulku pro graf.
Neobvyklé percentily 2%, 9%, 91%, 98%se někdy používají k šrafování šlehů a konce vousů ukazují souhrn sedmi čísel . Pokud jsou data normálně distribuována , umístění sedmi značek na krabicovém grafu bude rovnoměrně rozmístěno.
Variace
Vzhledem k tomu, že matematik John W. Tukey v roce 1969 propagoval tento typ zobrazení vizuálních dat, bylo popsáno několik variací na tradiční krabicovou grafiku. Dva z nejběžnějších jsou rámečkové diagramy s proměnnou šířkou a vrubové plotové grafy (viz obrázek 4).
Plošné rámečky s proměnnou šířkou znázorňují velikost každé skupiny, jejíž data jsou vykreslována, tím, že šířka pole je úměrná velikosti skupiny. Oblíbenou konvencí je, aby šířka pole byla úměrná druhé odmocnině velikosti skupiny.
Vrubové políčka vykreslují „zářez“ nebo zúžení rámečku kolem mediánu. Zářezy jsou užitečné při nabízení hrubého průvodce významností rozdílu mediánů; pokud se zářezy dvou polí nepřekrývají, nabízí to důkaz statisticky významného rozdílu mezi mediány. Šířka zářezů je úměrná mezikvartilovému rozsahu (IQR) vzorku a nepřímo úměrná druhé odmocnině velikosti vzorku. Existuje však nejistota ohledně nejvhodnějšího multiplikátoru (který se může lišit v závislosti na podobnosti odchylek vzorků). Jednou z konvencí je použití .
Upravené krabicové grafy jsou určeny pro šikmé rozvody . Spoléhají na medcouple statistiku šikmosti. Pro střední hodnotu MC jsou délky horních a dolních vousů definovány jako
U symetrických rozdělení bude medcouple nulový, a to se zmenší na Tukeyův boxplot se stejnými délkami vousů pro oba vousy.
Jiné druhy grafů, jako jsou houslové a fazolové grafy, mohou ukázat rozdíl mezi single-modální a multimodální distribucí, rozdíl, který nelze vidět u původního boxplotu.
Příklady
Příklad bez extrémních hodnot
Během dne byla měřena řada hodinových teplot ve stupních Fahrenheita. Zaznamenané hodnoty jsou uvedeny v následujícím pořadí: 57, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 81.
Krabicový graf dat lze generovat výpočtem pěti relevantních hodnot: minimální, maximální, medián, první kvartil a třetí kvartil.
Minimum je nejmenší číslo sady. V tomto případě je minimální denní teplota 57 ° F.
Maximum je největší počet ze sady. V tomto případě je maximální denní teplota 81 ° F.
Medián je „střední“ číslo seřazené sady. To znamená, že je přesně 50% prvků méně než medián a 50% prvků je větší než medián. Medián této seřazené sady je 70 ° F.
První kvartilová hodnota je číslo, které označuje jednu čtvrtinu seřazené sady. Jinými slovy, existuje přesně 25% prvků, které jsou menší než první kvartil, a přesně 75% prvků, které jsou větší. První kvartilovou hodnotu lze snadno určit nalezením „středního“ čísla mezi minimem a mediánem. Pro hodinové teploty je „střední“ číslo mezi 57 ° F a 70 ° F 66 ° F.
Třetí kvartilová hodnota je číslo, které označuje tři čtvrtiny seřazené sady. Jinými slovy, existuje přesně 75% prvků, které jsou menší než třetí kvartil, a 25% prvků, které jsou větší. Třetí kvartilovou hodnotu lze snadno určit nalezením „středního“ čísla mezi mediánem a maximem. Pro hodinové teploty je „střední“ číslo mezi 70 ° F a 81 ° F 75 ° F.
Interquartile range, nebo IQR, lze vypočítat:
Proto,
1,5 IQR nad třetím kvartilem je:
1,5 IQR pod prvním kvartilem je:
Horní whisker boxového grafu je největší číslo datové sady menší než 1,5 IQR nad třetím kvartilem. Zde je 1,5IQR nad třetím kvartilem 88,5 ° F a maximum je 81 ° F. Proto je horní vous nakreslen na hodnotě maxima, 81 ° F.
Podobně je spodní whisker boxového grafu nejmenší číslo datové sady větší než 1,5 IQR pod prvním kvartilem. Zde je 1,5IQR pod prvním kvartilem 52,5 ° F a minimum je 57 ° F. Proto je spodní vous kreslen na hodnotu minima, 57 ° F.
Příklad s odlehlými hodnotami
Nahoře je příklad bez extrémních hodnot. Zde je následný příklad s odlehlými hodnotami:
Objednaná sada je: 52, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79 , 89.
V tomto případě se změní pouze první a poslední číslo. Medián, třetí kvartil a první kvartil zůstávají stejné.
V tomto případě je maximum 89 ° F a 1,5 IQR nad třetím kvartilem je 88,5 ° F. Maximum je větší než 1,5 IQR plus třetí kvartil, takže maximum je odlehlá hodnota. Proto je horní vous kreslen s největší hodnotou menší než 1,5 IQR nad třetím kvartilem, což je 79 ° F.
Podobně je minimum 52 ° F a 1,5 IQR pod prvním kvartilem je 52,5 ° F. Minimum je menší než 1,5 IQR minus první kvartil, takže minimum je také odlehlá hodnota. Proto je spodní vous nakreslen na nejmenší hodnotu větší než 1,5 IQR pod prvním kvartilem, což je 57 ° F.
V případě velkých datových sad
Obecná rovnice pro výpočet empirických kvantilů
Pomocí výše uvedeného příkladu s 24 datovými body, což znamená n = 24, lze také vypočítat medián, první a třetí kvartil matematicky vs. vizuálně.
Medián :
První kvartil :
Třetí kvartil :
Vizualizace
Krabicový graf umožňuje rychlé grafické posouzení jednoho nebo více datových souborů. Krabicové grafy se mohou zdát primitivnější než odhad histogramu nebo hustoty jádra, ale mají určité výhody. Zabírají méně místa, a jsou proto zvláště užitečné pro srovnání distribucí mezi několika skupinami nebo sadami dat (příklad viz obrázek 1). Volba technik počtu a šířky zásobníků může silně ovlivnit vzhled histogramu a volba šířky pásma může výrazně ovlivnit vzhled odhadu hustoty jádra.
Protože je prohlížení statistického rozdělení běžnější než prohlížení krabicového grafu, může být porovnání boxového grafu s funkcí hustoty pravděpodobnosti (teoretický histogram) pro normální rozdělení N (0, σ 2 ) užitečným nástrojem pro pochopení rámcového diagramu. (Obrázek 7).
Viz také
- Bivariate boxplot
- Tabulka svíček
- Průzkumná analýza dat
- Graf fanoušků
- Shrnutí pěti čísel
- Funkční boxplot
- Shrnutí sedmi čísel
Reference
Další čtení
- John W. Tukey (1977). Průzkumná analýza dat . Addison-Wesley .
- Benjamini, Y. (1988). „Otevření krabice boxplotu“. Americký statistik . 42 (4): 257–262. doi : 10,2307/2685133 . JSTOR 2685133 .
- Rousseeuw, PJ ; Ruts, I .; Tukey, JW (1999). „Bagplot: Bivariate Boxplot“. Americký statistik . 53 (4): 382–387. doi : 10,2307/2686061 . JSTOR 2686061 .
externí odkazy
- On-line boxová kalkulačka s vysvětlením a příklady (příklad má včelí teplo)
- Beeswarm Boxplot - překrývání frekvenčně chvěného stripchartu na horní část boxového grafu
- Složitý online tvůrce box box plotů s ukázkovými daty - viz také BoxPlotR: webový nástroj pro generování box boxů Spitzer et al. Nature Methods 11, 121–122 (2014)