Box tomt - Box plot

Image
Figur 1. Låddiagram med data från Michelson -experimentet

I beskrivande statistik , en lådagram eller boxplot är en metod för att grafiskt visa grupper av numerisk data genom sina kvartiler . Boxdiagram kan också ha linjer som sträcker sig från boxarna ( morrhåren ) som indikerar variation utanför de övre och nedre kvartilerna, därav termerna box-and-whisker plot och box-and-whisker-diagram . Outliers kan plottas som individuella poäng. Boxdiagram är icke-parametriska : de visar variation i prover av en statistisk population utan att göra några antaganden om den underliggande statistiska fördelningen (även om Tukey's boxplot antar symmetri för whiskers och normalitet för deras längd). Avstånden mellan lådans olika delar indikerar graden av spridning (spridning) och snedhet i data och visar avvikande . Förutom själva punkterna tillåter de en att visuellt uppskatta olika L-uppskattare , särskilt interkvartilintervallet , midhinge , range , mid-range och trimean . Lådor kan ritas antingen horisontellt eller vertikalt. Box tomter fick sitt namn från rutan i mitten, och från tomten som de är.

Historia

Områdefältet introducerades av Mary Eleanor Spear 1952 och återigen 1969. Boxen och whiskers plot introducerades först 1970 av John Tukey , som senare publicerade om ämnet i sin bok "Exploratory Data Analysis" 1977.

Element

Image
Figur 2. Boxplot med morrhår från minimum till maximalt
Image
Figur 3. Samma Boxplot med morrhår med högst 1,5 IQR

En boxplot är ett standardiserat sätt att visa datauppsättningen baserat på en femsiffrig sammanfattning : minimum, max, provmedian och första och tredje kvartiler.

  • Minimum ( Q 0 eller 0 : e percentilen ) : den lägsta datapunkten exklusive eventuella avvikelser.
  • Maximal ( Q 4 eller 100: e percentilen) : den största datapunkten exklusive eventuella avvikelser.
  • Median ( Q 2 eller 50: e percentilen) : mitten av datauppsättningen.
  • Första kvartilen ( Q 1 eller 25: e percentilen) : även känd som den nedre kvartilen q n (0,25), är medianen för den nedre halvan av datamängden.
  • Tredje kvartil ( Q 3 eller 75: e percentilen) : även känd som den övre kvartilen q n (0,75), är medianen för den övre halvan av datamängden.

Ett viktigt element som används för att konstruera låddiagrammet genom att bestämma de lägsta och högsta datavärdena som är möjliga, men som inte ingår i ovannämnda femsiffriga sammanfattning, är interkvartilintervallet eller IQR som anges nedan:

En boxplot är uppbyggd av två delar, en låda och en uppsättning morrhår som visas i figur 2. Den lägsta punkten är datamängden och den högsta punkten är datamängden. Rutan dras från Q 1 till Q 3 med en horisontell linje ritad i mitten för att beteckna medianen.

Samma datauppsättning kan också representeras som en boxplot som visas i figur 3. Ovanför den övre kvartilen mäts ett avstånd på 1,5 gånger IQR och en morrhår tas upp till den största observerade punkten från datamängden som faller inom denna distans. På samma sätt mäts ett avstånd på 1,5 gånger IQR under den nedre kvartilen och en whisker dras upp till den lägre observerade punkten från datamängden som faller inom detta avstånd. Alla andra observerade punkter plottas som avvikare.

Morrhåren kan dock representera flera alternativa värden, bland dem:

  • lägsta och högsta av all data (som i figur 2)
  • en standardavvikelse över och under dataens medelvärde
  • den nionde percentilen och den 91: e percentilen
  • den andra percentilen och den 98: e percentilen.

All data som inte ingår mellan morrhåren ska plottas som en outlier med en prick, liten cirkel eller stjärna, men ibland görs detta inte.

Vissa boxdiagram innehåller ett ytterligare tecken som representerar medelvärdet för data.

På vissa lådplaner placeras en crosshatch på varje morrhår, innan morrhårets slut.

I sällsynta fall kan boxplot presenteras utan whiskers alls.

På grund av denna variabilitet är det lämpligt att beskriva konventionen som används för morrhåren och avvikarna i bildtexten för tomten.

De ovanliga percentilerna 2%, 9%, 91%, 98%används ibland för whisker-korsluckor och whisker-ändar för att visa sammanfattningen med sju siffror . Om data normalt distribueras kommer platserna för de sju märkena på rutan att vara lika fördelade.

Variationer

Image
Figur 4. Fyra boxdiagram, med och utan hack och variabel bredd

Sedan matematikern John W. Tukey populariserade denna typ av visuell dataskärm 1969, har flera variationer av den traditionella lådan beskrivits. Två av de vanligaste är lådor med variabel bredd och lådor (se figur 4).

Boxdiagram med variabel bredd illustrerar storleken på varje grupp vars data plottas genom att göra rutans bredd proportionell mot gruppens storlek. En populär konvention är att göra rutans bredd proportionell mot kvadratroten för gruppens storlek.

Notched box tomter tillämpar ett "hack" eller förträngning av rutan runt medianen. Notches är användbara för att erbjuda en grov guide till betydelsen av skillnaden i medianer; om hacken på två lådor inte överlappar varandra ger detta bevis på en statistiskt signifikant skillnad mellan medianerna. Bredden på skårorna är proportionell mot provets interkvartilintervall (IQR) och omvänt proportionellt mot kvadratroten av provets storlek. Det råder dock osäkerhet om den mest lämpliga multiplikatorn (eftersom detta kan variera beroende på likheten mellan varianterna i proverna). En konvention är att använda .

Justerade låddiagram är avsedda för skeva fördelningar . De förlitar sig på medstegsstatistiken om skevhet. För ett medelvärde på MC definieras längderna på den övre och nedre morrhåren

För symmetriska fördelningar kommer medelparet att vara noll, och detta minskar till Tukey's boxplot med lika morrhårslängder på för båda morrhåren.

Andra typer av tomter som fiolplottar och böna tomter kan visa skillnaden mellan enkelmodala och multimodala distributioner, en skillnad som inte kan ses med den ursprungliga boxplot.

Exempel

Exempel utan avvikelser

Image
Figur 5. Den genererade boxplot -figuren i exemplet till vänster utan avvikelser.

En serie timtemperaturer mättes under hela dagen i grader Fahrenheit. De registrerade värdena listas i följande ordning: 57, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 81.

En rutdiagram över data kan genereras genom att beräkna fem relevanta värden: minimum, maximum, median, första kvartil och tredje kvartil.

Minimikravet är det minsta antalet i uppsättningen. I detta fall är lägsta dagstemperatur 57 ° F.

Högsta är uppsättningens största antal. I detta fall är den maximala dagstemperaturen 81 ° F.

Medianen är det "mellersta" numret på den beställda uppsättningen. Det betyder att det finns exakt 50% av elementen mindre än medianen och 50% av elementen större än medianen. Medianen för denna beställda uppsättning är 70 ° F.

Det första kvartilvärdet är det tal som markerar en fjärdedel av den beställda uppsättningen. Med andra ord finns det exakt 25% av elementen som är mindre än den första kvartilen och exakt 75% av elementen som är större. Det första kvartilvärdet kan enkelt bestämmas genom att hitta det "mellersta" talet mellan minimum och median. För timtemperaturerna är "mitten" mellan 57 ° F och 70 ° F 66 ° F.

Det tredje kvartilvärdet är det nummer som markerar tre fjärdedelar av den beställda uppsättningen. Med andra ord finns det exakt 75% av elementen som är mindre än den tredje kvartilen och 25% av elementen som är större. Det tredje kvartilvärdet kan enkelt bestämmas genom att hitta det "mellersta" talet mellan medianen och maxvärdet. För timtemperaturerna är "mitten" mellan 70 ° F och 81 ° F 75 ° F.

Interkvartilintervallet, eller IQR, kan beräknas:

Därav,

1.5 IQR ovanför den tredje kvartilen är:

1.5IQR under den första kvartilen är:

Den övre morrhåren på låddiagrammet är det största datamängden som är mindre än 1,5 IQR ovanför den tredje kvartilen. Här är 1,5IQR ovanför den tredje kvartilen 88,5 ° F och max är 81 ° F. Därför dras den övre morrhåren till värdet av max, 81 ° F.

På samma sätt är den nedre morrhåren i låddiagrammet det minsta datasetnummer som är större än 1,5 IQR under den första kvartilen. Här är 1,5IQR under den första kvartilen 52,5 ° F och lägsta är 57 ° F. Därför dras den nedre morrhåren till värdet av lägsta, 57 ° F.

Exempel med outliers

Image
Figur 6. Den genererade boxplot i exemplet till vänster med outliers.

Ovan är ett exempel utan outliers. Här är ett uppföljningsexempel med outliers:

Den beställda uppsättningen är: 52, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79 , 89.

I det här exemplet ändras endast det första och det sista numret. Medianen, den tredje kvartilen och den första kvartilen förblir desamma.

I detta fall är max 89 ° F och 1,5IQR över den tredje kvartilen 88,5 ° F. Högsta tillåtna är större än 1,5 IQR plus den tredje kvartilen, så max är en outlier. Därför dras den övre morrhåren till det största värdet mindre än 1,5 IQR ovanför den tredje kvartilen, som är 79 ° F.

På samma sätt är minimum 52 ° F och 1,5IQR under den första kvartilen är 52,5 ° F. Minimikravet är mindre än 1,5IQR minus den första kvartilen, så minimumet är också en outlier. Därför dras den nedre morrhåren till det minsta värdet större än 1,5IQR under den första kvartilen, som är 57 ° F.

När det gäller stora datamängder

Allmän ekvation för att beräkna empiriska kvantiler

Med exemplet ovanifrån med 24 datapunkter, vilket betyder n  = 24, kan man också beräkna medianen, första och tredje kvartilen matematiskt mot visuellt.

Median  :

Första kvartilen  :

Tredje kvartilen  :

Visualisering

Image
Figur 7. Boxplot och en sannolikhetsdensitetsfunktion (pdf) för en normal N (0,1σ 2 ) befolkning

Låddiagrammet möjliggör snabb grafisk undersökning av en eller flera datamängder. Boxdiagram kan verka mer primitiva än ett uppskattning av histogram eller kärntäthet men de har vissa fördelar. De tar mindre plats och är därför särskilt användbara för att jämföra fördelningar mellan flera grupper eller datamängder (se figur 1 för ett exempel). Val av antal och bredd av soptunnor kan kraftigt påverka utseendet på ett histogram, och valet av bandbredd kan i hög grad påverka utseendet på en uppskattning av kärntäthet.

Eftersom det är mer vanligt att titta på en statistisk fördelning än att titta på en låddiagram, kan jämförelse av låddiagrammet med sannolikhetstäthetsfunktionen (teoretiskt histogram) för en normal N (0, σ 2 ) fördelning vara ett användbart verktyg för att förstå låddiagrammet (Figur 7).

Image
Figur 8. Boxplots som visar skevhet

Se även

Referenser

Vidare läsning

externa länkar