Systematisk provtagning - Systematic sampling

I undersökningsmetoden är systematisk provtagning en statistisk metod som involverar valet av element från en ordnad provtagningsram . Den vanligaste formen av systematisk provtagning är en ekvivalensmetod . I detta tillvägagångssätt behandlas progression genom listan cirkulärt, med en återgång till toppen när slutet av listan är klar. Provtagnings startar genom att välja ett element i listan på måfå och sedan varje k : te elementet i ramen väljs, där k , är samplingsintervallet (ibland känd som skip ): detta beräknas som:

där n är urvalsstorleken och N är populationsstorleken.

Genom att använda denna procedur har varje element i befolkningen en känd och lika sannolikhet för val (även känd som epsem ). Detta gör systematisk provtagning funktionellt lik enkel slumpmässig sampling (SRS). Det är emellertid inte detsamma som SRS eftersom inte alla möjliga sampel av en viss storlek har lika stor chans att väljas (t.ex. exempel med minst två element intill varandra kommer aldrig att väljas genom systematisk sampling). Det är dock mycket effektivare (om variansen inom det systematiska urvalet är mer än variationen i befolkningen).

Systematisk provtagning ska endast tillämpas om den angivna populationen är logiskt homogen, eftersom systematiska provenheter är jämnt fördelade över populationen. Forskaren måste se till att det valda samplingsintervallet inte döljer ett mönster. Alla mönster skulle hota slumpmässighet.

Exempel: Antag att en stormarknad vill studera sina kunders köpvanor och sedan använda systematisk provtagning kan de välja var tionde eller femtonde kund som går in i snabbköpet och genomför studien på detta prov.

Detta är slumpmässigt provtagning med ett system. Från samplingsramen väljs en startpunkt slumpmässigt och valen därefter sker med jämna mellanrum. Antag till exempel att du vill prova åtta hus från en gata med 120 hus. 120/8 = 15, så var 15: e hus väljs efter en slumpmässig startpunkt mellan 1 och 15. Om den slumpmässiga startpunkten är 11, är de valda husen 11, 26, 41, 56, 71, 86, 101 och 116. Som ett bortfall, om vart 15: e hus var ett "hörnhus" så kunde detta hörnmönster förstöra slumpmässigheten i provet.

Om befolkningen som oftare inte är jämnt delbar (antar att du vill prova 8 hus av 125, där 125/8 = 15,625), ska du ta var 15: e hus eller vart 16: e hus? Om du tar var 16: e hus, 8 * 16 = 128, så det finns en risk att det senast valda huset inte existerar. Å andra sidan, om du tar var 15: e hus, 8 * 15 = 120, så kommer de senaste fem husen aldrig att väljas ut. Den slumpmässiga startpunkten bör istället väljas som ett icke-heltal mellan 0 och 15,625 (inklusive endast en slutpunkt) för att säkerställa att varje hus har samma chans att väljas; intervallet bör nu vara icke-integrerat (15.625); och varje valt icke-heltal ska avrundas upp till nästa heltal. Om den slumpmässiga startpunkten är 3,6, är de valda husen 4, 20, 35, 50, 66, 82, 98 och 113, där det finns 3 cykliska intervall på 15 och 4 intervall på 16.

För att illustrera faran med att systematiskt hoppa över att dölja ett mönster, antar att vi skulle prova ett planerat område där varje gata har tio hus i varje kvarter. Detta placerar hus nr 1, 10, 11, 20, 21, 30 ... på blockhörn; hörnblock kan vara mindre värdefulla, eftersom mer av deras område tas upp av gatan etc. som inte är tillgängligt för byggnadsändamål. Om vi ​​sedan provar vart tionde hushåll, består vårt urval antingen endast av hörnhus (om vi börjar vid 1 eller 10) eller har inga hörnhus (någon annan start); Hur som helst kommer det inte att vara representativt.

Systematisk provtagning kan också användas med icke-lika urvalssannolikheter. I det här fallet, i stället för att helt enkelt räkna igenom element i befolkningen och välja varje k tionde enhet, tilldelar vi varje element ett utrymme längs en talrad enligt dess valssannolikhet. Vi genererar sedan en slumpmässig start från en enhetlig fördelning mellan 0 och 1 och rör oss längs talraden i steg om 1.

Exempel: Vi har en befolkning på 5 enheter (A till E). Vi vill ge enhet A 20% sannolikhet för val, enhet B 40% sannolikhet, och så vidare upp till enhet E (100%). Förutsatt att vi behåller alfabetisk ordning tilldelar vi varje enhet till följande intervall:

A: 0 to 0.2
B: 0.2 to 0.6 (= 0.2 + 0.4)
C: 0.6 to 1.2 (= 0.6 + 0.6)
D: 1.2 to 2.0 (= 1.2 + 0.8)
E: 2.0 to 3.0 (= 2.0 + 1.0)

Om vår slumpmässiga start var 0,156, skulle vi först välja den enhet vars intervall innehåller detta nummer (dvs. A). Därefter skulle vi välja intervallet som innehåller 1.156 (element C) och sedan 2.156 (element E). Om istället vår slumpmässiga start var 0,350 skulle vi välja mellan punkterna 0,350 (B), 1,350 (D) och 2,350 (E).

Referenser

externa länkar

  • TRSL - Template Range Sampling Library är ett gratis programvara och C ++ - bibliotek med öppen källkod som implementerar systematisk sampling bakom ett (STL-liknande) iteratorgränssnitt.