Simpel stikprøve - Simple random sample

I statistik er en simpel tilfældig stikprøve (eller srs ) en delmængde af individer (en prøve ) valgt fra et større sæt (en population ), hvor en delmængde af individer vælges tilfældigt , alle med samme sandsynlighed. I srs har hver delmængde af k individer den samme sandsynlighed for at blive valgt til prøven som enhver anden delmængde af k individer. En simpel stikprøve er en uvildig prøveudtagningsteknik. Simpel stikprøveudtagning er en grundlæggende type prøveudtagning og kan være en komponent i andre mere komplekse prøveudtagningsmetoder.

Introduktion

Princippet for simpel stikprøveudtagning er, at hvert sæt elementer har samme sandsynlighed for at blive valgt. Antag for eksempel, at N universitetsstuderende ønsker at få en billet til en basketballkamp, men der er kun X < N billetter til dem, så de beslutter sig for at have en fair måde at se, hvem der skal gå. Derefter får alle et tal i området fra 0 til N -1, og tilfældige tal genereres, enten elektronisk eller fra en tabel med tilfældige tal. Tal uden for området fra 0 til N -1 ignoreres, ligesom alle tidligere valgte tal. De første X -tal identificerer de heldige billetvindere.

I små populationer og ofte i store foretages sådan prøveudtagning typisk " uden erstatning ", dvs. man bevidst undgår at vælge et medlem af befolkningen mere end én gang. Selvom simpel stikprøveudtagning i stedet kan udføres med udskiftning, er dette mindre almindeligt og vil normalt blive beskrevet mere fuldstændigt som simpel stikprøveudtagning med udskiftning . Prøvetagning udført uden udskiftning er ikke længere uafhængig, men tilfredsstiller stadig udvekslingsevne , derfor holder mange resultater stadig. Ydermere er prøveudtagning uden udskiftning for en lille prøve fra en stor population omtrent det samme som prøveudtagning med udskiftning, da sandsynligheden for at vælge det samme individ to gange er lav.

Et upartisk tilfældigt udvalg af individer er vigtigt, så hvis der blev trukket mange prøver, ville den gennemsnitlige prøve præcist repræsentere befolkningen. Dette garanterer imidlertid ikke, at en bestemt prøve er en perfekt repræsentation af befolkningen. Simpel stikprøveudtagning giver kun mulighed for at drage eksternt gyldige konklusioner om hele populationen baseret på stikprøven.

Konceptuelt er simpel stikprøveudtagning den enkleste af sandsynlighedsudtagningsteknikkerne. Det kræver en komplet prøveudtagningsramme , som muligvis ikke er tilgængelig eller mulig at konstruere for store populationer. Selvom der er en komplet ramme tilgængelig, kan mere effektive fremgangsmåder være mulige, hvis der findes anden nyttig information om enhederne i befolkningen.

Fordele er, at den er fri for klassificeringsfejl, og den kræver minimum forhåndskendskab til befolkningen bortset fra rammen. Dens enkelhed gør det også relativt let at fortolke data indsamlet på denne måde. Af disse grunde passer simpel stikprøveudtagning bedst til situationer, hvor der ikke er meget information tilgængelig om befolkningen, og dataindsamling effektivt kan udføres på tilfældigt distribuerede emner, eller hvor omkostningerne ved prøveudtagning er lille nok til at gøre effektiviteten mindre vigtig end enkelhed. Hvis disse betingelser ikke holder, kan stratificeret prøvetagning eller klyngeudtagning være et bedre valg.

Forholdet mellem simpel stikprøve og andre metoder

Prøveudtagning af lige sandsynlighed (epsem)

En prøveudtagningsmetode, for hvilken hver enkelt enhed har samme chance for at blive udvalgt, kaldes prøve med lige sandsynlighed (epsem for kort).

Brug af en simpel stikprøve vil altid føre til et epsem, men ikke alle epsem -prøver er SRS. For eksempel, hvis en lærer har en klasse arrangeret i 5 rækker med 6 kolonner, og hun vil tage en stikprøve på 5 elever, kan hun vælge en af de 6 kolonner tilfældigt. Dette ville være en epsem -prøve, men ikke alle undergrupper af 5 elever er lige sandsynlige her, da kun de undergrupper, der er arrangeret som en enkelt kolonne, er berettigede til valg. Der er også måder at konstruere multistage sampling , der ikke er srs, mens den sidste prøve vil være epsem. For eksempel producerer systematisk stikprøveudtagning en prøve, for hvilken hver enkelt enhed har samme sandsynlighed for inklusion, men forskellige sæt enheder har forskellige sandsynligheder for at blive valgt.

Prøver, der er epsem er selvstændige vægtning , hvilket betyder, at den inverse udvælgelse sandsynlighed for hver prøve er lig.

Skelnen mellem en systematisk stikprøve og en simpel stikprøve

Overvej en skole med 1000 elever, og antag, at en forsker ønsker at vælge 100 af dem til videre undersøgelse. Alle deres navne kan blive lagt i en spand, og derefter kan 100 navne trækkes ud. Hver person har ikke alene en lige chance for at blive udvalgt, vi kan også let beregne sandsynligheden ( P ) for, at en given person bliver valgt, da vi kender stikprøvestørrelsen ( n ) og populationen ( N ):

1. I tilfælde af at en given person kun kan vælges én gang (dvs. efter udvælgelse fjernes en person fra udvalgspuljen):

{\ displaystyle {\ begin {align} P & = 1-{\ frac {N-1} {N}} \ cdot {\ frac {N-2} {N-1}} \ cdot \ cdots \ cdot {\ frac {Nn} {N- (n-1)}} \\ [8pt] & {\ stackrel {\ text {Annullering:}} {=}} 1-{\ frac {Nn} {N}} \\ [8pt ] & = {\ frac {n} {N}} \\ [8pt] & = {\ frac {100} {1000}} \\ [8pt] & = 10 \%\ end {align}}}

2. I tilfælde af at en valgt person returneres til udvælgelsespuljen (dvs. kan vælges mere end én gang):

{\ displaystyle P = 1- \ venstre (1-{\ frac {1} {N}} \ højre)^{n} = 1- \ venstre ({\ frac {999} {1000}} \ højre)^{ 100} = 0,0952 \ prikker \ ca. 9,5 \%}

Det betyder, at hver elev på skolen under alle omstændigheder har cirka 1 ud af 10 chance for at blive valgt med denne metode. Endvidere har enhver kombination af 100 studerende den samme sandsynlighed for valg.

Hvis et systematisk mønster indføres i tilfældig prøveudtagning, kaldes det "systematisk (tilfældig) prøveudtagning". Et eksempel ville være, hvis eleverne på skolen havde numre knyttet til deres navne fra 0001 til 1000, og vi valgte et tilfældigt udgangspunkt, f.eks. 0533, og derefter valgte hvert tiende navn for at give os vores prøve på 100 (starter forfra med 0003 efter at have nået 0993). I denne forstand ligner denne teknik klyngeudtagning, da valget af den første enhed vil bestemme resten. Dette er ikke længere simpel stikprøveudtagning, fordi nogle kombinationer af 100 elever har en større udvælgelsessandsynlighed end andre - for eksempel har {3, 13, 23, ..., 993} en 1/10 chance for udvælgelse, mens {1 , 2, 3, ..., 100} kan ikke vælges under denne metode.

Prøveudtagning af en dikotom befolkning

Hvis befolkningens medlemmer findes i tre slags, siger "blå" "rød" og "sort", vil antallet af røde elementer i en prøve af en given størrelse variere efter prøve og er derfor en tilfældig variabel, hvis fordeling kan studeres. Denne fordeling afhænger af antallet af røde og sorte elementer i hele befolkningen. For en simpel stikprøve med udskiftning er fordelingen en binomisk fordeling . For en simpel stikprøve uden udskiftning opnår man en hypergeometrisk fordeling .

Algoritmer

Flere effektive algoritmer til simpel stikprøveudtagning er blevet udviklet. En naiv algoritme er draw-by-draw-algoritmen, hvor vi ved hvert trin fjerner elementet på det trin fra sættet med samme sandsynlighed og sætter elementet i prøven. Vi fortsætter, indtil vi har prøve i ønsket størrelse . Ulempen ved denne metode er, at den kræver tilfældig adgang i sættet. ${\ displaystyle k}$

Selektions-afvisningsalgoritmen udviklet af Fan et al. i 1962 kræver en enkelt overførsel af data; det er imidlertid en sekventiel algoritme og kræver viden om det samlede antal varer , som ikke er tilgængeligt i streaming -scenarier. ${\ displaystyle n}$

En meget enkel tilfældig sorteringsalgoritme blev bevist af Sunter i 1977. Algoritmen tildeler ganske enkelt et tilfældigt tal trukket fra ensartet distribution som en nøgle til hvert element, derefter sorterer alle elementer ved hjælp af nøglen og vælger de mindste emner. ${\ displaystyle (0,1)}$ ${\ displaystyle k}$

J. Vitter i 1985 foreslog reservoirprøve -algoritmer, som er meget udbredt. Denne algoritme kræver ikke kendskab til befolkningens størrelse på forhånd og bruger konstant plads. ${\ displaystyle n}$

Tilfældig prøveudtagning kan også fremskyndes ved stikprøveudtagning fra fordelingen af huller mellem prøver og springe over hullerne.

Languages

In other projects

Simpel stikprøve - Simple random sample

Indhold

Introduktion

Forholdet mellem simpel stikprøve og andre metoder

Prøveudtagning af lige sandsynlighed (epsem)

Skelnen mellem en systematisk stikprøve og en simpel stikprøve

Prøveudtagning af en dikotom befolkning

Algoritmer

Se også

Referencer

eksterne links