Enkelt slumpmässigt urval - Simple random sample

I statistiken är ett enkelt slumpmässigt urval (eller srs ) en delmängd av individer (ett urval ) valda ur en större uppsättning (en population ) där en delmängd av individer väljs slumpmässigt , alla med samma sannolikhet. I srs har varje delmängd av k individer samma sannolikhet att bli vald för urvalet som alla andra delmängder av k individer. Ett enkelt slumpmässigt urval är en opartisk provtagningsteknik. Enkelt slumpmässigt urval är en grundläggande typ av provtagning och kan vara en del av andra mer komplexa provtagningsmetoder.

Introduktion

Principen för enkel slumpmässig provtagning är att varje uppsättning objekt har samma sannolikhet att bli vald. Anta till exempel att N -studenter vill få en biljett till ett basketmatch, men det finns bara X < N -biljetter till dem, så de bestämmer sig för att ha ett rättvist sätt att se vem som får gå. Sedan får alla ett nummer i intervallet från 0 till N -1, och slumpmässiga nummer genereras, antingen elektroniskt eller från en tabell med slumpmässiga nummer. Tal utanför intervallet från 0 till N -1 ignoreras, liksom alla nummer som tidigare valts. De första X -numren skulle identifiera de lyckliga biljettvinnarna.

I små populationer och ofta i stora görs sådana provtagningar vanligtvis " utan ersättning ", det vill säga man avser medvetet att välja någon medlem av befolkningen mer än en gång. Även om enkel slumpmässig provtagning kan utföras med ersättning istället, är detta mindre vanligt och skulle normalt beskrivas mer fullständigt som enkel slumpmässig provtagning med ersättning . Provtagning som görs utan utbyte är inte längre oberoende, men uppfyller fortfarande utbytbarheten , varför många resultat fortfarande håller. För ett litet urval från en stor population är provtagning utan ersättning ungefär densamma som provtagning med ersättning, eftersom sannolikheten att välja samma individ två gånger är låg.

Ett opartiskt slumpmässigt urval av individer är viktigt så att om många prover togs skulle medelprovet exakt representera befolkningen. Detta garanterar dock inte att ett visst urval är en perfekt representation av befolkningen. Enkelt slumpmässigt urval gör det bara möjligt att dra externt giltiga slutsatser om hela populationen baserat på urvalet.

Konceptuellt är enkel slumpmässig provtagning den enklaste av sannolikhetsprovtagningsteknikerna. Det kräver en komplett provtagningsram , som kanske inte är tillgänglig eller genomförbar för stora populationer. Även om en komplett ram är tillgänglig kan mer effektiva tillvägagångssätt vara möjliga om annan användbar information finns tillgänglig om enheterna i befolkningen.

Fördelar är att det är fritt från klassificeringsfel, och det kräver minsta förkunskap om befolkningen förutom ramen. Dess enkelhet gör det också relativt enkelt att tolka data som samlas in på detta sätt. Av dessa skäl passar enkel slumpmässig provtagning bäst i situationer där det inte finns mycket information om befolkningen och datainsamling kan utföras effektivt på slumpmässigt fördelade objekt, eller där kostnaden för provtagning är liten nog för att göra effektiviteten mindre viktig än enkelhet. Om dessa villkor inte håller kan stratifierad provtagning eller klusterprovtagning vara ett bättre val.


Förhållandet mellan enkelt slumpmässigt urval och andra metoder

Samma sannolikhetsprovtagning (epsem)

En provtagningsmetod för vilken varje enskild enhet har samma chans att bli vald kallas lika sannolikhetsprovtagning (kortfattat epsem).

Att använda ett enkelt slumpmässigt prov leder alltid till ett epsem, men inte alla epsem -prover är SRS. Till exempel, om en lärare har en klass ordnad i 5 rader med 6 kolumner och hon vill ta ett slumpmässigt urval av 5 elever kan hon välja en av de 6 kolumnerna slumpmässigt. Detta skulle vara ett epsem -urval, men inte alla delmängder med 5 elever är lika troliga här, eftersom endast delmängderna som är ordnade som en enda kolumn kan väljas. Det finns också sätt att konstruera flerstegs provtagning , som inte är srs, medan det sista provet kommer att vara epsem. Till exempel producerar systematiskt slumpmässigt urval ett prov för vilket varje enskild enhet har samma sannolikhet för inkludering, men olika uppsättningar enheter har olika sannolikheter att bli valda.

Prover som är epsem är självviktande , vilket innebär att inversen av urvalssannolikhet för varje prov är lika.

Skillnad mellan ett systematiskt slumpmässigt urval och ett enkelt slumpmässigt urval

Tänk på en skola med 1000 elever och anta att en forskare vill välja 100 av dem för vidare studier. Alla deras namn kan läggas i en hink och sedan kan 100 namn dras ut. Varje person har inte bara lika stor chans att bli utvald, vi kan också enkelt beräkna sannolikheten ( P ) för att en given person väljs, eftersom vi känner till urvalet ( n ) och befolkningen ( N ):

1. Om en viss person bara kan väljas en gång (dvs efter urvalet tas en person bort från urvalspoolen):

2. Om en vald person återförs till urvalspoolen (dvs kan plockas mer än en gång):

Det betyder att varje elev i skolan i alla fall har ungefär 1 av 10 chans att bli vald med denna metod. Varje kombination av 100 studenter har dessutom samma sannolikhet att välja.

Om ett systematiskt mönster införs i slumpmässig provtagning kallas det "systematisk (slumpmässig) provtagning". Ett exempel skulle vara om eleverna i skolan hade siffror kopplade till deras namn från 0001 till 1000, och vi valde en slumpmässig utgångspunkt, t.ex. 0533, och sedan valde vart tionde namn för att ge oss vårt urval på 100 (börjar om med 0003 efter att ha nått 0993). I denna mening liknar denna teknik klusterprovtagning, eftersom valet av den första enheten kommer att avgöra resten. Detta är inte längre enkel slumpmässig provtagning, eftersom vissa kombinationer av 100 elever har en större urvalssannolikhet än andra - till exempel har {3, 13, 23, ..., 993} en 1/10 chans att välja, medan {1 , 2, 3, ..., 100} kan inte väljas enligt denna metod.

Provtagning av en dikotom befolkning

Om medlemmarna i befolkningen finns i tre slag, säg "blå" "röd" och "svart", kommer antalet röda element i ett urval av given storlek att variera beroende på prov och är därför en slumpmässig variabel vars fördelning kan studeras. Den fördelningen beror på antalet röda och svarta element i hela befolkningen. För ett enkelt slumpmässigt prov med ersättning är fördelningen en binomial fördelning . För ett enkelt slumpmässigt prov utan ersättning får man en hypergeometrisk fördelning .


Algoritmer

Flera effektiva algoritmer för enkel slumpmässig provtagning har utvecklats. En naiv algoritm är draw-by-draw-algoritmen där vi vid varje steg tar bort objektet i det steget från uppsättningen med lika stor sannolikhet och lägger objektet i provet. Vi fortsätter tills vi har prov på önskad storlek . Nackdelen med denna metod är att den kräver slumpmässig åtkomst i uppsättningen.

Urval-avvisningsalgoritmen utvecklad av Fan et al. 1962 kräver en enda överföring av data; det är dock en sekventiell algoritm och kräver kunskap om det totala antalet objekt , vilket inte är tillgängligt i strömmingsscenarier.

En mycket enkel slumpmässig sorteringsalgoritm bevisades av Sunter 1977. Algoritmen tilldelar helt enkelt ett slumpmässigt tal från enhetlig distribution som en nyckel till varje objekt, sorterar sedan alla objekt med nyckeln och väljer de minsta objekten.

J. Vitter 1985 föreslog provtagningsalgoritmer för reservoarer , som används i stor utsträckning. Denna algoritm kräver inte kunskap om befolkningens storlek i förväg och använder konstant utrymme.

Slumpmässig provtagning kan också påskyndas genom provtagning från fördelningen av luckor mellan proverna och hoppa över luckorna.

Se även

Referenser

de

externa länkar