Eșantion simplu aleatoriu - Simple random sample

În statistici , un eșantion simplu aleatoriu (sau srs ) este un subgrup de indivizi (un eșantion ) ales dintr-un set mai mare (o populație ) în care un subgrup de indivizi este ales aleatoriu , cu aceeași probabilitate. În srs, fiecare subset de k indivizi are aceeași probabilitate de a fi ales pentru eșantion ca orice alt subset de k indivizi. Un eșantion simplu aleatoriu este o tehnică de eșantionare imparțială. Eșantionarea simplă aleatorie este un tip de bază de eșantionare și poate fi o componentă a altor metode de eșantionare mai complexe.

Introducere

Principiul eșantionării simple aleatorii este că fiecare set de itemi are aceeași probabilitate de a fi ales. De exemplu, să presupunem că N studenți doresc să obțină un bilet pentru un joc de baschet, dar există doar bilete X < N pentru ei, așa că decid să aibă un mod corect de a vedea cine poate merge. Apoi, tuturor li se dă un număr în intervalul de la 0 la N -1, iar numerele aleatoare sunt generate, fie electronic, fie dintr-un tabel de numere aleatorii. Numerele din afara intervalului de la 0 la N -1 sunt ignorate, la fel ca orice numere selectate anterior. Primele X numere ar identifica câștigătorii norocoși ai biletelor.

La populațiile mici și adesea la cele mari, o astfel de eșantionare se face de obicei „ fără înlocuire ”, adică se evită în mod deliberat alegerea oricărui membru al populației de mai multe ori. Deși eșantionarea simplă aleatorie poate fi efectuată cu înlocuire, aceasta este mai puțin frecventă și în mod normal ar fi descrisă mai complet ca eșantionare simplă aleatorie cu înlocuire . Eșantionarea făcută fără înlocuire nu mai este independentă, dar îndeplinește în continuare schimbarea , prin urmare multe rezultate sunt încă valabile. Mai mult, pentru un eșantion mic dintr-o populație mare, eșantionarea fără înlocuire este aproximativ aceeași cu eșantionarea cu înlocuire, deoarece probabilitatea de a alege același individ de două ori este mică.

O selecție aleatorie imparțială a indivizilor este importantă, astfel încât, dacă ar fi extrase multe eșantioane, eșantionul mediu ar reprezenta cu precizie populația. Cu toate acestea, acest lucru nu garantează că un anumit eșantion reprezintă o reprezentare perfectă a populației. Eșantionarea simplă aleatorie permite doar să se tragă concluzii valabile extern despre întreaga populație pe baza eșantionului.

Conceptual, eșantionarea simplă aleatorie este cea mai simplă dintre tehnicile de eșantionare a probabilității. Necesită un cadru complet de eșantionare , care poate să nu fie disponibil sau realizabil pentru populații mari. Chiar dacă este disponibil un cadru complet, abordări mai eficiente pot fi posibile dacă sunt disponibile alte informații utile despre unitățile din populație.

Avantajele sunt că nu conține erori de clasificare și necesită cunoștințe minime avansate ale populației, altele decât cadrul. Simplitatea sa face, de asemenea, relativ ușoară interpretarea datelor colectate în acest mod. Din aceste motive, eșantionarea simplă aleatorie se potrivește cel mai bine situațiilor în care nu sunt disponibile prea multe informații despre populație și colectarea datelor poate fi efectuată în mod eficient pe articole distribuite aleatoriu sau în care costul eșantionării este suficient de mic pentru a face eficiența mai puțin importantă decât simplitatea. Dacă aceste condiții nu sunt valabile, eșantionarea stratificată sau eșantionarea pe grupe poate fi o alegere mai bună.


Relația dintre eșantionul simplu aleatoriu și alte metode

Eșantionare cu probabilitate egală (epsem)

O metodă de eșantionare pentru care fiecare unitate individuală are aceeași șansă de a fi selectată se numește eșantionare cu probabilitate egală (epsem pe scurt).

Utilizarea unui eșantion simplu aleatoriu va duce întotdeauna la un epsem, dar nu toate eșantioanele epsem sunt SRS. De exemplu, dacă un profesor are o clasă aranjată în 5 rânduri de 6 coloane și dorește să ia un eșantion aleatoriu de 5 elevi, ar putea alege una dintre cele 6 coloane la întâmplare. Acesta ar fi un eșantion epsem, dar nu toate subseturile a 5 elevi sunt la fel de probabile aici, deoarece numai subseturile care sunt aranjate ca o singură coloană sunt eligibile pentru selecție. Există, de asemenea, modalități de a construi eșantionare în mai multe etape , care nu sunt srs, în timp ce eșantionul final va fi epsem. De exemplu, eșantionarea sistematică aleatorie produce un eșantion pentru care fiecare unitate individuală are aceeași probabilitate de includere, dar seturi diferite de unități au probabilități diferite de a fi selectate.

Probele care sunt epsem se auto-ponderează , ceea ce înseamnă că inversitatea probabilității de selecție pentru fiecare probă este egală.

Distincția între un eșantion sistematic aleatoriu și un eșantion simplu aleator

Luați în considerare o școală cu 1000 de studenți și presupuneți că un cercetător dorește să selecteze 100 dintre ei pentru studii ulterioare. Toate numele lor ar putea fi puse într-o găleată și apoi ar putea fi scoase 100 de nume. Nu numai că fiecare persoană are șanse egale de a fi selectată, putem calcula cu ușurință și probabilitatea ( P ) ca o anumită persoană să fie aleasă, deoarece știm mărimea eșantionului ( n ) și populația ( N ):

1. În cazul în care o anumită persoană poate fi selectată o singură dată (adică, după selecție, o persoană este eliminată din grupul de selecție):

2. În cazul în care orice persoană selectată este returnată în grupul de selecție (de exemplu, poate fi selectată de mai multe ori):

Aceasta înseamnă că fiecare elev din școală are în orice caz aproximativ o șansă din 10 de a fi selectat folosind această metodă. Mai mult, orice combinație de 100 de studenți are aceeași probabilitate de selecție.

Dacă un model sistematic este introdus în eșantionarea aleatorie, acesta este denumit „eșantionare sistematică (aleatorie)”. Un exemplu ar fi dacă elevii din școală ar avea numere atașate la numele lor, variind de la 0001 la 1000, și am alege un punct de plecare aleatoriu, de exemplu 0533, și apoi am alege fiecare al zecelea nume pentru a ne da eșantionul nostru de 100 (începând cu peste cu 0003 după ce a ajuns la 0993). În acest sens, această tehnică este similară cu eșantionarea în cluster, deoarece alegerea primei unități va determina restul. Aceasta nu mai este o simplă eșantionare aleatorie, deoarece unele combinații de 100 de studenți au o probabilitate de selecție mai mare decât altele - de exemplu, {3, 13, 23, ..., 993} are o șansă de selecție 1/10, în timp ce {1 , 2, 3, ..., 100} nu pot fi selectate în cadrul acestei metode.

Eșantionarea unei populații dihotomice

Dacă membrii populației vin în trei feluri, să spunem „albastru” „roșu” și „negru”, numărul elementelor roșii dintr-un eșantion de dimensiune dată va varia în funcție de eșantion și, prin urmare, este o variabilă aleatorie a cărei distribuție poate fi studiată. Această distribuție depinde de numărul de elemente roșii și negre din întreaga populație. Pentru un eșantion simplu aleator cu înlocuire, distribuția este o distribuție binomială . Pentru un eșantion simplu aleatoriu fără înlocuire, se obține o distribuție hipergeometrică .


Algoritmi

S-au dezvoltat mai mulți algoritmi eficienți pentru eșantionare simplă. Un algoritm naiv este algoritmul draw-by-draw în care la fiecare pas eliminăm elementul din acel pas din set cu probabilitate egală și punem elementul în eșantion. Continuăm până avem un eșantion de dimensiunea dorită . Dezavantajul acestei metode este că necesită acces aleatoriu în set.

Algoritmul de selecție-respingere dezvoltat de Fan și colab. în 1962 necesită o singură trecere a datelor; cu toate acestea, este un algoritm secvențial și necesită cunoașterea numărului total de articole , care nu este disponibil în scenariile de streaming.

Un algoritm de sortare aleatoriu foarte simplu a fost dovedit de Sunter în 1977. Algoritmul atribuie pur și simplu un număr aleatoriu extras dintr-o distribuție uniformă ca cheie pentru fiecare element, apoi sortează toate articolele folosind cheia și selectează cele mai mici elemente.

J. Vitter în 1985 a propus algoritmi de eșantionare a rezervoarelor , care sunt utilizate pe scară largă. Acest algoritm nu necesită în prealabil cunoașterea mărimii populației și folosește spațiu constant.

Eșantionarea aleatorie poate fi, de asemenea, accelerată prin eșantionarea de la distribuirea golurilor între eșantioane și sărind peste goluri.

Vezi si

Referințe

the

linkuri externe