Näytteen koon määrittäminen - Sample size determination

Näytteen koon määrittäminen on tilastolliseen otokseen sisällytettävien havaintojen tai toisintojen lukumäärän valitseminen . Otoskoko on tärkeä osa mitä tahansa empiirisen tutkimuksen, jossa tavoitteena on tehdä johtopäätöksiä noin populaation näytteestä. Käytännössä tutkimuksessa käytetty otoskoko määritetään yleensä tietojen keräämisen kustannusten, ajan tai mukavuuden perusteella ja tarpeen tarjota riittävästi tilastollista tehoa . Monimutkaisissa tutkimuksissa otoskokoja voi olla useita: esimerkiksi kerrostetussa tutkimuksessa eri kerrokset olisivat eri kokoisia. Kun laskenta , data haetaan koko populaation siten tarkoitettu näytteen koko on yhtä suuri kuin väestöstä. On kokeellinen suunnittelu , jossa tutkimus voidaan jakaa eri hoitoryhmään , voi olla eri näytekokoa kullekin ryhmälle.

Näytteen koot voidaan valita useilla tavoilla:

  • Kokemuksen käyttö - pienet näytteet, vaikkakin joskus välttämättömiä, voivat johtaa laajoihin luottamusväleihin ja tilastollisten hypoteesitestausten virheiden riskiin .
  • käyttämällä tavoitevarianssia lopputuloksena saadusta näytteestä johdettavaan estimaattiin, eli jos vaaditaan suurta tarkkuutta (kapea luottamusväli), tämä tarkoittaa estimaattorin matalaa tavoitevarianssia.
  • käyttäen tavoitetta tilastollisen testin teholle, jota sovelletaan näytteen keräämisen jälkeen.
  • käyttämällä luottamustasoa, eli mitä suurempi vaadittu luottamustaso, sitä suurempi otoskoko (kun tarkkuusvaatimus on vakio).

Johdanto

Suurempi näyte koot yleensä johtaa lisääntyneeseen tarkkuus , kun arvioitaessa tuntemattomien parametrien. Jos esimerkiksi haluamme tietää tietyn kalalajin osuuden taudinaiheuttajasta, saisimme yleensä tarkemman arvion tästä osuudesta, jos otamme näytteet ja tutkimme 200 kalan sijasta. Useat matemaattisten tilastojen perustiedot kuvaavat tätä ilmiötä, mukaan lukien suurten lukujen laki ja keskusraja -lause .

Joissakin tilanteissa suurempien otoskokojen tarkkuus on minimaalinen tai jopa olematon. Tämä voi johtua järjestelmällisistä virheistä tai voimakkaasta riippuvuudesta tiedoissa tai jos tiedot seuraavat raskasta jakaumaa.

Näytteen koot voidaan arvioida saatujen arvioiden laadun perusteella. Jos esimerkiksi osuutta arvioidaan, halutaan 95%: n luottamusvälin olevan alle 0,06 yksikköä leveä. Vaihtoehtoisesti otoskoko voidaan arvioida hypoteesitestin tehon perusteella. Jos esimerkiksi verrataan tietyn poliittisen ehdokkaan tukea naisten keskuudessa tuen kanssa kyseiseen ehdokkaaseen miesten keskuudessa, saatamme haluta saada 80 prosentin vallan havaita 0,04 yksikön tukitasojen ero.

Arvio

Osuuden arviointi

Suhteellisen yksinkertainen tilanne on osuuden arviointi . Voimme esimerkiksi haluta arvioida niiden asukkaiden osuuden yhteisössä, jotka ovat vähintään 65 -vuotiaita.

Estimaattori on osuus on , jossa X on määrä 'positiivisia' havainnot (esim joukko ihmisiä ulos n otokseen ihmisille, jotka ovat vähintään 65-vuotiaat). Kun havainnot ovat riippumattomia , tämä estimaattori on (skaalattu) binomijakauma (ja se on myös näytteen keskiarvo ja dataa Bernoullin jakauma ). Suurin varianssi Tämän jakelu on 0,25, mikä tapahtuu, kun todellinen parametri on p = 0,5. Käytännössä koska p on tuntematon, enimmäisvarianssia käytetään usein otoskoon arvioinnissa. Jos kohtuullinen arvio p: lle tiedetään, voidaan määrää käyttää 0,25 sijasta.

Riittävän suurella n: llä jakauma on lähellä likimääräistä normaalijakaumaa . Käyttämällä tätä ja Wald -menetelmää binomijakaumassa saadaan lomakkeen luottamusväli

,
jossa Z on vakiomuotoinen Z-pistemäärä halutulle luottamustasolle (1,96 95%: n luottamusvälillä).

Jos haluamme luottamusvälin, joka on W yksikköä kokonaisleveydellä (W/2 näytteen keskiarvon kummallakin puolella), ratkaisemme

ja n , jolloin saatiin näyte koko

Image
otoksen koot binomiasuhteille eri luottamustasoilla ja virhemarginaaleilla

, jos käytetään .5: tä konservatiivisimpana arviona suhteesta. (Huomaa: W/2 = virhemarginaali .)

Alla olevassa kuvassa voidaan havaita, kuinka binomiosuuksien otoskoot muuttuvat eri luottamustasojen ja virhemarginaalien vuoksi.


Muuten kaava olisi , joka tuottaa .

Jos esimerkiksi haluamme arvioida Yhdysvaltojen väestön osuuden, joka tukee tiettyä presidenttiehdokasta, ja haluamme, että 95%: n luottamusvälin leveys on enintään 2 prosenttiyksikköä (0,02), tarvitsemme otoksen koon. /(1,96 2 )/(0,02 2 ) = 9604. Tässä tapauksessa on järkevää käyttää p: n arviota 0,5, koska presidentinvaalit ovat usein lähellä 50/50, ja on myös järkevää käyttää konservatiivista arviota. Virhemarginaali tässä tapauksessa on 1 prosenttiyksikön (puoli 0,02).

Edellinen on yksinkertaistettu ...

muodostaa 95 prosentin luottamusvälin todelliselle osuudelle. Jos tämän välin on oltava enintään W yksikköä leveä, yhtälö

voidaan ratkaista n: lle , jolloin saadaan n  = 4/ W 2  = 1/ B 2, jossa B on estimaattiin sidottu virhe, eli arvio annetaan yleensä ± B: n sisällä . Joten jos B = 10% tarvitaan n = 100, B = 5% tarvitaan n = 400, B = 3% vaatimus lähenee n = 1000, kun taas B = 1% otoskoko n = 10000 vaaditaan. Näitä lukuja lainataan usein mielipidetutkimusten uutisraporteissa ja muissa otantatutkimuksissa . Muista kuitenkin aina, että raportoidut tulokset eivät välttämättä ole tarkka arvo, koska numerot on mieluiten pyöristetty ylöspäin. Tietäen, että arvo n on vähimmäismäärä näytepisteiden tarvitaan hankkia halutun tuloksen, vastaajien määrä sitten tulee sijaita tai yläpuolella minimiin.

Keskiarvon arviointi

Suhde on keskiarvon erityistapaus. Kun arvioidaan populaation keskiarvoa käyttämällä riippumatonta ja identtisesti jaettua (iid) otosta, jonka koko on n , jossa jokaisella data -arvolla on varianssia σ 2 , otoskeskiarvon vakiovirhe on:

Tämä lauseke kuvaa kvantitatiivisesti, kuinka arvio muuttuu tarkemmaksi otoksen koon kasvaessa. Keskiraja -lauseen käyttäminen näytteen keskiarvon lähentämisen perusteluun normaalijakaumalla tuottaa muodon luottamusvälin

,
jossa Z on vakiomuotoinen Z-pistemäärä halutulle luottamustasolle (1,96 95%: n luottamusvälillä).

Jos haluamme luottamusvälin, joka on W yksikköä kokonaisleveydellä (W/2 näytteen keskiarvon kummallakin puolella), ratkaisemme

ja n , jolloin saatiin näyte koko

. (Huomaa: W/2 = virhemarginaali .)

Jos esimerkiksi haluamme arvioida määrän, jolla lääke alentaa kohteen verenpainetta 95 prosentin luottamusvälillä, joka on kuusi yksikköä leveä, ja tiedämme, että verenpaineen keskihajonta väestössä on 15, vaadittu otoskoko on , joka pyöristetään ylöspäin 97: een, koska saatu arvo on pienin otoskoko, ja otoskoon on oltava kokonaislukuja ja sen on oltava lasketun minimin yläpuolella.

Vaaditut otoskoot hypoteesitestejä varten

Yleinen tilastotieteilijöiden kohtaama ongelma on otoksen koon laskeminen, joka vaaditaan tietyn tehon tuottamiseksi testille, kun otetaan huomioon ennalta määrätty tyypin I virheaste α. Tämä voidaan arvioida ennalta määritetyillä taulukoilla tietyille arvoille, Meadin resurssiyhtälöllä tai yleisemmin kumulatiivisella jakautumisfunktiolla :

Taulukot


 
Virta
Cohenin d
0.2 0,5 0.8
0,25 84 14 6
0,50 193 32 13
0,60 246 40 16
0,70 310 50 20
0,80 393 64 26
0,90 526 85 34
0,95 651 105 42
0,99 920 148 58

Oikealla olevaa taulukkoa voidaan käyttää kahden näytteen t-testissä arvioidakseen koeryhmän ja kontrolliryhmän näytteen koot, jotka ovat samankokoisia, eli koehenkilöiden kokonaismäärä tutkimuksessa on kaksinkertainen annetusta numerosta ja haluttu merkitsevyystaso on 0,05. Käytetyt parametrit ovat:

Meadin resurssiyhtälö

Meadin resurssiyhtälöä käytetään usein laboratorioeläinten näytteen koon arviointiin sekä moniin muihin laboratoriokokeisiin. Se ei ehkä ole yhtä tarkka kuin muiden menetelmien käyttäminen otoskoon arvioinnissa, mutta antaa vihjeen siitä, mikä on sopiva otoskoko, jos parametreja, kuten odotettuja keskihajontoja tai odotettuja eroja ryhmien välillä, ei tunneta tai niitä on vaikea arvioida.

Kaikki yhtälön parametrit ovat itse asiassa niiden käsitteiden lukumäärän vapausasteita , ja siksi niiden luvut vähennetään yhdellä ennen kuin ne lisätään yhtälöön.

Yhtälö on:

missä:

  • N on tutkimuksen yksilöiden tai yksiköiden kokonaismäärä (miinus 1)
  • B on estokomponentti , joka edustaa suunnittelussa sallittuja ympäristövaikutuksia (miinus 1)
  • T on hoitokomponentti , joka vastaa käytettävien hoitoryhmien lukumäärää (mukaan lukien kontrolliryhmä ) tai esitettyjen kysymysten lukumäärää (miinus 1)
  • E on virhekomponentin vapausaste , ja sen pitäisi olla jossain välillä 10 ja 20.

Esimerkiksi, jos Tutkimuksessa, jossa käytettiin koe-eläinten suunnitellaan neljään hoitoryhmään ( T = 3), jossa on kahdeksan eläintä ryhmää kohti, jolloin 32 eläinten kokonais-( N = 31), ilman muita kerrostuminen ( B = 0), niin E olisi 28, mikä on 20 raja -arvon yläpuolella, mikä osoittaa, että otoskoko voi olla hieman liian suuri ja kuusi eläintä ryhmää kohden saattaa olla sopivampi.

Kumulatiivinen jakaumafunktio

Olkoon X i , i = 1, 2, ..., n riippumattomia havaintoja, jotka on otettu normaalijakaumasta, jonka keskimääräinen μ on tuntematon ja varianssi σ 2 . Harkitse kahta hypoteesia, nollahypoteesia :

ja vaihtoehtoinen hypoteesi:

jollekin 'pienimmälle merkitsevälle erotukselle' μ *  > 0. Tämä on pienin arvo, jolle välitämme eron havaitsemisesta. Jos haluamme (1) hylätä H 0 : n todennäköisyydellä vähintään 1 -  β, kun H a on totta (eli teho 1 -  β ), ja (2) hylätä H 0 todennäköisyydellä α, kun H 0 on totta, tarvitsemme seuraavaa:

Jos z α on normaalin normaalijakauman ylempi α -prosenttiyksikkö, niin

ja niin

'Hylkää H 0, jos otoksen keskiarvo ( ) on suurempi kuin '

on päätöksen sääntö, joka täyttää (2). (Tämä on yksisuuntainen testi.)

Nyt haluamme tämän tapahtua todennäköisyydellä vähintään 1 -  β kun H on tosi. Tässä tapauksessa näytteen keskiarvo tulee normaalijakaumasta, jonka keskiarvo on μ * . Siksi vaadimme

Huolellisella manipuloinnilla tämä voidaan osoittaa (katso tilastoteho#Esimerkki ) tapahtuvan milloin

missä on normaali kumulatiivinen jakautumistoiminto .

Ositettu otoskoko

Monimutkaisempien näytteenottotekniikoiden, kuten kerrostetun näytteenoton , avulla näyte voidaan usein jakaa osa-näytteisiin. Tyypillisesti, jos on H , kuten osa-näytteet (kohteesta H eri kerrostumat), sitten kukin niistä on näytteen koko n h , h = 1, 2, ..., H . Näiden n h: n on noudatettava sääntöä, että n 1 + n 2 + ... + n H = n (eli että otoksen kokonaiskoo saadaan osa-otoskokojen summasta). Näiden n h: n optimaalinen valinta voidaan tehdä eri tavoin käyttämällä (esimerkiksi) Neymanin optimaalista varausta.

Kerrostetun otannan käyttämiseen on monia syitä: otosarvioiden varianssien vähentämiseksi, osittain ei-satunnaisten menetelmien käyttämiseksi tai kerrosten tutkimiseksi erikseen. Hyödyllinen, osittain ei-satunnainen menetelmä olisi ottaa näytteitä yksilöistä, joihin on helppo päästä, mutta jos ei, otosryhmiä matkakustannusten säästämiseksi.

Yleensä H -kerrosten painotettu näytteen keskiarvo on

kanssa

Painot, usein, mutta eivät aina, edustavat populaatioelementtien osuuksia kerroksissa, ja . Kiinteän näytteen koko, joka on ,

joka voidaan tehdä minimiksi, jos näytteenottotaajuus kussakin osassa tehdään suhteutettuna kunkin kerroksen keskihajontaan:, jossa ja on vakio sellainen .

"Optimaalinen allokointi" saavutetaan, kun kerrosten näytteenottotaajuudet tehdään suoraan verrannollisiksi kerrosten sisäisiin keskihajontoihin ja kääntäen verrannolliset kerroksen elementtikohtaisten näytteenottokustannusten neliöjuureen :

missä on vakio sellainen, että tai yleisemmin, milloin

Laadullinen tutkimus

Otoksen koon määrittäminen laadullisissa tutkimuksissa on erilainen lähestymistapa. Se on yleensä subjektiivinen arvio, kun otetaan huomioon tutkimus. Yksi lähestymistapa on jatkaa osallistujien tai materiaalin ottamista mukaan, kunnes kylläisyys saavutetaan. Kyllästymiseen tarvittava määrä on tutkittu empiirisesti.

Lukuisia luotettavia ohjeita otoskoon arvioimiseksi ennen tutkimuksen aloittamista on tarjolla lukuisia ehdotuksia. Temaattiseen analyysiin on ehdotettu työkalua, joka muistuttaa kvantitatiivista teholaskentaa, joka perustuu negatiiviseen binomijakaumaan .

Katso myös

Huomautuksia

Viitteet

Lue lisää

  • NIST: Näytteen koon valitseminen
  • ASTM E122-07: Vakiokäytäntö näytteen koon laskemiseksi arvioitavaksi, määritellyllä tarkkuudella erän tai prosessin ominaispiirteen keskiarvo

Ulkoiset linkit