Chyba vzorkování - Sampling error
V statistik , výběrové chyby vznikají při statistické charakteristiky populace se odhadují z podmnožiny, nebo vzorek , z této populace. Protože vzorek nezahrnuje všechny členy populace, statistiky vzorku (často známé jako odhadci ), jako jsou průměrné hodnoty a kvartily, se obecně liší od statistik celé populace (známé jako parametry ). Rozdíl mezi statistikou vzorku a parametrem populace je považován za chybu vzorkování . Pokud například někdo měří výšku tisíce jedinců z populace jednoho milionu, průměrná výška tisíce obvykle není stejná jako průměrná výška celého milionu lidí v zemi.
Vzhledem k tomu, že odběr vzorků se téměř vždy provádí za účelem odhadu neznámých parametrů populace, podle definice nebude přesné měření vzorkovacích chyb možné; nicméně mohou být často odhadnuty, buď obecnými metodami, jako je bootstrapping , nebo specifickými metodami zahrnujícími některé předpoklady (nebo odhady) týkající se skutečné distribuce populace a jejích parametrů.
Popis
Chyba vzorkování
Chyba vzorkování je chyba způsobená pozorováním vzorku místo celého souboru. Chyba vzorkování je rozdíl mezi statistikou vzorku použitou k odhadu parametru populace a skutečnou, ale neznámou hodnotou parametru.
Efektivní vzorkování
Ve statistikách skutečně náhodný vzorek znamená výběr jednotlivců z populace s ekvivalentní pravděpodobností ; jinými slovy, vybírání jednotlivců ze skupiny bez zaujatosti. Pokud to neuděláte správně, bude to mít za následek zkreslení vzorkování , což může dramaticky zvýšit chybu vzorku systematickým způsobem. Například pokus změřit průměrnou výšku celé lidské populace na Zemi, ale změřit vzorek pouze z jedné země, by mohl vést k velkému nadhodnocení nebo podhodnocení. Ve skutečnosti může být získání nezaujatého vzorku obtížné, protože mnoho parametrů (v tomto případě země, věk, pohlaví atd.) Může silně ovlivňovat odhad a je třeba zajistit, aby žádný z těchto faktorů nehrál roli ve výběrovém procesu .
I v dokonale nezaujatém vzorku bude chyba vzorku stále existovat kvůli zbývající statistické složce; vezměte v úvahu, že měření pouze dvou nebo tří jedinců a průměrné hodnoty by přinesly pokaždé velmi odlišné výsledky. Pravděpodobnou velikost chyby vzorkování lze obecně snížit odebráním většího vzorku.
Určení velikosti vzorku
Náklady na zvětšení velikosti vzorku mohou být ve skutečnosti neúměrné. Protože chybu vzorku lze často odhadnout předem jako funkci velikosti vzorku, používají se různé metody stanovení velikosti vzorku k vážení predikované přesnosti odhadce oproti předpokládaným nákladům na odebrání většího vzorku.
Bootstrapping a standardní chyba
Jak bylo diskutováno, statistika vzorku, jako je průměr nebo procento, bude obecně podléhat odchylkám mezi vzorky. Porovnáním mnoha vzorků nebo rozdělením většího vzorku na menší (potenciálně s překrytím) lze pro odhad standardní chyby na vzorku použít rozprostření výsledné statistiky vzorku.
V genetice
Pojem „chyba vzorkování“ byl také použit v příbuzném, ale zásadně odlišném smyslu v oblasti genetiky ; například v efektu zúžení nebo zakladatelském efektu , kdy přírodní katastrofy nebo migrace dramaticky zmenšují velikost populace, což vede k menší populaci, která může, ale nemusí spravedlivě představovat tu původní. Toto je zdrojem genetického driftu , protože některé alely se stávají víceméně běžnými), a bylo označováno jako „chyba vzorkování“, přestože to nebyla „chyba“ ve statistickém smyslu.