Liczenie danych - Count data

W statystykach , dane count jest typ danych statystycznych , typ danych , w których obserwacje mogą wziąć tylko nieujemne całkowite wartości {0, 1, 2, 3, ...}, a gdzie te wynikają z całkowitymi licząc raczej niż ranking . Statystyczne podejście do danych zliczeniowych różni się od traktowania danych binarnych , w których obserwacje mogą przyjmować tylko dwie wartości, zwykle reprezentowane przez 0 i 1, oraz od danych porządkowych , które mogą również składać się z liczb całkowitych, ale poszczególne wartości przypadają na arbitralna skala i tylko względny ranking jest ważny

Policz zmienne

Pojedynczy fragment danych zliczeniowych jest często nazywany zmienną licznikową . Gdy taka zmienna jest traktowana jako zmienna losowa , do reprezentacji jej rozkładu powszechnie stosuje się rozkłady Poissona , dwumianowe i ujemne dwumianowe .

Badanie graficzne

Graficzne badanie danych zliczeniowych może być wspomagane przez zastosowanie transformacji danych wybranych tak, aby miały właściwość stabilizowania wariancji próbki. W szczególności transformacja pierwiastkowa może być używana, gdy dane można aproksymować rozkładem Poissona (chociaż inne transformacje mają nieznacznie ulepszone właściwości), podczas gdy odwrotna transformacja sinusoidalna jest dostępna, gdy preferowany jest rozkład dwumianowy .

Powiązanie danych zliczania z innymi zmiennymi

Tutaj zmienna licznikowa byłaby traktowana jako zmienna zależna . Metody statystyczne, takie jak najmniejsze kwadraty i analiza wariancji, są przeznaczone do obsługi ciągłych zmiennych zależnych. Można je zaadaptować do obsługi danych zliczania za pomocą przekształceń danych, takich jak transformacja pierwiastkowa , ale takie metody mają kilka wad; są one w najlepszym przypadku przybliżone i szacunkowe parametry , które często są trudne do zinterpretowania.

Rozkład Poissona może stanowić podstawę niektórych analiz danych liczebności iw tym przypadku można zastosować regresję Poissona . Ten szczególny przypadek klasy uogólnionych modeli liniowych , które również zawiera specyficzne formy modelu, który za pomocą rozkładu dwumianowego ( regresji dwuczłonową , regresja logistyczna ) lub ujemnego rozkładu dwumianowego gdzie założenia modelu Poissona jest naruszona, szczególnie gdy zakres wartości zliczania jest ograniczony lub występuje nadmierna dyspersja .

Zobacz też

Dalsza lektura

  • Cameron, AC ; Trivedi, PK (2013). Regression Analysis of Count Data Book (wydanie drugie). Cambridge University Press. ISBN 978-1-107-66727-3.
  • Hilbe, Joseph M. (2011). Negatywna regresja dwumianowa (wydanie drugie). Cambridge University Press. ISBN 978-0-521-19815-8.
  • Winkelmann, Rainer (2008). Ekonometryczna analiza danych zliczania (wyd. Piąte). Skoczek. doi : 10.1007 / 978-3-540-78389-3 . ISBN 978-3-540-77648-2.