Tip de date statistice - Statistical data type

În statistici , grupurile de puncte de date individuale pot fi clasificate ca aparținând oricărui tip de date statistice diferite , de exemplu, categorice („roșu”, „albastru”, „verde”), număr real (1,68, -5, 1,7e + 6) , număr impar (1,3,5) etc. Tipul de date este o componentă fundamentală a conținutului semantic al variabilei și controlează ce fel de distribuții de probabilitate pot fi utilizate în mod logic pentru a descrie variabila, operațiunile permise pe variabilă, tipul de analiză de regresie utilizat pentru a prezice variabila, etc. Conceptul de tip de date este similar cu conceptul de nivel de măsurare , dar mai specific: De exemplu, datele de numărare necesită o distribuție diferită (de exemplu, o distribuție Poisson sau o distribuție binomială ) decât necesită date nevalorificate în valoare reală , dar ambele se încadrează sub același nivel de măsurare (o scală a raportului).

Au fost făcute diverse încercări pentru a produce o taxonomie a nivelurilor de măsurare . Psihofizicul Stanley Smith Stevens a definit scalele nominale, ordinale, de interval și de raport. Măsurătorile nominale nu au o ordine semnificativă de rang între valori și permit orice transformare unu în unu. Măsurările ordinale au diferențe precise între valorile consecutive, dar au o ordine semnificativă pentru acele valori și permit orice transformare de păstrare a ordinii. Măsurătorile la intervale au distanțe semnificative între măsurătorile definite, dar valoarea zero este arbitrară (ca în cazul măsurărilor de longitudine și temperatură în Celsius sau Fahrenheit ) și permit orice transformare liniară. Măsurătorile raportului au atât o valoare semnificativă zero, cât și distanțele dintre diferitele măsurători definite și permit orice transformare de redimensionare.

Deoarece variabilele care se conformează numai măsurărilor nominale sau ordinale nu pot fi măsurate în mod rezonabil numeric, uneori sunt grupate ca variabile categorice , în timp ce măsurările de raport și de intervale sunt grupate ca variabile cantitative , care pot fi discrete sau continue , datorită naturii lor numerice. Astfel de distincții pot fi deseori corelate cu tipul de date în informatică, în faptul că variabilele categorice dicotomice pot fi reprezentate cu tipul de date booleane , variabile categorice politome cu numere întregi alocate arbitrar în tipul de date integral și variabile continue cu tipul de date reale care implică calcul flotant . Dar maparea tipurilor de date informatice cu tipurile de date statistice depinde de ce categorizare a acestora din urmă este pusă în aplicare.

Au fost propuse și alte categorizări. De exemplu, Mosteller și Tukey (1977) distingeau note, ranguri, fracțiuni numărate, cifre, sume și solduri. Nelder (1990) a descris numărarea continuă, raporturile continue, raporturile de numărare și modurile de date categorice. Vezi și Chrisman (1998), van den Berg (1991).

Problema dacă este adecvat sau nu să se aplice diferite tipuri de metode statistice la datele obținute din diferite tipuri de proceduri de măsurare este complicată de problemele privind transformarea variabilelor și interpretarea precisă a întrebărilor de cercetare. "Relația dintre date și ceea ce descriu nu face decât să reflecte faptul că anumite tipuri de enunțuri statistice pot avea valori de adevăr care nu sunt invariabile în anumite transformări. Indiferent dacă o transformare este sensibilă de a contempla depinde de întrebarea la care încearcă să răspundă "(Mână, 2004, p. 82).

Tipuri simple de date

Următorul tabel clasifică diferitele tipuri simple de date, distribuții asociate, operațiuni permise, etc. Indiferent de valorile logice posibile, toate aceste tipuri de date sunt codificate în general folosind numere reale , deoarece teoria variabilelor aleatorii presupune adesea explicit că acestea dețin real numere.

Tip de date Valori posibile Exemplu de utilizare Nivelul de măsurare distribuire Scara diferențelor relative Statistici admise Analiza regresiei
binar 0, 1 (etichete arbitrare) rezultat binar („da / nu”, „adevărat / fals”, „succes / eșec” etc.) Scala nominala Bernoulli necomparat modul , Chi-patrat logistic , probit
categoric 1, 2, ..., K (etichete arbitrare) rezultat categoric ( tip de sânge specific , partid politic , cuvânt etc.) categoric logit multinomial , probit multinomial
ordinal număr întreg sau real (scară arbitrară) scor relativ, semnificativ numai pentru crearea unui clasament scara ordinală categoric comparație relativă regresie ordinală ( logit comandat , ordin probit )
binom 0, 1, ..., N numărul de succese (de ex. voturi da) din N posibil scara intervalului binomial , beta-binomial etc. aditiv?? medie , medie , mod , abatere standard , corelație regresie binomială ( logistică , probit )
numara numere întregi negative (0, 1, ...) numărul de articole (apeluri telefonice, persoane, molecule, nașteri, decese etc.) în intervalul / suprafața / volumul dat scara raportului Poisson , binom negativ , etc. multiplicativ Toate statisticile permise pentru scale de intervale plus următoarele: medie geometrică , medie armonică , coeficient de variație Poisson , regresie binomială negativă
aditiv valoric real numar real temperatura, distanța relativă, parametrul de locație etc. (sau aproximativ, ceva care nu variază pe o scară largă) scara intervalului normal etc. (de obicei simetric față de medie ) aditiv medie , medie , mod , abatere standard , corelație regresie liniară standard
multiplicativ valoric real număr real pozitiv preț, venit, dimensiune, parametru de scară etc. (în special atunci când variază pe o scară largă) scara raportului log-normal , gamma , exponențial etc. (de obicei, o distribuție înclinată ) multiplicativ Toate statisticile permise pentru scale de intervale plus următoarele: medie geometrică , medie armonică , coeficient de variație model liniar generalizat cu legătură logaritmică

Tipuri de date multivariate

Datele care nu pot fi descrise folosind un singur număr sunt adesea prezentate în vectori aleatori cu variabile aleatorii valorice reale , deși există o tendință din ce în ce mai mare de a le trata singure. Cateva exemple:

  • Vectori aleatori . Elementele individuale pot fi sau nu corelate . Exemple de distribuții utilizate pentru a descrie vectori aleatori corelați sunt distribuția normală multivariată și distribuția t multivariată . În general, pot exista corelații arbitrare între orice elemente și alte elemente; cu toate acestea, acest lucru devine adesea imposibil de gestionat peste o anumită dimensiune, necesitând restricții suplimentare asupra elementelor corelate.
  • Matricile aleatorii . Matricile aleatorii pot fi expuse liniar și tratate ca vectori aleatori; cu toate acestea, este posibil să nu fie un mod eficient de a reprezenta corelațiile dintre diferite elemente. Unele distribuții de probabilitate sunt concepute special pentru matrici aleatorii, de exemplu, distribuția normală a matricei și distribuția Wishart .
  • Secvențe aleatorii . Acestea sunt uneori considerate a fi aceleași ca vectori aleatori, dar în alte cazuri, termenul este aplicat în mod specific la cazurile în care fiecare variabilă aleatorie este corelată doar cu variabile apropiate (ca într-un model Markov ). Acesta este un caz particular al unei rețele Bayes și deseori folosit pentru secvențe foarte lungi, de exemplu secvențe genice sau documente de text de lungă durată. O serie de modele sunt concepute special pentru astfel de secvențe, de exemplu modele ascunse Markov .
  • Procese aleatorii . Acestea sunt similare cu secvențele aleatorii, dar unde lungimea secvenței este nedeterminată sau infinită, iar elementele din secvență sunt procesate unul câte unul. Acest lucru este adesea utilizat pentru date care pot fi descrise ca o serie de timp , de exemplu, prețul unui stoc în zilele succesive. Procesele aleatorii sunt de asemenea utilizate pentru a modela valori care variază continuu (de exemplu, temperatura în momentele succesive în timp), mai degrabă decât la intervale discrete.
  • Retele Bayes . Acestea corespund agregatelor de variabile aleatorii descrise folosind modele grafice , în care variabilele aleatoare individuale sunt legate într-o structură de grafic cu distribuții condiționale referitoare la variabile la variabilele apropiate.
  • Câmpuri aleatorii . Acestea reprezintă extinderea proceselor aleatorii la dimensiuni multiple și sunt frecvente în fizică , unde sunt utilizate în mecanica statistică pentru a descrie proprietăți precum forța sau câmpul electric care poate varia continuu pe trei dimensiuni (sau patru dimensiuni, când este inclus timpul) .

Aceste concepte își au originea în diverse domenii științifice și se suprapun frecvent în utilizare. Drept urmare, este foarte des cazul în care mai multe concepte ar putea fi aplicate la aceeași problemă.

Referințe