Date grupate - Grouped data
Datele grupate sunt date formate prin agregarea observațiilor individuale ale unei variabile în grupuri, astfel încât o distribuție a frecvenței acestor grupuri servește ca un mijloc convenabil de a rezuma sau analiza datele. Există două tipuri majore de grupare: combinarea de date a unei variabile unidimensionale, înlocuirea numerelor individuale cu numărările în coșuri; și gruparea variabilelor multidimensionale după unele dintre dimensiuni (în special prin variabile independente ), obținând distribuția dimensiunilor negroupate (în special variabilele dependente ).
Exemplu
Ideea datelor grupate poate fi ilustrată luând în considerare următorul set de date brute:
| 20 | 25 | 24 | 33 | 13 | 26 | 8 | 19 | 31 | 11 | 16 | 21 | 17 | 11 | 34 | 14 | 15 | 21 | 18 | 17 |
Datele de mai sus pot fi grupate pentru a construi o distribuție a frecvenței în oricare din mai multe moduri. O metodă este utilizarea intervalelor ca bază.
Cea mai mică valoare din datele de mai sus este 8 și cea mai mare este 34. Intervalul de la 8 la 34 este împărțit în subintervale mai mici (numite intervale de clasă ). Pentru fiecare interval de clasă, se numără numărul de elemente de date care se încadrează în acest interval. Acest număr se numește frecvența acelui interval de clasă. Rezultatele sunt tabelate ca tabel de frecvențe după cum urmează:
| Timpul luat (în secunde) | Frecvență |
|---|---|
| 5 ≤ t <10 | 1 |
| 10 ≤ t <15 | 4 |
| 15 ≤ t <20 | 6 |
| 20 ≤ t <25 | 4 |
| 25 ≤ t <30 | 2 |
| 30 ≤ t <35 | 3 |
O altă metodă de grupare a datelor este utilizarea unor caracteristici calitative în loc de intervale numerice. De exemplu, să presupunem că în exemplul de mai sus există trei tipuri de studenți: 1) Sub normal, dacă timpul de răspuns este de 5 până la 14 secunde, 2) normal dacă este între 15 și 24 de secunde și 3) peste normal dacă este este de 25 de secunde sau mai mult, atunci datele grupate arată ca:
| Frecvență | |
|---|---|
| Sub normal | 5 |
| Normal | 10 |
| Peste normal | 5 |
Un alt exemplu de grupare a datelor este utilizarea unor valori numerice utilizate în mod obișnuit, care sunt de fapt „nume” pe care le atribuim categoriilor. De exemplu, să ne uităm la distribuția pe vârste a elevilor dintr-o clasă. Studenții pot avea 10 ani, 11 ani sau 12 ani. Acestea sunt grupele de vârstă, 10, 11 și 12. Rețineți că elevii din grupa de vârstă 10 au vârsta cuprinsă între 10 ani și 0 zile, până la 10 ani și 364 de zile, iar vârsta lor medie este de 10,5 ani dacă ne uităm la vârstă într-o scară continuă. Datele grupate arată ca:
| Vârstă | Frecvență |
|---|---|
| 10 | 10 |
| 11 | 20 |
| 12 | 10 |
Media datelor grupate
O estimare a mediei populației din care sunt extrase datele poate fi calculată din datele grupate ca:
În această formulă, x se referă la punctul mediu al intervalelor clasei, iar f este frecvența clasei. Rețineți că rezultatul acestui lucru va fi diferit de media eșantionului datelor negroupate. Media pentru datele grupate din exemplul de mai sus poate fi calculată după cum urmează:
| Intervale de clasă | Frecvență ( f ) | Punctul de mijloc ( x ) | fx |
|---|---|---|---|
| 5 și mai sus, sub 10 | 1 | 7.5 | 7.5 |
| 10 ≤ t <15 | 4 | 12.5 | 50 |
| 15 ≤ t <20 | 6 | 17.5 | 105 |
| 20 ≤ t <25 | 4 | 22.5 | 90 |
| 25 ≤ t <30 | 2 | 27,5 | 55 |
| 30 ≤ t <35 | 3 | 32,5 | 97,5 |
| TOTAL | 20 | 405 |
Astfel, media datelor grupate este
Media pentru datele grupate din exemplul 4 de mai sus poate fi calculată după cum urmează:
| Grupă de vârstă | Frecvență ( f ) | Punctul de mijloc ( x ) | fx |
|---|---|---|---|
| 10 | 10 | 10.5 | 105 |
| 11 | 20 | 11.5 | 230 |
| 12 | 10 | 12.5 | 125 |
| TOTAL | 40 | 460 |
Astfel, media datelor grupate este
Vezi si
- Date agregate
- Combinarea datelor
- Partiția unui set
- Nivelul de măsurare
- Distribuția frecvenței
- Discretizarea caracteristicilor continue
- Regresie logistică § Estimator minim chi-pătrat pentru date grupate
Note
2551 ll6 '
Referințe
- Newbold, P .; Carlson, W .; Thorne, B. (2009). Statistici pentru afaceri și economie (ediția a șaptea). Pearson Education. ISBN 978-0-13-507248-6.