Date binare - Binary data
Datele binare sunt date a căror unitate poate lua doar două stări posibile, etichetate în mod tradițional ca 0 și 1 în conformitate cu sistemul numeric binar și algebra booleană .
Datele binare apar în multe domenii tehnice și științifice diferite, unde pot fi numite prin nume diferite, inclusiv bit (cifră binară) în informatică , valoarea adevărului în logica matematică și domeniile conexe și variabila binară în statistici.
Fundamente matematice și combinatorii
O variabilă discretă care poate lua o singură stare conține informații zero , iar 2 este următorul număr natural după 1. De aceea bitul , o variabilă cu doar două valori posibile, este o unitate primară standard de informații .
O colecție de n biți poate avea 2 n stări: vezi numărul binar pentru detalii. Numărul de stări ale unei colecții de variabile discrete depinde exponențial de numărul de variabile și numai ca lege a puterii de numărul de stări ale fiecărei variabile. Zece biți au mai multe ( 1024 ) stări decât trei cifre zecimale ( 1000 ). 10 k biți sunt mai mult decât suficienți pentru a reprezenta o informație (un număr sau orice altceva) care necesită 3 k cifre zecimale, deci informațiile conținute în variabile discrete cu 3 , 4, 5, 6, 7, 8, 9, 10 ... stări pot să fie vreodată înlocuit prin alocarea a două, trei sau patru ori mai mulți biți. Deci, utilizarea oricărui alt număr mic decât 2 nu oferă un avantaj.
Mai mult, algebra booleană oferă o structură matematică convenabilă pentru colectarea de biți, cu o semantică a unei colecții de variabile propoziționale . Operațiile de algebră booleană sunt cunoscute sub denumirea de „ operații bit-bit ” în informatică. Funcțiile booleene sunt, de asemenea, bine studiate teoretic și ușor de implementat, fie cu programe de calculator, fie prin așa- numitele porți logice din electronica digitală . Acest lucru contribuie la utilizarea biților pentru a reprezenta date diferite, chiar și cele inițial care nu sunt binare.
În statistici
În statistici , datele binare sunt un tip de date statistice care constă din date categorice care pot lua exact două valori posibile, cum ar fi „A” și „B”, sau „capete” și „cozi”. Ca formă de date categorice, datele binare sunt date nominale , ceea ce înseamnă că reprezintă valori calitativ diferite , care nu pot fi comparate numeric. Cu toate acestea, datele binare sunt frecvent convertite în date de numărare considerând una dintre cele două valori drept „succes” și reprezentând rezultatele ca 1 sau 0, ceea ce corespunde numărării numărului de succese într-un singur proces: 1 (succes) sau 0 ( eșec); vezi § Numărare .
Adesea, datele binare sunt utilizate pentru a reprezenta una dintre cele două valori opuse conceptual, de exemplu:
- rezultatul unui experiment („succes” sau „eșec”)
- răspunsul la o întrebare da-nu („da” sau „nu”)
- prezența sau absența unei caracteristici („este prezent” sau „nu este prezent”)
- adevărul sau falsitatea unei propoziții („adevărat” sau „fals”, „corect” sau „incorect”)
Cu toate acestea, poate fi folosit și pentru date despre care se presupune că au doar două valori posibile, chiar dacă acestea nu sunt opuse conceptual sau reprezintă conceptual toate valorile posibile din spațiu. De exemplu, datele binare sunt adesea folosite pentru a reprezenta alegerile de partid ale alegătorilor în alegerile din Statele Unite , adică republicane sau democratice . În acest caz, nu există niciun motiv inerent pentru care ar trebui să existe doar două partide politice și, într-adevăr, există alte partide în SUA, dar sunt atât de minore încât, în general, sunt pur și simplu ignorate. Modelarea datelor continue (sau date categorice a mai mult de 2 categorii) ca variabilă binară în scopuri de analiză se numește dihotomizare (crearea unei dihotomii ). La fel ca orice discretizare , implică o eroare de discretizare , dar scopul este de a învăța ceva valoros în ciuda erorii: tratarea acestuia ca fiind neglijabilă pentru scopul în cauză, dar amintindu-ne că nu se poate presupune că este neglijabil în general.
Variabile binare
O variabilă binară este o variabilă aleatoare de tip binar, adică cu două valori posibile. Variabilele binare independente și distribuite identic (iid) urmează o distribuție Bernoulli , dar în general datele binare nu trebuie să provină din variabilele iid. Numărul total de variabile binare iid (echivalent, sume de variabile binare iid codate ca 1 sau 0) urmează o distribuție binomială , dar atunci când variabilele binare nu sunt iid, distribuția nu trebuie să fie binomială.
Socoteală
La fel ca datele categorice, datele binare pot fi convertite într-un vector de date de numărare scriind o coordonată pentru fiecare valoare posibilă și numărând 1 pentru valoarea care apare și 0 pentru valoarea care nu apare. De exemplu, dacă valorile sunt A și B, atunci setul de date A, A, B poate fi reprezentat în numărare ca (1, 0), (1, 0), (0, 1). Odată convertite în numărări, datele binare pot fi grupate și numărul adăugat. De exemplu, dacă setul A, A, B este grupat, numărul total este (2, 1): 2 A și 1 B (din 3 probe).
Deoarece există doar două valori posibile, aceasta poate fi simplificată la un singur număr (o valoare scalară) considerând o valoare ca „succes” și cealaltă ca „eșec”, codificând o valoare a succesului ca 1 și a eșecului ca 0. De exemplu, dacă valoarea A este considerată „succes” (și astfel B este considerată „eșec”), setul de date A, A, B ar fi reprezentat ca 1, 1, 0. Când aceasta este grupată, valorile sunt adăugate, în timp ce numărul procesului este în general urmărit implicit. De exemplu, A, A, B ar fi grupate ca 1 + 1 + 0 = 2 succese (din }} încercări). Mergând în sens invers, contați datele cu date binare, cele două clase fiind 0 (eșec) sau 1 (succes).
Numărul de variabile binare iid urmează o distribuție binomială , cu numărul total de studii (puncte din datele grupate).
Regresie
Analiza regresiei asupra rezultatelor prognozate care sunt variabile binare este cunoscută sub numele de regresie binară ; când datele binare sunt convertite în date de numărare și modelate ca variabile iid (deci au o distribuție binomială), poate fi utilizată regresia binomială . Cele mai frecvente metode de regresie pentru datele binare sunt regresia logistică , regresia probit sau tipurile conexe de modele de alegere binară .
În mod similar, numărul variabilelor categorice cu mai mult de două categorii poate fi modelat cu o regresie multinomială . Numărul de date binare non-iid poate fi modelat prin distribuții mai complicate, cum ar fi distribuția beta-binomială (o distribuție compusă ). Alternativ, relația poate fi modelată fără a fi nevoie să modeleze în mod explicit distribuția variabilei de ieșire utilizând tehnici din modele liniare generalizate (GLM), cum ar fi cvasi-probabilitatea și un model cvasibinomial ; vezi Overdispersion § Binomial .
În informatică
În computerele moderne , datele binare se referă la orice date reprezentate sub formă binară, mai degrabă decât interpretate la un nivel superior sau convertite într-o altă formă. La cel mai mic nivel, biții sunt stocați într-un dispozitiv bistabil , cum ar fi un flip-flop . În timp ce majoritatea datelor binare au semnificație simbolică (cu excepția celor care nu le pasă ), nu toate datele binare sunt numerice. Unele date binare corespund instrucțiunilor computerului , cum ar fi datele din registrele procesorului decodate de unitatea de control de -a lungul ciclului de preluare-decodare-executare . Computerele modifică rar biți individuali din motive de performanță. În schimb, datele sunt aliniate în grupuri de un număr fix de biți, de obicei 1 octet (8 biți). Prin urmare, „datele binare” din computere sunt de fapt secvențe de octeți. La un nivel superior, datele sunt accesate în grupuri de 1 cuvânt (4 octeți) pentru sistemele pe 32 de biți și 2 cuvinte pentru sistemele pe 64 de biți .
În informatica aplicată și în domeniul tehnologiei informației , termenul de date binare este adesea opus în mod specific datelor bazate pe text , referindu-se la orice fel de date care nu pot fi interpretate ca text. Distincția „text” vs. „binar” se poate referi uneori la conținutul semantic al unui fișier (de exemplu, un document scris vs. o imagine digitală ). Cu toate acestea, se referă adesea în mod specific la octeții individuali ai unui fișier care pot fi interpretați ca text (a se vedea codificarea caracterelor ) sau nu pot fi astfel interpretați. Când se intenționează acest ultim sens, se utilizează uneori termenii mai specifici format binar și format text (ual) . Datele textuale semantic pot fi reprezentate în format binar (de exemplu, atunci când sunt comprimate sau în anumite formate care amestecă diferite tipuri de coduri de formatare, ca în formatul DOC utilizat de Microsoft Word ); dimpotrivă, datele despre imagini sunt uneori reprezentate în format textual (de exemplu, formatul de imagine X PixMap utilizat în sistemul X Window ).
Vezi si
- Matrice de biți
- Distribuție Bernoulli
- Tipul de date boolean
- Memoria computerului
- Date categorice
- Date calitative