Preprocesarea datelor - Data pre-processing

Preprocesarea datelor se poate referi la manipularea sau scăderea datelor înainte de a fi utilizate pentru a asigura sau a spori performanța și este un pas important în procesul de extragere a datelor . Expresia „gunoi în, gunoi în afara” este aplicabilă în special proiectelor de extragere a datelor și de învățare automată . Metodele de culegere a datelor sunt adesea controlate în mod vag, rezultând valori în afara intervalului (de exemplu, venituri: -100), combinații de date imposibile (de exemplu, sex: bărbat, gravidă: da) și valori lipsă etc. Analiza datelor care nu a fost atent analizat pentru că astfel de probleme pot produce rezultate înșelătoare. Astfel, reprezentarea și calitatea datelor sunt în primul rând înainte de a rula orice analiză. Adesea, preprocesarea datelor este cea mai importantă fază a unui proiect de învățare automată , în special în biologia computațională .

Dacă există multe informații irelevante și redundante prezente sau date zgomotoase și nesigure, atunci descoperirea cunoștințelor în faza de formare este mai dificilă. Etapele de pregătire și filtrare a datelor pot necesita o cantitate considerabilă de timp de procesare. Exemple de preprocesare a datelor includ curățarea , selectarea instanțelor , normalizarea , o codificare la cald , transformarea , extragerea și selectarea caracteristicilor , etc. Produsul preprocesării datelor este setul final de formare .

Preprocesarea datelor poate afecta modul în care rezultatele procesării finale a datelor pot fi interpretate. Acest aspect ar trebui luat în considerare cu atenție atunci când interpretarea rezultatelor este un punct cheie, cum ar fi procesarea multivariată a datelor chimice ( chimiometrice ).

Sarcini de preprocesare a datelor

Exemplu

În acest exemplu, avem 5 adulți în setul nostru de date care au sex de bărbat sau femeie și dacă sunt sau nu gravide. Putem detecta că adulții 3 și 5 sunt combinații de date imposibile.

Sex Gravidă
Adult
1 Masculin Nu
2 Femeie da
3 Masculin da
4 Femeie Nu
5 Masculin da

Putem efectua o curățare a datelor și putem alege să ștergem aceste date din tabelul nostru. Eliminăm astfel de date, deoarece putem stabili că astfel de date existente în setul de date sunt cauzate de erori de introducere a utilizatorilor sau de corupție a datelor. Un motiv pentru care ar trebui să ștergeți astfel de date este că datele imposibile vor afecta procesul de calcul sau manipulare a datelor în etapele ulterioare ale procesului de extragere a datelor.

Sex Gravidă
Adult
1 Masculin Nu
2 Femeie da
4 Femeie Nu

Putem efectua o editare a datelor și putem schimba sexul adultului știind că adultul este gravid, putem presupune că adultul este femeie și putem face modificări în consecință. Modificăm setul de date pentru a avea o analiză mai clară a datelor atunci când efectuăm manipularea datelor în etapele ulterioare ale procesului de extragere a datelor.

Sex Gravidă
Adult
1 Masculin Nu
2 Femeie da
3 Femeie da
4 Femeie Nu
5 Femeie da

Putem folosi o formă de reducere a datelor și sortăm datele în funcție de sex și, făcând acest lucru, ne putem simplifica setul de date și putem alege asupra sexului pe care dorim să ne concentrăm mai mult.

Sex Gravidă
Adult
2 Femeie da
4 Femeie Nu
1 Masculin Nu
3 Masculin da
5 Masculin da

Exploatarea datelor

Originile preprocesării datelor se află în extragerea datelor . Ideea este să agregăm informațiile existente și să căutăm în conținut. Mai târziu s-a recunoscut că pentru învățarea automată și rețelele neuronale este necesară și o etapă de preprocesare a datelor. Așa că a devenit o tehnică universală care este utilizată în calcul în general.

Preprocesarea datelor permite eliminarea datelor nedorite cu utilizarea curățării datelor, acest lucru permite utilizatorului să aibă un set de date care să conțină informații mai valoroase după etapa de preprocesare pentru manipularea datelor ulterior în procesul de extragere a datelor. Editarea unui astfel de set de date pentru a corecta corupția datelor sau erori umane este un pas crucial pentru a obține cuantificatori exacți, cum ar fi adevăratele pozitive, adevăratele negative, falsurile pozitive și falsele negative găsite într-o matrice de confuzie, care sunt utilizate în mod obișnuit pentru un diagnostic medical. Utilizatorii sunt capabili să unească fișiere de date împreună și să utilizeze preprocesarea pentru a filtra orice zgomot inutil din date care poate permite o precizie mai mare. Utilizatorii folosesc scripturi de programare Python însoțite de biblioteca pandas, care le oferă posibilitatea de a importa date dintr -o valoare separată prin virgulă ca cadru de date. Cadrul de date este apoi utilizat pentru a manipula date care ar putea fi dificil de făcut în Excel. panda (software) care este un instrument puternic care permite analiza și manipularea datelor; ceea ce face vizualizarea datelor, operațiuni statistice și multe altele, mult mai ușor. Mulți folosesc, de asemenea, R (limbaj de programare) pentru a face și astfel de sarcini.

Motivul pentru care un utilizator transformă fișierele existente într-unul nou se datorează multor motive. Preprocesarea datelor are ca obiectiv să adauge valori lipsă, să agregeze informații, să eticheteze datele cu categorii ( Data binning ) și să netezească o traiectorie. Tehnici mai avansate precum analiza componentelor principale și selecția caracteristicilor funcționează cu formule statistice și sunt aplicate seturilor de date complexe care sunt înregistrate de trackere GPS și dispozitive de captare a mișcării.

Preprocesare semantică a datelor

Problemele complexe cer tehnici de analiză mai elaborate ale informațiilor existente. În loc să creați un script simplu pentru agregarea diferitelor valori numerice într-una singură, este logic să vă concentrați asupra preprocesării datelor bazate pe semantică. Iată ideea de a construi o ontologie dedicată care explică la un nivel superior despre ce este problema. Protejatul (software) este instrumentul standard pentru acest scop. O a doua tehnică mai avansată este preprocesarea Fuzzy . Iată ideea de a fundamenta valorile numerice cu informații lingvistice. Datele brute sunt transformate în limbaj natural .

Referințe

linkuri externe