Model de subiect - Topic model

În învățarea automată și procesarea limbajului natural , un model de subiect este un tip de model statistic pentru descoperirea „subiectelor” abstracte care apar într-o colecție de documente. Modelarea subiectelor este un instrument de extragere a textului utilizat frecvent pentru descoperirea structurilor semantice ascunse într-un corp de text. Intuitiv, având în vedere că un document se referă la un anumit subiect, ne-am aștepta ca anumite cuvinte să apară în document mai mult sau mai puțin frecvent: „câine” și „os” vor apărea mai des în documentele despre câini, „pisică” și „miau” va apărea în documentele despre pisici, iar „the” și „is” vor apărea aproximativ în mod egal în ambele. Un document privește de obicei mai multe subiecte în proporții diferite; astfel, într-un document care reprezintă 10% despre pisici și 90% despre câini, ar exista probabil de aproximativ 9 ori mai multe cuvinte pentru câini decât cuvinte pentru pisici. „Subiectele” produse de tehnicile de modelare a subiectelor sunt grupuri de cuvinte similare. Un model de subiect surprinde această intuiție într-un cadru matematic, care permite examinarea unui set de documente și descoperirea, pe baza statisticilor cuvintelor din fiecare, care ar putea fi subiectele și care este echilibrul subiectelor fiecărui document.

Modelele de subiecte sunt, de asemenea, denumite modele de subiecte probabilistice, care se referă la algoritmi statistici pentru descoperirea structurilor semantice latente ale unui corp extins de text. În era informației, cantitatea de material scris pe care o întâlnim în fiecare zi depășește pur și simplu capacitatea noastră de procesare. Modelele de subiecte ne pot ajuta să organizăm și să ne oferim informații pentru a înțelege colecții mari de corpuri de text nestructurate. Dezvoltat inițial ca instrument de extragere a textului, modelele de subiecte au fost utilizate pentru a detecta structuri instructive în date precum informații genetice, imagini și rețele. De asemenea, au aplicații în alte domenii, cum ar fi bioinformatica și viziunea pe computer .

Istorie

Un model tematic timpuriu a fost descris de Papadimitriou, Raghavan, Tamaki și Vempala în 1998. Un alt model, numit analiza semantică probabilistică latentă (PLSA), a fost creat de Thomas Hofmann în 1999. Alocarea latentă a Dirichlet (LDA), probabil cel mai comun model de temă în prezent, este o generalizare a PLSA. Dezvoltat de David Blei , Andrew Ng și Michael I. Jordan în 2002, LDA introduce distribuții anterioare rare ale Dirichlet peste distribuții document-topic și topic-word, codificând intuiția că documentele acoperă un număr mic de subiecte și că subiectele folosesc adesea un mic numărul de cuvinte. Alte modele de subiecte sunt, în general, extensii pentru LDA, cum ar fi alocarea Pachinko , care îmbunătățește LDA prin modelarea corelațiilor dintre subiecte în plus față de corelațiile de cuvinte care constituie subiecte. Analiza ierarhică a arborelui latent ( HLTA ) este o alternativă la LDA, care modelează co-apariția cuvintelor folosind un arbore de variabile latente, iar stările variabilelor latente, care corespund grupurilor moi de documente, sunt interpretate ca subiecte.

Animarea procesului de detectare a subiectului într-o matrice document-cuvânt. Fiecare coloană corespunde unui document, fiecare rând unui cuvânt. O celulă stochează frecvența unui cuvânt într-un document, celulele întunecate indică frecvențe ridicate ale cuvântului. Modelele de subiecte grupează atât documente care utilizează cuvinte similare, cât și cuvinte care apar într-un set similar de documente. Modelele rezultate se numesc „subiecte”.

Modele de subiecte pentru informații de context

Abordările pentru informații temporale includ determinarea lui Block și Newman a dinamicii temporale a subiectelor din Pennsylvania Gazette în perioada 1728–1800. Griffiths & Steyvers au folosit modelarea subiectelor pe rezumate din revista PNAS pentru a identifica subiecte care au crescut sau au scăzut în popularitate din 1991 până în 2001, în timp ce Lamba și Madhusushan au folosit modelarea subiectelor pe articole de cercetare cu text integral preluate din jurnalul DJLIT din 1981–2018. În domeniul bibliotecii și științei informației, Lamba și Madhusudhan au aplicat modelarea subiectelor pe diferite resurse indiene, cum ar fi articole de reviste și teze și resurse electronice (ETD). Nelson a analizat schimbările de subiecte de-a lungul timpului în Richmond Times-Dispatch pentru a înțelege schimbările și continuitățile sociale și politice din Richmond în timpul războiului civil american . Yang, Torget și Mihalcea au aplicat metode de modelare a subiectelor în ziare din 1829–2008. Mimno a folosit modelarea subiectelor cu 24 de reviste de filologie clasică și arheologie care se întind pe 150 de ani pentru a analiza modul în care subiectele din reviste se schimbă în timp și cum revistele devin mai diferite sau similare în timp.

Yin și colab. a introdus un model de subiect pentru documentele distribuite geografic, unde pozițiile documentelor sunt explicate de regiunile latente care sunt detectate în timpul inferenței.

Chang și Blei au inclus informații de rețea între documente legate în modelul de subiect relațional, pentru a modela legăturile dintre site-uri web.

Modelul autor-subiect de Rosen-Zvi și colab. modelează subiectele asociate cu autorii documentelor pentru a îmbunătăți detectarea subiectelor pentru documentele cu informații despre autor.

HLTA a fost aplicat unei colecții de lucrări de cercetare recente publicate în principalele locuri de AI și Machine Learning. Modelul rezultat se numește Arborele AI . Subiectele rezultate sunt folosite pentru indexarea lucrărilor la aipano.cse.ust.hk pentru a ajuta cercetătorii să urmărească tendințele cercetării și să identifice lucrările de citit și să ajute organizatorii de conferințe și editorii de reviste să identifice recenzorii pentru trimiteri .

Algoritmi

În practică, cercetătorii încearcă să se potrivească parametrilor modelului corespunzător corpului de date folosind una din mai multe euristici pentru potrivirea maximă a probabilității. Un sondaj recent realizat de Blei descrie această suită de algoritmi. Mai multe grupuri de cercetători începând cu Papadimitriou și colab. au încercat să proiecteze algoritmi cu garanții probabile. Presupunând că datele au fost de fapt generate de modelul în cauză, încearcă să proiecteze algoritmi care probabil găsesc modelul care a fost utilizat pentru a crea datele. Tehnicile utilizate aici includ descompunerea valorii singulare (SVD) și metoda momentelor . În 2012 a fost introdus un algoritm bazat pe factorizarea non-negativă a matricei (NMF) care generalizează și la modelele de subiecte cu corelații între subiecte.

În 2018 a apărut o nouă abordare a modelelor de subiecte care se bazează pe modelul blocului stochastic

Modele de subiecte pentru biomedicina cantitativă

Modelele de subiecte sunt utilizate și în alte contexte. Pentru exemple, au apărut utilizări ale modelelor de subiecte în cercetarea în biologie și bioinformatică. Recent, modelele de subiecte au fost folosite pentru a extrage informații din setul de date al probelor genomice de cancer. În acest caz, subiectele sunt variabile biologice latente care trebuie deduse.

Vezi si

Referințe

Lecturi suplimentare

linkuri externe