Model de subiect - Topic model
În învățarea automată și procesarea limbajului natural , un model de subiect este un tip de model statistic pentru descoperirea „subiectelor” abstracte care apar într-o colecție de documente. Modelarea subiectelor este un instrument de extragere a textului utilizat frecvent pentru descoperirea structurilor semantice ascunse într-un corp de text. Intuitiv, având în vedere că un document se referă la un anumit subiect, ne-am aștepta ca anumite cuvinte să apară în document mai mult sau mai puțin frecvent: „câine” și „os” vor apărea mai des în documentele despre câini, „pisică” și „miau” va apărea în documentele despre pisici, iar „the” și „is” vor apărea aproximativ în mod egal în ambele. Un document privește de obicei mai multe subiecte în proporții diferite; astfel, într-un document care reprezintă 10% despre pisici și 90% despre câini, ar exista probabil de aproximativ 9 ori mai multe cuvinte pentru câini decât cuvinte pentru pisici. „Subiectele” produse de tehnicile de modelare a subiectelor sunt grupuri de cuvinte similare. Un model de subiect surprinde această intuiție într-un cadru matematic, care permite examinarea unui set de documente și descoperirea, pe baza statisticilor cuvintelor din fiecare, care ar putea fi subiectele și care este echilibrul subiectelor fiecărui document.
Modelele de subiecte sunt, de asemenea, denumite modele de subiecte probabilistice, care se referă la algoritmi statistici pentru descoperirea structurilor semantice latente ale unui corp extins de text. În era informației, cantitatea de material scris pe care o întâlnim în fiecare zi depășește pur și simplu capacitatea noastră de procesare. Modelele de subiecte ne pot ajuta să organizăm și să ne oferim informații pentru a înțelege colecții mari de corpuri de text nestructurate. Dezvoltat inițial ca instrument de extragere a textului, modelele de subiecte au fost utilizate pentru a detecta structuri instructive în date precum informații genetice, imagini și rețele. De asemenea, au aplicații în alte domenii, cum ar fi bioinformatica și viziunea pe computer .
Istorie
Un model tematic timpuriu a fost descris de Papadimitriou, Raghavan, Tamaki și Vempala în 1998. Un alt model, numit analiza semantică probabilistică latentă (PLSA), a fost creat de Thomas Hofmann în 1999. Alocarea latentă a Dirichlet (LDA), probabil cel mai comun model de temă în prezent, este o generalizare a PLSA. Dezvoltat de David Blei , Andrew Ng și Michael I. Jordan în 2002, LDA introduce distribuții anterioare rare ale Dirichlet peste distribuții document-topic și topic-word, codificând intuiția că documentele acoperă un număr mic de subiecte și că subiectele folosesc adesea un mic numărul de cuvinte. Alte modele de subiecte sunt, în general, extensii pentru LDA, cum ar fi alocarea Pachinko , care îmbunătățește LDA prin modelarea corelațiilor dintre subiecte în plus față de corelațiile de cuvinte care constituie subiecte. Analiza ierarhică a arborelui latent ( HLTA ) este o alternativă la LDA, care modelează co-apariția cuvintelor folosind un arbore de variabile latente, iar stările variabilelor latente, care corespund grupurilor moi de documente, sunt interpretate ca subiecte.
Modele de subiecte pentru informații de context
Abordările pentru informații temporale includ determinarea lui Block și Newman a dinamicii temporale a subiectelor din Pennsylvania Gazette în perioada 1728–1800. Griffiths & Steyvers au folosit modelarea subiectelor pe rezumate din revista PNAS pentru a identifica subiecte care au crescut sau au scăzut în popularitate din 1991 până în 2001, în timp ce Lamba și Madhusushan au folosit modelarea subiectelor pe articole de cercetare cu text integral preluate din jurnalul DJLIT din 1981–2018. În domeniul bibliotecii și științei informației, Lamba și Madhusudhan au aplicat modelarea subiectelor pe diferite resurse indiene, cum ar fi articole de reviste și teze și resurse electronice (ETD). Nelson a analizat schimbările de subiecte de-a lungul timpului în Richmond Times-Dispatch pentru a înțelege schimbările și continuitățile sociale și politice din Richmond în timpul războiului civil american . Yang, Torget și Mihalcea au aplicat metode de modelare a subiectelor în ziare din 1829–2008. Mimno a folosit modelarea subiectelor cu 24 de reviste de filologie clasică și arheologie care se întind pe 150 de ani pentru a analiza modul în care subiectele din reviste se schimbă în timp și cum revistele devin mai diferite sau similare în timp.
Yin și colab. a introdus un model de subiect pentru documentele distribuite geografic, unde pozițiile documentelor sunt explicate de regiunile latente care sunt detectate în timpul inferenței.
Chang și Blei au inclus informații de rețea între documente legate în modelul de subiect relațional, pentru a modela legăturile dintre site-uri web.
Modelul autor-subiect de Rosen-Zvi și colab. modelează subiectele asociate cu autorii documentelor pentru a îmbunătăți detectarea subiectelor pentru documentele cu informații despre autor.
HLTA a fost aplicat unei colecții de lucrări de cercetare recente publicate în principalele locuri de AI și Machine Learning. Modelul rezultat se numește Arborele AI . Subiectele rezultate sunt folosite pentru indexarea lucrărilor la aipano.cse.ust.hk pentru a ajuta cercetătorii să urmărească tendințele cercetării și să identifice lucrările de citit și să ajute organizatorii de conferințe și editorii de reviste să identifice recenzorii pentru trimiteri .
Algoritmi
În practică, cercetătorii încearcă să se potrivească parametrilor modelului corespunzător corpului de date folosind una din mai multe euristici pentru potrivirea maximă a probabilității. Un sondaj recent realizat de Blei descrie această suită de algoritmi. Mai multe grupuri de cercetători începând cu Papadimitriou și colab. au încercat să proiecteze algoritmi cu garanții probabile. Presupunând că datele au fost de fapt generate de modelul în cauză, încearcă să proiecteze algoritmi care probabil găsesc modelul care a fost utilizat pentru a crea datele. Tehnicile utilizate aici includ descompunerea valorii singulare (SVD) și metoda momentelor . În 2012 a fost introdus un algoritm bazat pe factorizarea non-negativă a matricei (NMF) care generalizează și la modelele de subiecte cu corelații între subiecte.
În 2018 a apărut o nouă abordare a modelelor de subiecte care se bazează pe modelul blocului stochastic
Modele de subiecte pentru biomedicina cantitativă
Modelele de subiecte sunt utilizate și în alte contexte. Pentru exemple, au apărut utilizări ale modelelor de subiecte în cercetarea în biologie și bioinformatică. Recent, modelele de subiecte au fost folosite pentru a extrage informații din setul de date al probelor genomice de cancer. În acest caz, subiectele sunt variabile biologice latente care trebuie deduse.
Vezi si
- Analiza semantică explicită
- Analiza semantică latentă
- Alocarea latentă a Dirichlet
- Procesul ierarhic Dirichlet
- Factorizarea matricei non-negative
- Mallet (proiect software)
- Gensim
Referințe
Lecturi suplimentare
- Steyvers, Mark; Griffiths, Tom (2007). „Modele de subiecte probabiliste” . În Landauer, T .; McNamara, D; Dennis, S .; și colab. (eds.). Manual de analiză semantică latentă (PDF) . Psihologie Press. ISBN 978-0-8058-5418-3. Arhivat din original (PDF) la 24.06.2013.
- Blei, DM; Lafferty, JD (2009). „Modele de subiecte” (PDF) .
- Blei, D .; Lafferty, J. (2007). „Un model de temă corelat al științei ”. Analele statisticilor aplicate . 1 (1): 17–35. arXiv : 0708.3601 . doi : 10.1214 / 07-AOAS114 . S2CID 8872108 .
- Mimno, D. (aprilie 2012). „Historiografie computațională: extragerea datelor într-un secol de reviste clasice” (PDF) . Jurnal de informatică și patrimoniu cultural . 5 (1): 1-19. doi : 10.1145 / 2160165.2160168 . S2CID 12153151 .
- Marwick, Ben (2013). „Descoperirea problemelor și controverselor emergente în antropologie folosind mineritul textului, modelarea subiectelor și analiza rețelelor sociale a conținutului microblog” . În Yanchang, Zhao; Yonghua, Cen (eds.). Data Mining Aplicații cu R . Elsevier. pp. 63-93.
- Jockers, M. 2010 Who’s your DH Blog Mate: Match-Making Day of DH Bloggers with Topic Modeling Matthew L. Jockers, postat pe 19 martie 2010
- Drouin, J. 2011 Foray Into Topic Modeling Ecclesiastical Proust Archive. postat pe 17 martie 2011
- Templeton, C. 2011 Topic Modeling in the Humanities: An Overview Maryland Institute for Technology in the Humanities Blog. postat la 1 august 2011
- Griffiths, T .; Steyvers, M. (2004). „Găsirea subiectelor științifice” . Lucrările Academiei Naționale de Științe . 101 (Supliment 1): 5228–35. Bibcode : 2004PNAS..101.5228G . doi : 10.1073 / pnas.0307752101 . PMC 387300 . PMID 14872004 .
- Yang, T., A Torget și R. Mihalcea (2011) Topic Modeling on Historical Newspapers. Lucrările celui de-al cincilea atelier ACL-HLT privind tehnologia limbajului pentru patrimoniul cultural, științele sociale și umaniste . Asociația pentru lingvistică computațională, Madison, WI. paginile 96–104.
- Block, S. (ianuarie 2006). „A face mai mult cu digitalizarea: o introducere în modelarea subiectelor din primele surse americane” . Localizați în comun Jurnalul interactiv al vieții americane timpurii . 6 (2).
- Newman, D .; Block, S. (martie 2006). „Descompunerea subiectului probabilistic al unui ziar din secolul al XVIII-lea” (PDF) . Jurnalul Societății Americane pentru Știința și Tehnologia Informației . 57 (5): 753-767. doi : 10.1002 / asi.20342 .
linkuri externe
- Mimno, David. „Bibliografie de modelare a subiectelor” .
- Brett, Megan R. „Modelarea subiectului: o introducere de bază” . Journal of Digital Humanities.
- Modele de subiecte aplicate știrilor și recenziilor online Video al unei prezentări Google Tech Talk de Alice Oh pe modelarea subiectului cu LDA
- Modeling Science: Dynamic Topic Models of Scholarly Research Video al unei prezentări Google Tech Talk de David M. Blei
- Modele automatizate de subiecte în științe politice Video al unei prezentări a lui Brandon Stewart la Atelierul Instrumente pentru Text , 14 iunie 2010
- Shawn Graham, Ian Milligan și Scott Weingart „Noțiuni de bază cu modelarea subiectului și MALLET” . Istoricul programării. Arhivat din original la 28.08.2014 . Adus 29/05/2014 .
- Blei, David M. „Material introductiv și software”
- cod , demo - exemplu de utilizare a LDA pentru modelarea subiectelor