Peräkkäinen kaivos - Sequential pattern mining

Peräkkäinen kaivostoiminta on tiedon louhinnan aihe, jonka tarkoituksena on löytää tilastollisesti merkityksellisiä malleja datan esimerkkien välillä, joissa arvot toimitetaan järjestyksessä. Yleensä oletetaan, että arvot ovat erillisiä, ja siten aikasarjojen louhinta liittyy läheisesti toisiinsa, mutta sitä pidetään yleensä eri toiminnana. Peräkkäinen kaivostoiminta on erityinen tapaus strukturoidusta tiedonlouhinnasta .

Tällä alalla käsitellään useita keskeisiä perinteisiä laskennallisia ongelmia. Näitä ovat tehokkaiden tietokantojen ja indeksien luominen sekvenssitiedoille, usein esiintyvien kuvioiden poimiminen, sekvenssien vertaaminen samankaltaisuuden kannalta ja puuttuvien sekvenssin jäsenten palauttaminen. Yleisesti ottaen sekvenssikaivosongelmat voidaan luokitella merkkijonojen louhimiseksi, joka perustuu tyypillisesti merkkijonon käsittelyalgoritmeihin, ja kohderyhmän louhintaan, joka perustuu tyypillisesti assosiaatiosääntöjen oppimiseen . Paikalliset prosessimallit laajentavat peräkkäisen kuvion louhinnan monimutkaisempiin malleihin, jotka voivat sisältää (yksinomaisia) valintoja, silmukoita ja rinnakkaisrakenteita peräkkäisen tilausrakenteen lisäksi.

String louhinta

String kaivos tyypillisesti käsittelee rajallinen aakkoset kohteita, jotka näkyvät järjestyksessä , mutta itse sekvenssin voi olla tyypillisesti hyvin pitkä. Esimerkkejä aakkoset voivat olla ne, jotka ovat ASCII- merkistöä käytetään luonnollisen kielen tekstin, nukleotidin emäkset 'A', 'G', 'C' ja 'T' on DNA-sekvenssejä , tai aminohappoja ja proteiinisekvenssien . In biology sovelluksissa analyysi järjestely aakkoset jouset voidaan tutkia geenin ja proteiinin sekvenssit niiden ominaisuuksia. DNA: n tai proteiinin kirjainsekvenssin tunteminen ei ole perimmäinen tavoite sinänsä. Pikemminkin tärkein tehtävä on ymmärtää sekvenssi sen rakenteen ja biologisen toiminnan kannalta . Tämä saavutetaan tyypillisesti ensin tunnistamalla yksittäiset alueet tai rakenneyksiköt kustakin sekvenssistä ja määrittämällä sitten toiminto jokaiselle rakenneyksikölle. Monissa tapauksissa tämä edellyttää tietyn sekvenssin vertaamista aiemmin tutkittuihin. Merkkijonojen vertailusta tulee monimutkaista, kun merkkijonossa esiintyy lisäyksiä , deleetioita ja mutaatioita .

Abouelhoda & Ghanem (2010) esittelee bioinformatiikan sekvenssien vertailun keskeisten algoritmien tutkimuksen ja taksonomian, joihin kuuluvat:

Toistoon liittyvät ongelmat: jotka käsittelevät yksittäisten sekvenssien toimintoja ja voivat perustua tarkkaan merkkijonovasteeseen tai likimääräiseen merkkijonovastusmenetelmään hajautetun kiinteän pituuden ja maksimipituuden toistojen löytämiseksi, tandem-toistojen löytämiseksi sekä yksilöivien alisekvenssien ja puuttuvien (kirjoittamattomien) löytämiseksi alajaksot.
Tasausongelmat: jotka käsittelevät merkkijonojen vertailua kohdistamalla ensin yksi tai useampi sekvenssi; Esimerkkejä suosituista menetelmistä ovat BLAST yhden sekvenssin vertaamiseen useiden sekvenssien kanssa tietokannassa ja ClustalW useiden kohdistusten osalta. Kohdistusalgoritmit voivat perustua joko tarkkoihin tai likimääräisiin menetelmiin, ja ne voidaan luokitella myös globaaleiksi kohdistuksiksi, osittain globaaleiksi kohdistuksiksi ja paikallisiksi kohdistuksiksi. Katso järjestyksen kohdistus .

Kohteiden louhinta

Joitakin kaivostoiminnan ongelmia voidaan löytää usein esiintyvistä tuotteista ja niiden järjestyksestä, esimerkiksi etsitään sääntöjä muodossa "jos {asiakas ostaa auton}, hän todennäköisesti {ostaa vakuutuksen} viikon kuluessa "tai osakehintojen yhteydessä," jos {Nokia nousee ja Ericsson nousee}, on todennäköistä, että {Motorola nousee ja Samsung nousee} kahden päivän kuluessa ". Perinteisesti esinejoukon kaivostoimintaa käytetään markkinointisovelluksissa etsimään säännöllisyyksiä usein esiintyvien kohteiden välillä suurissa tapahtumissa. Esimerkiksi analysoimalla asiakkaiden ostoskorien tapahtumia supermarketissa voidaan laatia sääntö, jonka mukaan "jos asiakas ostaa sipulia ja perunaa yhdessä, hän todennäköisesti ostaa myös hampurilaislihaa samassa kaupassa".

Han et al. Ovat esittäneet selvityksen ja taksonomian alkiojoukkojen louhinnan keskeisistä algoritmeista. (2007).

Kaksi yleistä tekniikkaa, joita käytetään sekvenssitietokantoihin usein tuotekokoelman louhinnassa, ovat vaikutusvaltainen apriori- algoritmi ja uudempi FP-kasvutekniikka .

Sovellukset

Tuotteiden ja käyttäjien ostokäyttäytymisten suuresta vaihtelusta johtuen hylly, jolla tuotteet esitetään, on yksi vähittäiskaupan ympäristön tärkeimmistä resursseista. Vähittäiskauppiaat voivat paitsi kasvattaa voittoaan myös alentaa kustannuksia hallitsemalla asianmukaisesti hyllytilojen jakamista ja tuotteiden esittelyä. Tämän ongelman ratkaisemiseksi, George ja Binu (2013) ovat ehdottaneet lähestymistapa kaivoksen käyttäjälle ostotottumuksia käyttämällä PrefixSpan algoritmia ja aseta tuotteita hyllyille perustuvat luokkaa louhitaan ostotottumuksista.

Algoritmit

Yleisesti käytettyjä algoritmeja ovat:

GSP -algoritmi
Peräkkäisen kuvion etsintä käyttämällä vastaavuusluokkia (SPADE)
FreeSpan
EtuliiteSpan
MAPres
Seq2Pat (rajoituksiin perustuvaan peräkkäiseen kaivostoimintaan)

Katso myös

Viitteet

Ulkoiset linkit

SPMF sisältää avoimen lähdekoodin toteutuksia GSP, PrefixSpan, SPADE, SPAM ja monet muut.

Languages

In other projects