Sammensatt behandling - Compound-term processing

Sammensatt behandling, i informasjonsinnhenting , er samsvar med søkeresultater på grunnlag av sammensatte termer . Sammensatte termer er bygget ved å kombinere to eller flere enkle termer; for eksempel er "trippel" et ord med ett ord, men "triple heart bypass" er et sammensatt begrep.

Sammensatt behandling er en ny tilnærming til et gammelt problem: hvordan kan man forbedre relevansen av søkeresultatene mens man opprettholder brukervennligheten? Ved å bruke denne teknikken vil et søk etter overlevelsesrate etter en tredobbelt hjerteomgåelse hos eldre mennesker finne dokumenter om dette emnet, selv om denne presise setningen ikke er inneholdt i noe dokument. Dette kan utføres ved et konsept-søk , som i seg selv bruker sammensatt termbehandling. Dette vil trekke ut nøkkelbegrepene automatisk (i dette tilfellet "overlevelsesrater", "trippel hjerteomgå" og "eldre mennesker") og bruke disse konseptene til å velge de mest relevante dokumentene.

Teknikker

I august 2003 introduserte Concept Searching Limited ideen om å bruke statistisk sammensatt termbehandling.

CLAMOR er et europeisk samarbeidsprosjekt som tar sikte på å finne en bedre måte å klassifisere når man samler inn og formidler industriell informasjon og statistikk. CLAMOR ser ut til å bruke en språklig tilnærming, snarere enn en basert på statistisk modellering .

Historie

Teknikker for sannsynlig vekting av ord med enkle ord dateres tilbake til minst 1976 i landemerkepublikasjonen av Stephen E. Robertson og Karen Spärck Jones . Robertson uttalte at antagelsen om orduavhengighet ikke er berettiget og eksisterer som et spørsmål om matematisk bekvemmelighet. Hans innvending mot begrepet uavhengighet er ikke en ny ide, og dateres tilbake til minst 1964 da HH Williams uttalte at "[t] he antagelse om uavhengighet av ord i et dokument er vanligvis laget som et spørsmål om matematisk bekvemmelighet".

I 2004 arkiverte Anna Lynn Patterson patenter på "setningsbasert søk i et informasjonsinnhentingssystem" som Google senere fikk rettighetene til.

Tilpasningsevne

Statistisk prosess for sammensatt term er mer tilpasningsdyktig enn prosessen beskrevet av Patterson. Prosessen hennes er rettet mot å søke på World Wide Web hvor omfattende statistisk kunnskap om vanlige søk kan brukes til å identifisere kandidatfraser. Statistisk sammensatt begrepsbehandling er mer egnet for bedriftssøkeapplikasjoner der en slik forhåndskunnskap ikke er tilgjengelig.

Statistisk prosessering av sammensatte begreper er også mer tilpasningsdyktig enn den språklige tilnærmingen som ble benyttet av CLAMOR-prosjektet, som må ta i betraktning de syntaktiske egenskapene til begrepene (dvs. en del av talen, kjønn, antall osv.) Og deres kombinasjoner. CLAMOUR er sterkt språkavhengig, mens den statistiske tilnærmingen er språkuavhengig.

applikasjoner

Sammensetningsbehandling gjør det mulig for applikasjoner for henting av informasjon, for eksempel søkemotorer , å utføre samsvarene deres på grunnlag av begreper med flere ord, snarere enn på enkeltord isolert, noe som kan være svært tvetydig.

Tidlige søkemotorer lette etter dokumenter som inneholder ordene som brukeren skrev inn i søkeboksen. Disse er kjent som søkeordsmotorer . Boolske søkemotorer legger til en grad av raffinement ved å la brukeren spesifisere tilleggskrav. For eksempel bruker "Tiger NEAR Woods AND (golf ELLER golf) IKKE Volkswagen" operatørene "NEAR", "AND", "OR" og "NOT" for å spesifisere at disse ordene må følge visse krav. Et frasesøk er enklere å bruke, men krever at den eksakte frasen som er spesifisert vises i resultatene.

Se også

Referanser