Összetett távú feldolgozás - Compound-term processing

Az összetett kifejezés feldolgozása az információ-visszakeresés során a keresési eredmények egyeztetése az összetett kifejezések alapján . Az összetett kifejezések két vagy több egyszerű kifejezés kombinálásával épülnek fel; például a "hármas" egyetlen szó kifejezés, de a "hármas szív bypass" összetett kifejezés.

Az összetett időtartamú feldolgozás egy régi probléma új megközelítése: hogyan lehetne javítani a keresési eredmények relevanciáját, miközben fenntartjuk a könnyű használatot? Ennek a technikának az alkalmazásával az idős emberek háromszoros szívmegkerülését követően a túlélési arány keresése akkor is megtalálja a témával kapcsolatos dokumentumokat, ha ez a pontos kifejezés nem szerepel egyetlen dokumentumban sem. Ez egy fogalomkereséssel végezhető el , amely maga is összetett feldolgozást használ. Ez automatikusan kivonja a kulcsfogalmakat (ebben az esetben a "túlélési arány", a "hármas szív bypass" és az "idős emberek"), és ezeket a fogalmakat használja a legrelevánsabb dokumentumok kiválasztásához.

Technikák

2003 augusztusában a Concept Searching Limited bevezette a statisztikai összetett feldolgozás használatának ötletét.

A CLAMOR egy európai együttműködési projekt, amelynek célja, hogy jobb osztályozási módot találjon az ipari információk és statisztikák gyűjtése és terjesztése során. Úgy tűnik, hogy a CLAMOR nyelvi megközelítést alkalmaz, nem pedig statisztikai modellezésen alapuló megközelítést .

Történelem

Az egyes szavak valószínűségi súlyozásának technikái legalább 1976-ra nyúlnak vissza Stephen E. Robertson és Karen Spärck Jones nevezetes publikációjában . Robertson kijelentette, hogy a függetlenség szó feltételezése nem indokolt, és matematikai kényelmi szempontból létezik. A függetlenség kifejezésének kifogása nem új gondolat, legalább 1964-ig nyúlik vissza, amikor HH Williams kijelentette, hogy "[a] dokumentumban szereplő szavak függetlenségének feltételezése általában matematikai kényelem kérdése".

2004-ben Anna Lynn Patterson szabadalmat nyújtott be "kifejezésalapú kereséshez információ-visszakereső rendszerben", amelyekhez a Google később megszerezte a jogokat.

Alkalmazkodóképesség

Az összetett statisztikai statisztikai feldolgozás jobban alkalmazkodik, mint a Patterson által leírt eljárás. Folyamatát a világhálón történő keresésre irányítja, ahol a gyakori keresések átfogó statisztikai ismeretei felhasználhatók a jelölt kifejezések azonosítására. A statisztikai összetett kifejezésfeldolgozás jobban megfelel a vállalati keresési alkalmazásoknak, ahol ilyen a priori ismeretek nem állnak rendelkezésre.

A statisztikai összetett kifejezés feldolgozása szintén alkalmazkodóbb, mint a CLAMOR projekt által alkalmazott nyelvi megközelítés, amelynek figyelembe kell vennie a kifejezések szintaktikai tulajdonságait (azaz a beszéd része, nem, szám stb.) És azok kombinációit. A CLAMOR nagymértékben nyelvfüggő, míg a statisztikai megközelítés nyelvfüggetlen.

Alkalmazások

Az összetett időtartamú feldolgozás lehetővé teszi az információ-visszakereső alkalmazások, például a keresőmotorok számára , hogy többszavas fogalmak alapján hajtsák végre az illesztést, nem pedig egyes szavakkal külön-külön, ami nagyon félreérthető lehet.

A korai keresőmotorok olyan dokumentumokat kerestek, amelyek tartalmazzák a felhasználó által a keresőmezőbe beírt szavakat. Ezeket kulcsszó keresőként ismerjük . A logikai keresőmotorok fokozott kifinomultságot adnak, lehetővé téve a felhasználó számára, hogy további követelményeket adjon meg. Például a "Tiger NEAR Woods AND (golf VAGY golfozás) NEM Volkswagen" a "NEAR", "AND", "OR" és "NOT" operátorokat használja annak meghatározására, hogy ezeknek a szavaknak meg kell felelniük bizonyos követelményeknek. A kifejezéskeresés egyszerűbb, de megköveteli, hogy a megadott kifejezés pontosan megjelenjen az eredményekben.

Lásd még

Hivatkozások