Многократная обработка - Compound-term processing

Соединение перспектива обработка, в информационно-поисковом , является поиск соответствия результатов на основе сложных терминов . Сложные термины создаются путем объединения двух или более простых терминов; например, «тройной» - это однословный термин, а «тройной обход сердца» - составной термин.

Обработка составных терминов - это новый подход к старой проблеме: как повысить релевантность результатов поиска при сохранении простоты использования? Используя эту технику, поиск выживаемости после тройного шунтирования сердца у пожилых людей позволит найти документы по этой теме, даже если эта точная фраза не содержится ни в одном документе. Это может быть выполнено с помощью поиска понятий , который сам использует обработку составных терминов. Это позволит автоматически выделить ключевые понятия (в данном случае «выживаемость», «тройное шунтирование сердца» и «пожилые люди») и использовать эти понятия для выбора наиболее подходящих документов.

Методы

В августе 2003 года компания Concept Searching Limited представила идею использования статистической обработки составных терминов.

CLAMOR - это европейский совместный проект, цель которого - найти лучший способ классификации при сборе и распространении промышленной информации и статистики. CLAMOR, похоже, использует лингвистический подход, а не метод, основанный на статистическом моделировании .

История

Методы вероятностного взвешивания терминов из одного слова восходят по крайней мере к 1976 году в знаменательной публикации Стивена Э. Робертсона и Карен Сперк Джонс . Робертсон заявил, что предположение о независимости слов не оправдано и существует для математического удобства. Его возражение против термина «независимость» - не новая идея, восходящая, по крайней мере, к 1964 году, когда Х. Х. Уильямс заявил, что «[т] предположение о независимости слов в документе обычно делается из соображений математического удобства».

В 2004 году Анна Линн Паттерсон подала патент на «поиск по фразам в информационно-поисковой системе», права на который впоследствии приобрела компания Google .

Адаптивность

Статистическая обработка составных терминов более адаптируема, чем процесс, описанный Паттерсоном. Ее процесс нацелен на поиск во всемирной паутине, где обширные статистические знания обычных поисковых запросов могут быть использованы для определения фраз-кандидатов. Статистическая обработка составных терминов больше подходит для поисковых приложений предприятия, где такие априорные знания недоступны.

Статистическая обработка составных терминов также более адаптируема, чем лингвистический подход, принятый в проекте CLAMOR, который должен учитывать синтаксические свойства терминов (например, часть речи, пол, число и т. Д.) И их комбинации. CLAMOR сильно зависит от языка, тогда как статистический подход не зависит от языка.

Приложения

Обработка составных терминов позволяет приложениям для поиска информации, таким как поисковые системы , выполнять их сопоставление на основе концепций, состоящих из нескольких слов, а не на основе отдельных слов, которые могут быть весьма неоднозначными.

Ранние поисковые системы искали документы, содержащие слова, введенные пользователем в поле поиска. Они известны как поисковые системы по ключевым словам . Логические поисковые системы добавляют степень сложности, позволяя пользователю указывать дополнительные требования. Например, в словах «Tiger NEAR Woods AND (гольф ИЛИ гольф) NOT Volkswagen» используются операторы «NEAR», «AND», «OR» и «NOT», чтобы указать, что эти слова должны соответствовать определенным требованиям. Фраза поиска проще в использовании, но требует, чтобы точная фраза указано в результатах.

Смотрите также

Рекомендации