Автор работы: Пользователь скрыл имя, 20 Февраля 2012 в 09:45, реферат
В настоящее время в поисковых системах используется релевантная модель оценки соответствия исследуемого документа поисковому запросу. Данная модель практически не справляется с решением задач распознавания и поиска омонимов (грамматических, и, особенно, - лексических), синонимов и многозначных слов. Это обусловлено тем, что в основу релевантной модели поиска заложен лингвистический подход и ряд оценочных синтетических критериев (таких как положение слов на странице), а перечисленные выше языковые артефакты не могут быть распознаны без понимания смысла поискового запроса.
В настоящее время в поисковых системах используется релевантная модель оценки соответствия исследуемого документа поисковому запросу. Данная модель практически не справляется с решением задач распознавания и поиска омонимов (грамматических, и, особенно, - лексических), синонимов и многозначных слов. Это обусловлено тем, что в основу релевантной модели поиска заложен лингвистический подход и ряд оценочных синтетических критериев (таких как положение слов на странице), а перечисленные выше языковые артефакты не могут быть распознаны без понимания смысла поискового запроса. Семантические поисковые системы пытаются привнести такой смысл в результаты запросов поиска, представленные в контекстном формате.
Семантический механизм
Семантический механизм стал результатом долгих научно-исследовательских работ (в течение 8 лет) в области поисковой лингвистики. Все началось с разработки классификационной системы, предназначенной для данных, собранных для первого издания Кембриджской энциклопедии.
В то же время вся
база данных принадлежала издательству
Cambridge University Press, но в 1997 году она была продана
голландскому электронному издательству
AND, которое начало ее разработку для интерактивного
использования. В течение последующих
4 лет классификационная система была
преобразована в «глобальную модель данных»,
предполагающую несколько приложений
к классификации документов и поисковым
технологиям. Когда компания AND в 2001 вышла
из бизнеса, вся база данных была приобретена
компанией Crystal Reference Systems, созданной с
целью развития глобальной модели данных
и ее основного понятия «семантического
механизма». Это одна из крупнейших семантических
систем, постоянно развивающихся под наблюдением
профессора Кристалла и его высококвалифицированной
редакторской команды.
Чтобы лучше понять поисковую лингвистику,
используемую Crystal Semantics, и ответить на
вопрос, почему в теории возможно большее,
нежели на практике, предлагаем обсудить
это вместе.
Булевый поиск и поиск с использованием Wildcard-символов
Булевый поиск – это комбинация
элементов, позволяющих включать и исключать
из поисковых результатов документы, содержащие
определенные слова. Это достигается с
помощью булевых операторов and, not, or, near.
Вот как используются операторы:
• And или знак плюс (+) – в описании должны
присутствовать 2 и более элемента или
фразы; And – это оператор, заданный по умолчанию.
• Or - один из элементов должен быть в описании.
• Not или знак минус (-) – из поиска исключается
один элемент или фраза.
Булевый поиск представляет собой одну из самых простых поисковых программ сравнения. Ярким примером булевого поиска служит использование любой крупной поисковой системы (Google, Yahoo) со множеством слов. Это предполагает использование оператора And для поиска всех элементов. Например, введем запрос «покупка плазменного телевизора онлайн», из этого будет следовать, что поиску подлежат все слова, соответствующие запросу. Все страницы, где есть слова купить, плазменный, телевизор и онлайн будут представлены в результатах поиска.
Другой пример. Если пользователь
хочет исключить из поиска один из
элементов, например, «купить плазменный
телевизор онлайн – Sony», поисковый
алгоритм воспримет это следующим образом:
все релевантные результаты, имеющие слова
купить, плазменный, телевизор и онлайн,
будут включены в результаты поиска, а
вот страницы, на которых есть слово Sony,
будут исключены.
Очень редко поисковая система не поддерживает
булевый поиск. В основном, булевые операторы
представлены во всех системах и функционируют
автоматически.
Поиск с использованием Wildcard-символов
Многие современные поисковые
системы поддерживают поиск с
использованием Wildcard-символов. Зачастую
Wildcard-символы в виде астериска (*) или знака
вопроса (?) используются для замены букв
при написании.
Поиск с использованием Wildcard-символов
предполагает поиск элементов, которые
подходят словам с пропущенной буквой,
например, слова text или test можно искать
следующим образом: с помощью te*t или te?t.
Поиск с расстоянием
Некоторые поисковые системы поддерживают поиск слов, которые находятся на определенном удалении от элементов запроса. Поиск с расстоянием - поиск, при котором пользователь указывает, на каком расстоянии между собой должны располагаться ключевые слова в документе. Для осуществления данного вида поиска необходимо в конце фразы использовать тильду (~). Например, чтобы задать поиск слов теплица и углерод на расстоянии 10 слов друг от друга, в строку запроса нужно ввести следующее: теплица углерод ~10.
Неточный поиск
Возможно, не все знакомы с понятием «неточный поиск». В процессе неточного поиска определяются страницы, которые могут быть релевантными аргументу поиску, даже если аргумент неточно соответствует желаемой информации. Неточный поиск осуществляется посредством «Программы неточного сравнения», которая демонстрирует список результатов, составленный на основе некоторого сходства слова-аргумента с написанным вариантом. Наиболее точные и релевантные совпадения можно будет найти в начале всего списка результатов поиска. Иногда присутствует оценка относительной релевантности (в процентах) результатов поиска.
Программа неточного сравнения
может выполнять функции
Обычно программа неточного сравнения представляет помимо релевантных совпадений и нерелевантные. Как правило, это происходит, если слово имеет много значений, одно из которых может оказаться релевантным запросу. Если у пользователя только смутное представление о том, что ему нужно найти, то следует ориентироваться по оценке относительной релевантности (у нерелевантных совпадений оценка будет низкой).
С точки зрения научных исследований, неточный поиск представляет больше возможностей, чем его точный аналог. Неточный поиск широко применяется при исследовании малоизвестных, специфических работ и работ на иностранном языке, правильное написание названий которых не известно. Данный вид поиска также используется для определения местоположения объекта, информация о котором не точна или ее не достаточно.
Используя неточный поиск, пользователю нужно внести в строку поиска все варианты написания искомого слова (множественное/единственное число, а также варианты неправильного написания).
Поиск по контексту
В оффлайн-разговоре собеседники без труда понимают друг друга, легко определяя нужное значение многозначного слова по контексту. Поиск по контексту представляет собой онлайн-попытку определять нужное значение слова в зависимости от окружающих его слов (контекста). Именно поиск по контексту лежит в основе системы Crystal Semantics’ Textonomy. Данный вид поиска имеет частичное сходство с неточным поиском, а отличие в том, что поиск по контексту предусматривает оценку содержания всей страницы в целом, а не отдельного слова.
Однако релевантные результаты
поиска продолжают оставаться актуальной
проблемой для поисковых