Стратегии развития информационного поиска в сети интернет. Семантический поиск

Автор работы: Пользователь скрыл имя, 08 Сентября 2011 в 15:20, творческая работа

Описание

Скачать (135.36 Кб) Сколько стоит заказать работу?

Работа состоит из 1 файл

Стратегии развития информационного поиска в сети Интернет.pptx

— 153.72 Кб (Скачать документ)

Стратегии развития информационного поиска в сети Интернет. Семантический поиск

Выполнили:

студенты II-ФАИТ-7а

Садкин М.В.

Тихонова А.С.

Руководитель:

Машков А.В.

      В настоящее время в поисковых системах используется релевантная модель оценки соответствия исследуемого документа поисковому запросу.
      Данная модель практически не справляется с решением задач распознавания и поиска омонимов (грамматических, и особенно- лексических), синонимов и многозначных слов.
        Это обусловлено тем, что в основу релевантной модели поиска положен лингвистический подход и ряд оценочных синтетических критериев (таких как положение слов на странице), а перечисленные языковые артефакты не могут быть распознаны без понимания смысла поискового запроса.

С точки зрения теории семантического пространства, оценка информационного соответствия между одним документом (поисковым запросом) и другим (исследуемым документом) есть проекция пространства первого на пространство второго. И чем больше эта проекция, тем больше смысл исследуемого документа соответствует смыслу поискового запроса.

В общем случае поиск информации состоит из четырех этапов:
1. определение информационной потребности и формулировка информационного запроса;
2. определение совокупности возможных держателей информационных массивов;
3. извлечение информации из выявленных информационных массивов, ранжирование информации;
4. ознакомление с полученной информацией и оценка результатов поиска.

Виды информационного поиска:

*Полнотекстовый поиск — поиск по всему содержимому документа. Пример полнотекстового поиска — любой интернет-поисковик, например www.yandex.ru, www.google.com. Как правило, полнотекстовый поиск для ускорения поиска использует предварительную индексацию – извлечение из документов информации, важной для поиска, преобразование этой информации в формат, удобный для поисковой машины и сохранение этой информации в базу данных поисковой машины.

*Поиск по метаданным — это поиск по неким атрибутам документа, поддерживаемым системой — название документа, дата создания, размер, автор и т. д. Например, если поисковая система «знает» о том, что «Ван Гог» является «голландским художником», то она может выдать в ответ на запрос о голландских художниках веб-страницу о Ван Гоге, даже если слова «голландский художник» не встречаются на этой странице

*Поиск изображений — поиск по содержанию изображения. Поисковая система распознает содержание фотографии (загружена пользователем или добавлен URL изображения). В результатах поиска пользователь получает похожие изображения. Так работают поисковые системы Polar Rose, Picollator и др.

* Поиск по контексту – представляет собой онлайн-попытку определять нужное значение слова в зависимости от окружающих его слов (контекста). Данный вид поиска имеет частичное сходство с неточным поиском, а отличие в том, что поиск по контексту предусматривает оценку содержания всей страницы в целом, а не отдельного слова.

* Неточный поиск – в процессе неточного поиска определяются страницы, которые могут быть релевантными запросу поиска, даже если запрос неточно соответствует желаемой информации. Неточный поиск осуществляется посредством «Программы неточного сравнения», которая демонстрирует список результатов, составленный на основе некоторого сходства слова-аргумента с написанным вариантом. Наиболее точные и релевантные совпадения можно будет найти в начале всего списка результатов поиска

Булевый поиск – это комбинация элементов, позволяющих включать и исключать из поисковых результатов документы, содержащие определенные слова. Это достигается с помощью булевых операторов and, not, or, near.

Вот как используются операторы:

• And или знак плюс (+) – в описании должны присутствовать 2 и более элемента или фразы; And – это оператор, заданный по умолчанию.
• Or - один из элементов должен быть в описании.
• Not или знак минус (-) – из поиска исключается один элемент или фраза.

Булевый поиск представляет собой одну из самых простых поисковых программ сравнения.

Семантический поиск – процесс поиска информации по её содержанию

Принципиальная разница между адресным и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске — с точки зрения содержания. Это означает, что при адресном поиске, мы имеем некоторый экстракт документа, хранящийся в базе, вместе с адресом на этот документ. И оперировать при поиске можем только этими экстрактами.

При содержательном же поиске (семантическом поиске), мы оперируем всем содержимым документа, для определения его смысла, и после этого формируем представление о его релевантности.

На сегодняшний день, одним из наиболее успешно развивающихся, является семантический поисковик http://asknet.ru/. Например, при вводе в строку поиска «Столица Франции», в семантическом поиске мы получаем просто правильный ответ: «Париж». Но если мы введем тот же запрос в адресном поиске, например Google, то получим обилие ссылок на информационные статьи о государстве Франция. Кроме того, большинство запросов, которые мы вводим в строку поиска в виде аббревиатур, дают те же результаты, если вводить термин полностью.

Основным плюсом семантических поисковых систем является возможность создавать запрос на естественном человеческом языке. Нет необходимости выделять ключевые слова или переформулировать запрос в более понятный машине вид. Работа с семантической поисковой системой абсолютно проста. Пользователь задает вопросы компьютеру на обычном языке, а в ответ получает ответы, которые семантическая поисковая система отфильтровала от информационного "мусора". Так же система семантического поиска предусматривает персонализацию, хранение истории запросов конкретного пользователя. Это позволит системе выводить наиболее ожидаемые результаты в каждом конкретном случае.

Информационная база хранится в тезаурусах – особая разновидность словарей общей или специальной лексики, в которых указаны семантические отношения (синонимы, антонимы, паронимы, гипонимы, гиперонимы и т. п.) между лексическими единицами. Таким образом, тезаурусы, особенно в электронном формате, являются одним из действенных инструментов для описания отдельных предметных областей. В отличие от толкового словаря, тезаурус позволяет выявить смысл не только с помощью определения, но и посредством соотнесения слова с другими понятиями и их группами, благодаря чему может использоваться для наполнения баз знаний систем интеллектуального поиска.

Семантическиая сеть представляет собой ориентированный граф, вершины которого представляют собой понятия, а ребра (дуги) - определяют семантические отношения между этими понятиями. Примером такой сети можно считать гипертекст с его якорями и гиперсвязями (но это лишь частный простой случай). Граф может быть древо-подобным , но может содержать и циклические структуры.

. Несмотря на то, что терминология и их структура различаются, существуют сходства, присущие практически всем семантическим сетям:

1. узлы семантических сетей представляют собой концепты предметов, событий, состояний;

2. различные узлы одного концепта относятся к различным значениям, если они не помечено, что они относятся к одному концепту;
3. дуги семантических сетей создают отношения между узлами-концептами (пометки над дугами указывают на тип отношения);

4. некоторые отношения между концептами представляют собой лингвистические падежи, такие как агент, объект, реципиент и инструмент (другие означают временные, пространственные, логические отношения и отношения между отдельными предложениями;

5. концепты организованы по уровням в соответствии со степенью обобщенности так как, например, сущность, живое существо, животное, плотоядное.

Семантический Веб
На смену едва оформившемуся термину Web 2.0— Web 3.0, «Семантический Веб». Веб 3.0 – очень многогранное и, на текущий момент, до сих пор не сформированное понятие. Его можно рассматривать с разных точек зрения.

* С точки зрения машинной обработки данных – Семантический веб – это идея хранить данные такие образом, чтобы они были определенными и связанны, а также существовала возможность их дальнейшей автоматизированной обработки, интеграции и многократного использования в различных сервисах, приложениях и т.п.

* С точки зрения интеллектуальных агентов, то целью будет являться более «машиноориентированный» Веб, с тем, чтобы можно было наиболее эффективно использовать поисковых агентов для поиска и обработки информации.

* С точки зрения распределенных баз данных, баз знаний, то концепция Семантического Веба заключается в описании, добавлении дополнительной мета информации, которая позволяет однозначно идентифицировать и сопоставить информацию.

*С точки зрения обслуживания пользователей (потребителей контента) – идея Веб 3.0 заключается в минимизации действий пользователю и выдаче в качестве ответа на его запрос непосредственного ответа на его запрос, который будет учитывать не только его запрос, но и всю его историю, особенности (социально–психологический портрет), вкусы, интересы и многие другие факторы.

* С точки зрения качества поиска – реализация поиска не только по ключевым словам или контексту, но и по контенту. Выдача точного ответа на запрос пользователя. Во многом, использование поисковой системы, как экспертной системы.

* С точки зрения веб-сервисов Семантический Веб обеспечивает доступ не только к существующим статическим сайтам, но и к динамическим, приложениям, сервисам и другим ресурсам, содержащим полезный контент.

Информация о работе Стратегии развития информационного поиска в сети интернет. Семантический поиск