Автор работы: Пользователь скрыл имя, 24 Апреля 2012 в 12:56, курсовая работа
Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google», «Yahoo», «MSN». В русском Интернете это – «Яндекс», «Рамблер», «Апорт».
ВВЕДЕНИЕ
ГЛАВА 1. Поисковые системы: состав, функции, принцип работы
1.1 Понятие и функции поисковой системы
1.2 Краткая история развития поисковых систем
1.3 Состав и принципы работы поисковой системы
1.4 Модуль индексирования
1.5 База данных
1.6 Поисковый сервер
ГЛАВА 2. Что умеет Яndex
2.1 Возможности Яндекса
2.Результаты поиска
3.Поисковая форма
4.Найденный документ
2.5 Эпилог результатов поиска
Выводы
Заключение
Список литературы
1.4
Модуль индексирования
Модуль индексирования состоит из трех вспомогательных программ (роботов):
Spider
(паук) – программа, предназначенная
для скачивания веб-страниц. «
Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате:
Crawler
(«путешествующий» паук) – программа,
которая автоматически
Indexer
(робот- индексатор) - программа, которая
анализирует веб-страницы, скаченные
пауками. Индексатор разбирает
страницу на составные части
и анализирует их, применяя собственные
лексические и морфологические
алгоритмы. Анализу
Таким
образом, модуль индексирования позволяет
обходить по ссылкам заданное множество
ресурсов, скачивать встречающиеся
страницы, извлекать ссылки на новые
страницы из получаемых документов и
производить полный анализ этих документов.
1.5
База данных
База
данных, или индекс поисковой системы
- это система хранения данных, информационный
массив, в котором хранятся специальным
образом преобразованные
1.6
Поисковый сервер
Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.
Поисковый сервер работает следующим образом:
Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.
Запрос поступает в поисковую систему через маршрутизатор Cisco 6000 series. Cisco передает его наименее загруженной машине первого уровня - frontend (1.1 - 1.3, на рис. машине 1.3). Frontend, в свою очередь, отправляет запрос дальше, на один из восьми proxy-серверов, также выбирая наиболее свободный сервер (2.1 - 2.8, на рис. машине 2.2). Одновременно frontend отправляет запрос на машины, осуществляющие поиск по товарам (3.1 - 3.2, на рис. машине 3.1) и по базе Тор 100 (4.1 - 4.2, на рис. машине 4.1). На proxy проводится поиск по ссылочному индексу, и его результаты вместе с поисковым запросом передаются на машины, которые содержат основную индексную базу, - backends (5.1.х - 5.7.х, на рис. машинам 5.1.2, 5.2.11, 5.3.1 и т.д.) Та же информация отправляется на машины с "быстрой базой" (6.1 - 6.2).
На текущий момент в поиск включено 77 backend'ов. Они сгруппированы по 11 машин, и каждая группа содержит копию одной из частей поискового индекса. Таким образом, информация о сайтах, условно входящих в красный сектор Интернета, находится на backend'ах первой группы (5.1.1 - 5.1.11 на рис), оранжевый сектор - на backend'ах второй группы (5.2.1 - 5.2.11) и т.д. Proxy-сервер выбирает наименее загруженный backend в каждой группе машин и отправляет на него поисковый запрос с результатами ссылочного поиска. На backend'ах осуществляется поиск по частям индексной базы и ранжирование с учетом результатов поиска по ссылочному индексу. При ранжировании для всех найденных документов высчитываются веса по конкретному запросу.
После
того, как запрос обработан на backend'ах,
информация о результатах и ранжировании
отдается обратно на proxy-сервер. Туда
же поступают отсортированные
Помимо
информации с proxy-сервера, frontend получает
результаты из поиска по товарам и
из базы Тор 100, отсортированные, с цитатами
и подсветкой слов запроса. Frontend осуществляет
окончательное объединение
2.1 Возможности Яндекса
Программные продукты серии Яndex (Языковый index) - набор средств полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского языка.
Яndex включает модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких, как анализатор документов, языки разметки, конверторы форматов, сетевой "паук".
Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, то есть находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре. Система полнотекстового индексирования позволяет создавать компактный индекс и быстро осуществлять поиск с учетом логических операторов.
Яndex
предназначен для работы с текстами как
в локальной так и в глобальной сети (технологии
Intranet и Internet) , а также может быть подключен
как модуль к другим системам.
Создаваемый индекс составляет около 1/3 объема текста (без картинок, tag'ов и пр.), при этом записывается подробный адрес слова - с точностью до позиции в тексте, что потом позволяет искать с учетом близости. В базу входят нормализованные формы слов текста, сами документы не хранятся.
Морфологический анализ слов текста происходит одновременно с индексацией, что дает возможность снятия омонимии.
Скорость индексации - не менее 2 Мб/минуту. Написан свой робот для обхода Web'а.
Организация изменения индекса (полное либо частичное обновление, слияние).
Идет
индексирование по всем словам, стоп-слова
определяются статистически.
2. Поиск
Язык запросов: скобки; логическое И (в пределах одного абзаца); логическое ИЛИ; оператор И НЕ (в пределах одного абзаца); близость - расстояние в словах.
Список выданных документов упорядочивается по релевантности - по количеству найденных слов. В каждом документе выделяются (подсвечиваются) найденные слова.
3. Работа с языком
Для
интеллектуализации поиска используется
словарь на 90 тыс. слов. При индексации
происходит нормализация, то есть слово
ставится в свою исходную форму (для
существительных - именительный падеж
единственного числа, для глаголов
- неопределенная форма и т.д.) и
в таком виде учитывается в
базе. Алгоритм морфологического разбора
умеет корректно обрабатывать и
слова, не найденные в словаре. Морфология
работает для русского и английского
языка. Также индексируются числа.
На странице результатов поиска Яндекса есть тексты, поясняющие результаты поиска, и ссылки, дающие возможность сортировать найденное или уточнять запрос. Ниже приведен общий вид страницы результатов.
Если в результате запроса Яндекс нашел много документов, но по более широкой теме, чем вам хочется, вы можете сократить этот список, уточнив запрос. Еще один вариант — включить флажок в найденном в форме поиска, задать дополнительные ключевые слова, и следующий поиск будет вестись только по тем документам, которые были отобраны в предыдущем поиске. Например, чтобы найти страницы про кондиционеры — средства, предназначенные для ухода за волосами (а не климатическую технику), можно задать запрос кондиционеры, для определения области поиска. А затем, поставив галочку в найденном, — слово «волосы».
Под формой поиска могут появляться несколько дополнительных блоков.
Адрес сайта.
Яндекс
позволяет искать информацию только
по интересующему вас сайту, задав
соответствующие параметры в ра
Выбор региона.
Поиск
можно ограничить сайтами в нужном
вам регионе или относящимися
к интересной вам теме. Для поиска
по всем сайтам снимите флажок в
регионе.
Выбор диапазона дат.
Задав временной интервал, к которому должны относиться искомые документы, вы можете затем его исправить в результатах поиска, введя новые числа в формате «День-Месяц-Год».
Над формой поиска видны две ссылки. Ссылка «Помощь» ведет на описание возможностей поиска. По ссылке «Настройка поиска», вы сможете изменить вид страницы с результатами поиска по своему вкусу, включить семейный поиск и отключить показ графической рекламы. Ссылка справа от формы поиска ведет на расширенный поиск, позволяющий даже неопытному пользователю задавать сложные поисковые запросы.
Яндекс умеет искать не только сайты, но и новости, товары, картинки и т.д. Когда вы задаете запрос, поиск ведется одновременно по всем «параллельным» базам, и если что-либо найдено, Яндекс покажет информацию среди результатов поиска. В правой колонке — товары и картинки, внизу или вверху страницы — новости, словари, карты, афиша, погода. И все это — одним запросом!