Автор работы: Пользователь скрыл имя, 11 Января 2012 в 19:40, контрольная работа
Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса. Большинство пользователей поисковых систем никогда не задумывались (либо задумывались, но не нашли ответа) о принципе работы поисковых систем, о схеме обработки запросов пользователей, о том, из чего эти системы состоят и как функционируют.
Введение
В
наше время информация играет огромную
роль во всех сферах жизнедеятельности.
Людям, имеющим дело с большими объемами
текстов - это и новости, и подшивки газет
в электронном виде, и электронная почта,
и Web-страницы, важно быстро находить в
этом море информации действительно нужную.
Без помощи поисковой системы это было
бы нереально. Благодаря удобству в обращении
и хорошим техническим характеристикам,
различные поисковые системы могут помочь
в этом и новичку, и опытному пользователю.
Поисковые системы и существующие к ним
приложения, способны облегчить работу
представителей многих профессий: Web-мастера,
аналитика, руководителя, лингвиста.
Информационный бум продолжается, происходит
дальнейшее развитие электронно-компьютерных
технологий, а следовательно и в будущем
без поисковых систем обойтись будет крайне
сложно.
Поисковые
системы сейчас – это огромные и сложные
механизмы, представляющие собой не только
инструмент поиска информации, но и заманчивые
сферы для бизнеса. Большинство пользователей
поисковых систем никогда не задумывались
(либо задумывались, но не нашли ответа)
о принципе работы поисковых систем, о
схеме обработки запросов пользователей,
о том, из чего эти системы состоят и как
функционируют.
3
1.Понятие и функции поисковой системы
Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google», «Yahoo», «MSN». В русском Интернете это – «Яндекс», «Рамблер», «Апорт». Рассмотрим подробнее понятие поискового запроса на примере поисковой системы «Яндекс». Поисковый запрос должен быть сформулирован пользователем в соответствии с тем, что он хочет найти, максимально кратко и просто. Допустим, мы хотим найти информацию в «Яндексе» о том, как выбрать автомобиль. Для этого, открываем главную страницу «Яндекса», и вводим текст поискового запроса «как выбрать автомобиль»
Далее, наша задача сводится к тому,
чтобы открыть предоставленные по нашему
запросу ссылки на источники информации
в Интернет. Однако, вполне можно и не найти
нужную нам информацию. Если таковое произошло,
то либо нужно перефразировать свой запрос,
либо в базе поисковой системе действительно
нет никакой актуальной информации по
нашему запросу (такое может быть при задании
очень «узких» запросов, как, например
«как выбрать автомобиль в Краснодаре»)
Первоочередная задача любой поисковой
системы – доставлять людям именно ту
информацию, которую они ищут. А научить
пользователей делать «правильные» запросы
к системе, т.е. запросы, соответствующие
принципам работы поисковых систем, невозможно.
Поэтому разработчики создают такие алгоритмы
и принципы работы поисковых систем, которые
бы позволяли находить пользователям
искомую ими информацию. Это означает,
поисковая система должна «думать» так
же, как думает пользователь при поиске
информации. Когда пользователь обращается
с запросом к поисковой машине, он хочет
найти то, что ему нужно, максимально быстро
и просто. Получая результат, он оценивает
работу системы, руководствуясь несколькими
основными параметрами. Нашел ли он то,
что искал? Если не нашел, то сколько раз
ему пришлось перефразировать запрос,
чтобы найти искомое? Насколько актуальную
информацию он смог найти? Насколько быстро
обрабатывала запрос поисковая машина?
Насколько удобно были представлены результаты
поиска? Был ли искомый результат первым
или же сотым? Как много ненужного мусора
было найдено наравне с полезной информацией?
Найдется ли нужная информация, при обращении
к поисковой системе, скажем, через неделю,
или через месяц?
5
2. Классификация поисковых систем
Все поисковые системы условно можно
разбить на три больших класса:
1) Поисковые машины (анг. - search engines). Иначе
их еще называют программы - червяки и
программы - пауки. Такие программы ползают
от одного сайта к другому методично индексируя
контент. Все, что находит такой червяк
попадает в базу данных, куда любой пользователь
может обратиться с запросом. Достоинство
таких программ обширная база данных -
практически вся сеть. Недостаток - это
то, что в ответ на любой запрос вы получаете
тысячи адресов веб-страниц.
2) Веб-каталоги или поисковые порталы
(directories). Информация в них организуется
в виде древовидной структуры, обычно
по тематическому признаку и в соответствии
с рейтингом. Адреса и описания веб-сайтов
заносятся в каталог по заявке. Записи
редактируются вручную web-мастером, модератором.
Во многие каталоги попасть трудно, некоторые
эту услугу делают платной, стремление
хозяев сайтов попасть в любой каталог
(чем больше, тем лучше) вызвано желанием
разместить свою ссылку на чужом сайте
и следовательно повысить рейтинг в метапоисковых
системах о чем будет сказано ниже. Если
вы стремитесь увеличить количество посетителей
на своем сайте, то выбирайте такой каталог
в котором вас будет видно. Эффект от размещения
ссылки в небольшом каталоге и при наличии
интересного контента может оказаться
довольно высоким, т.к. с таких сайтов посетители
уходят в основном по какой-нибудь ссылке.
Тем не менее регистрация в таких каталогах
как Yahoo! и Open Directory желательна, т.к. их базы
данных используются метапоисковыми системами
при определении рейтинга.
3) Метапоисковые системы - это поисковые
системы у которых отсутствует своя база
данных с адресами и описанием ресурсов.
Они используют базы
6
данных каталогов. В собственной базе данных хранятся только адреса ресурсов. Поиск с помощью этих систем в настоящее время наиболее популярен. О способах повышения рейтинга в этих системах на примере поисковой системы Google см. в нашей статье «О повышении индекса цитируемости»
2.1 Поисковые машины
Поисковые
машины (от анг. search engines) AltaVista (вид сверху)
- торговая марка популярной поисковой
машины. Сегодня база данных AltaVista является
самой крупной в Интернете. Помимо разветвленных
средств поиска текстовой информации
содержит такие инструменты, как Photo Finder
- поиск изображений, технологию онлайнового
перевода документов и возможность индексирования
на нескольких языках. В сотрудничестве
с компанией AskJeeves. AltaVista разработала базу
данных, управляемую при помощи команд
на поддерживаемых языках. Excite - поисковая
машина. Технология Excite лицензирована
компанией Netscape Communications для использования
на портале NetCenter, а также корпорацией
America Online (с правом собственного дополнения
БД). Имеет интеллектуальные алгоритмы
поиска по технологии ICE (Intelligent Concept Extraction),
которые позволяют работать не только
с отдельными ключевыми словами, но и с
объединяющими их понятиями. Если, допустим,
вы введете словосочетание «система обучения»,
то поисковая машина просмотрит также
страницы, содержащие слова «школа», «учебник»
и т.д. Таким образом, Excite очень эффективна
для поиска материалов по смежным понятиям.
Goto - компания начала свою деятельность
с приобретения старой и довольно известной
поисковой машины WWW Worm. Затем решено было
подобрать ссылки на самые популярные
темы поиска и даже расположить соответствующие
ключевые слова на заглавной странице.
Результаты поиска часто получаются такие
же, что и в HotBot, Snap и Yahoo!, а иногда даже
и
7
лучше.
HotBot (Wired Digital) - с 1998 года поисковая машина
принадлежит компании Lycos. Здесь используется
оригинальная технология Inktomi, позволяющая
совершать полноценный текстовый поиск
по произвольному ключевому слову. Основные
посетители ее поискового сервера - компьютерщики-профессионалы,
которые используют HotBot для поиска необходимого
программного обеспечения и данных, связанных
с информационными технологиями. Однако
компьютерной тематикой данная поисковая
система, безусловно, не ограничивается.
Постоянно ведется работа, направленная
на дальнейшее ее развитие: пополняется
база данных Inktomi, выпускаются новые версии
алгоритмов.
InfoSeek - поисковая машина которая когда-то
входила в десятку лучших. В настоящее
время она больше занимается электронной
коммерцией. После создания в 1999 году совместного
с компанией Walt Disney нового суперпортала
под названием Go Network - этот сайт входит
в первую десятку по посещаемости.
Northern Light
- поисковая машина создавалась в целях
увеличения информативности поиска в
Интернете. Ее основная идея - контекстный
поиск. Спайдер компании ежедневно индексирует
тысячи сайтов, в число которых входят
электронные издания, периодика, службы
новостей, академические библиотеки и
электронные архивы текстов. Еще одной
особенностью поисковой машины Northern Light,
выгодно отличающей ее других, является
возможность сортирования полученной
информации по адресам сайтов и тематикам.
Желающие могут подписаться на всевозможные
тематические подборки, например на материалы
определенных рубрик из любимых газет
и журналов, а затем в течение года получать
специально подготовленную и отсортированную
информацию. Проект Northern Light является одним
из самых масштабных в Интернете.
SearchKing
- поисковая система с упором на повышение
достоверности информации (релевантности
документов). При построении рейтинга
поисковая машина учитывает количество
«кликов» (щелчков) на ссылках, посещаемых
в результате поиска. Поэтому каждый пользователь
невольно «голосует» за самый популярный
сайт.
WebCrawler - с 1996 года проект принадлежит компании
Excite, поэтому на его заглавной странице
находится логотип этой фирмы, а поисковая
машина WebCrawler является составной частью
Excite Network. Ее создатели обращают внимание
на то, что многие более поздние технологии,
включая Lycos и InfoSeek, были разработаны уже
после появления WebCrawler. База данных проекта
продолжает регулярно пополняться, но
использовать эту систему рекомендуется
в случаях, если нужен поиск по одному
или двум ключевым словам.
2.2 Веб-каталоги и поисковые порталы
LookSmart
- Каталог ссылок, который редактируется
вручную, усилен одной из самых мощных
поисковых машин AltaVista - это позволило
создать один из самых информативных порталов.
Гигантская база данных AltaVista поможет
отыскать нужный сайт по ключевым словам,
а рубрики LookSmart позволят точнее определиться
с предметом поиска.
Lycos - Поисковая система специализируется
в сфере Интернет-торговли. База данных
регулярно пополняется. Этот портал обладает
мощнейшим специализированным каталогом
WhoWhere, содержащим персональную информацию
о зарегистрированных пользователях Интернета,
а также развитыми средствами по предоставлению
услуг электронной почты с ведением адресных
книг и возможностью создания иерархической
структуры подкаталогов для хранения
персональной корреспонденции. Всем посетителям
в качестве ответов на запрос вначале
предлогаются сайты Open Directory Project, а затем
ссылки из базы данных поискового механизма
9
Lycos.
PlanetSearch Networks
- портала нового типа, основанный на онлайновых
сообществах, в которые люди смогли бы
объединяться по интересам и увлечениям,
а затем пользоваться не только механизмом
поиска, но и тематическими досками объявлений,
а также чатами. В результате прекрасный
набор тематических сайтов и соответствующих
поисковых систем.
Yahoo - один из самых
известных порталов Сети. Каталог содержит
ссылки, которые наиболее полно отвечают
указанной в запросе тематике. Имеются
интеллектуальные средства «отсечения»
пустых, находящихся в разработке или
чисто рекламных сайтов, далеких от искомой
тематики. При поиске на Yahoo! большое внимание
уделяется предварительному предложению
отсортированной информации в каталогах,
и только если найденная там информация
не удовлетворяет пользователя, то запрос
передается метапоисковым машинам.
2.3 Метапоисковые системы
All4One
(все-в-одном) - предоставляет посетителям
возможность получать результаты поиска
непосредственно из поддерживаемых поисковых
систем, то есть с привычным интерфейсом.
После ввода запроса окно браузера разбивается
на несколько фреймов. В каждом из них
выводится список ссылок, найденных конкретной
поисковой машиной, в число которых входят
и AltaVista, и Lycos, и Excite. Надо сказать, что такой
интерфейс имеет и свои недостатки: страницы
со ссылками в узких фреймах очень неудобно
просматривать. Однако тем, кому нужен
быстрый и широкомасштабный поиск с использованием
известных поисковых машин, All4One предоставит
весь спектр необходимых услуг.
Debriefing - эта метапоисковая
система имеет две различные версии пользовательского
интерфейса: интернациональный - на английском
языке и национальный - на французском.
При работе с ключевыми словами на
английском
языке сервер использует стандартный
набор популярных поисковых систем, а
вот запросы на французском языке обслуживают
пять поисковых систем и каталогов Франции.
Dogpile
- мощная метапоисковая система Dogpile использует
для поиска не только поисковые машины,
но и FTP-серверы, а также сайты, на которых
собираются последние новости, фондовые
котировки и «желтые страницы» Интернета.
Среди дополнительных услуг, предоставляемых
этим сервером, возможность получения
подробных прогнозов погоды и географических
карт интересующей пользователя местности.
Google - одна из
самых популярных метапоисковых машин
в сети. Корректное отображение запрашиваемой
информации. Представление информации
согласно рейтинга, в основу которого
положен индекс цитируемости страниц.
Рейтинг страницы определяется по количеству
ссылок на нее с популярных внешних сайтов
и по упоминанию данного адреса в авторитетных
источниках информации. Принципиальным
отличием метапоисковой системы Google, от
себе подобных систем, является отсутствие
собственной базы данных адресов и ссылок,
ведется учет только адресов (URL ресурса)
- отсюда и система рейтинга.
Mamma Systems - канадская
метапоисковая система предоставляет
стандартный комплекс услуг, принятый
в таких случаях: используя базы данных
популярных поисковых машин, она делает
свою работу весьма качественно.
MetaCrawler - метапоисковая
система принадлежит американской компании
Go2Net. MetaCrawler вначале производит поиск необходимой
информации по базам данных других систем,
а затем, используя собственный алгоритм,
анализирует и сортирует полученные ссылки,
ищет похожие, определяет рейтинг и выдает
результат клиенту. Среди других услуг,
предоставляемых MetaCrawler, следует отметить
возможность расширенного поиска, довольно