Понятие и функции поисковой системы

Автор работы: Пользователь скрыл имя, 11 Января 2012 в 19:40, контрольная работа

Описание

Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса. Большинство пользователей поисковых систем никогда не задумывались (либо задумывались, но не нашли ответа) о принципе работы поисковых систем, о схеме обработки запросов пользователей, о том, из чего эти системы состоят и как функционируют.

Работа состоит из  1 файл

Контрольная работа по предмету бизнес-интернет.doc

— 1.27 Мб (Скачать документ)

11

интересное приложение MiniCrawler для поиска информации в сети в обход сайта компании и программу MetaSpy, позволяющую вести наблюдение за ключевыми словами в системе MetaCrawler. По данным различных информационных агентств, MetaCrawler в последнее время входит в десятку лучших метапоисковых систем в сети.  
         OneSeek - метапоисковая система предназначена для тех, кто знает, что именно ищет. При использовании OneSeek требуется предварительно выбрать необходимую категорию, поскольку поиск интересующей информации будет производиться именно по этой тематике. Для того чтобы определиться с целями, предлагается довольно удобный интерфейс, который позволит оптимизировать поиск, сэкономит время и позволит избежать ненужных результатов.

       ProFusion - метапоисковую систему ProFusion отличает от других подобных систем наличие функции автоматического выбора трех наиболее подходящих для данного запроса поисковых машин. Это означает, что после ввода ключевого слова ProFusion пытается сузить область поиска, определить тематику, к которой относится запрос, и выбрать три оптимальные для данного случая поисковые машины. Кроме того, ProFusion предоставляет персональный сервис по сохранению ключевых слов запроса, а затем регулярно автоматически сканирует выбранные поисковые машины, а если находит новую информацию по интересующей теме, то сообщает об этом пользователю (или создает для него «теневую» базу данных). Разрабатываются и другие вспомогательные функции системы. Proteus - представляет собой скорее даже не метапоисковую систему, а средство переадресации запросов на другие поисковые машины. Здесь нет никакого алгоритма сортировки полученных ссылок - просто на одной странице находится окошко для ввода ключевых слов и множество кнопок для поиска во внешних поисковых системах.  
        SavvySearch - система предоставляет услуги расширенного поиска в сети
 

12

с 1998 года. При запросе клиента исследуются 200 внешних баз данных, сборники прайс-листов и целый ряд специальных электронных справочников и библиотек. SavvySearch имеет простой и продуманный интерфейс, удобные функции поиска. Кроме того, система предоставляет множество дополнительных услуг, количество которых постоянно растет.

2.4 Русскоязычные поисковые системы      

 Яndex (http://www.yandex.ru/)    Поиск по «русскому» Интернету. Поисковая система типа автоматический индекс. Автоматический индекс навещает все известные ему сайты, переписывает тексты всех доступных страничек и хранит эти тексты вместе с их адресами в своей базе данных. Система обладает возможностью развернутой формулировки запроса, учитывает особенности русской морфологии. Более детальный запрос может быть составлен с помощью меню «Расширенный поиск». Поиск структурируется по разделам каталога и серверам. Параллельно осуществляется поиск в разделах «новости» и «товары», возможна подписка на запрос. Для удобства восприятия осуществляется подсветка найденных документов, которые ранжируются в зависимости от количества ссылок на них, показывается контекст искомых ключевых слов. Яndex использует собственный каталог документов, база данных обновляется приблизительно раз в неделю.       

       Google (http://www.google.com/)    Google самая популярная и лучшая на сегодняшний день поисковая система, пригодная для любых видов поиска.

Она является абсолютным мировым лидером по объему проиндексированных документов и быстроте обработки запросов. Google индексирует все страницы подряд, независимо от языка, на котором они написаны. Поэтому система пригодна для поиска документов в русскоязычном Интернете. Google решая, какую страницу показать первой, анализирует не только ее текст, но и сведения, которых на самой странице нет. Система ищет слова и фразы не только в тексте страницы, но и в

13

ссылках на нее. «Важность» страницы определяется вычисляемым рангом страницы (PageRank) и как часто встречаются на странице требуемые слова и фразы. Основные преимущества Google - он прост в использовании и имеет огромную базу данных. Google имеет приличный язык запросов и очень простой интерфейс. Система является лучшей для поиска графики. Для удобства в рамках поисковой системы помещен каталог, где сайты расположены по категориям, таким образом, можно сразу обратиться за помощью в этот каталог. Недавно Google запустил новый информационный сервис, разыскивающий новости в информационной сети. Вместо живых редакторов сортировать сообщения будет компьютер. Система ищет информацию на 4 тысячах различных сайтов.  
            Aport! (
http://aport.ru/)    Aport - автоматический индекс. Сейчас индекс Апорта значительно меньше, чем у Яндекса. Главное достоинство системы - богатые возможности формулирования запросов. Апорт способен переводить запрос, результаты поиска и даже полный текст найденных документов на английский язык (или с английского). Системой предусмотрены специальные средства для поиска графических изображений и мультимедийных файлов. В базе данных учтено большое количество документов с зарубежных сайтов. Существует справочник ресурсов Интернета, который на настоящее время является лучшим в России.       

       Rambler (http://www.rambler.ru/)    Первая российская профессиональная информационно-поисковая система, действующая с 1996 года. Режим «Детальный запрос» предоставляет широкие возможности для составления запроса на поиск с помощью пунктов меню. Система учитывает морфологию русского языка. Поиск организован таким образом, что первыми показываются те страницы, которые чаще посещаются. Индексный файл системы, к сожалению, содержит много устаревших документов.  
       Yahoo! (
http://www.yahoo.com/)    Содержит каталог ссылок на ресурсы мировой Сети. Эта поисковая система завоевала репутацию наиболее  

14

авторитетного справочника ресурсов Интернета. Дает прекрасный результат, если необходимо найти максимальное число зарубежных (в первую очередь англоязычных) сайтов по интересующей вас теме. Возможен поиск на русском языке.  
       AltaVista (
http://www.altavista.com/)    Поисковая система AltaVista появилась в конце 1995 года и совершила настоящую революцию в поиске. Уже в это время индекс системы содержал более 20 млн. страниц. AltaVista работала очень быстро, выдавала страницы, отвечающие запросу. Система к тому же обладала рядом уникальных возможностей: мощный и тщательно продуманный язык запросов, проверка орфографии, перевод страниц. AltaVista опередила развитие поисковых систем на многие годы. К сожалению смена владельцев AltaVista помешала ее дальнейшему развитию и привела к тому, что эта система стала уступать поисковой системе с самым большим индексом - Google. Предназначена для поиска информации в Интернете в целом, независимо от региона мира. Для выявления более точной информации рекомендуется производить последовательный поиск с использованием нескольких поисковых машин. Включает в себя русскоязычный Интернет. Есть подсистема поиска графики, аудио- и видеофайлов. Работает функция перевода на основные европейские языки.  
 
 
 
 
 

15

3.Тенденции развития поисковых систем         

         Поисковые средства постоянно развиваются. Совершенствование идет по всем главным аспектам: рост объемов баз данных, возможности оставления запроса и дружественность интерфейса, выдача результатов и наличие дополнительных сервисных функций. Системы, которые долгое время не внедряют новых элементов и не оптимизируют уже имеющиеся функции, постепенно выводятся из активного использования.  
             Увеличение зоны охвата и глубины просмотра. Ведущая тенденция последнего времени заключается в расширении числа обследуемых документов и одновременном увеличении глубины просмотра источника. Несколько лет назад поисковые средства были способны индексировать только несколько миллионов источников, которые на тот период включали web-страницы, статьи конференций Usenet, файлы Gopher и FTP серверов. Современные системы индексируют уже миллиарды документов. При этом скорость работы не только не снизилась, но даже увеличилась за счет использования новейшего программного и аппаратного обеспечения. Однако, даже более важным является то, что поисковые механизмы последнего поколения индексируют все слова на web-странице или в статье из конференции, в то время как ранее область индексирования ограничивалась, как правило, названием, заголовками, первыми несколькими строками и адресом документа. Это существенно ограничивало возможность выявления материалов по узкой тематике, поскольку результаты поиска не всегда отражали реально существующие данные. Устранив этот недостаток, современные поисковые системы стали намного более надежными, чем их предшественники.  
          Развитие внутреннего поискового механизма.   Следующая важнейшая черта -совершенствование внутреннего поискового механизма, выражающееся в увеличении числа операторов и других элементов составления запросов.
 

16

Несколько лет назад применение находили только два, в лучшем случае, три классических булевых оператора: AND (и), OR (или) и NOT (не). Теперь появились NEAR (рядом, около) в Alta Vista и FOLLOWED BY (следует за) в OpenText - в высшей степени полезные операторы расстояния, которые дают возможность в максимальной степени конкретизировать запрос. Многие системы позволяют усекать окончания терминов, ограничивать поиск по дате создания документа, искать ключевые слова только в обозначенных элементах web-страниц (названии, заголовках, электронном адресе и т.д.), а также вести поиск на точное словосочетание. Новейшие разработки также позволяют выявлять файлы определенного вида (например графические или аудио) и обладают чувствительностью к строчным и заглавным буквам. Все это дает возможность составлять поисковый запрос с большей степенью точности, что конечно же повышает релевантность получаемых результатов.  
          Совершенствование интерфейса. Разработчики первых поисковых систем не слишком заботились о комфорте пользователей. В тот период гораздо важнее было просто заставить систему работать. Поэтому желающих воспользоваться услугами поисковых серверов встречали зачастую лишь строки для ввода запроса, без каких-либо экранов помощи или примеров употребления булевых операторов. По этой причине пользователи часто испытывали затруднения, пытаясь точно выразить свой запрос. Системы последнего поколения во многих случаях имеют детализированное многоуровневое меню, которое делает составление запроса максимально простым. За счет его применения пользователи освобождаются от необходимости знать принципы работы булевой логики - они просто комбинируют искомые термины с имеющимися условиями поиска. Нынешние поисковые средства предоставляют также детализированную «помощь», примеры составления запросов, файлы «часто задаваемых вопросов». В зависимости от полученных результатов генерируются подсказки и рекомендации, направленные на устранение типичных ошибок, допускаемых

      17

при составлении  запроса. Таким образом сегодняшний  пользователь уже не должен обладать какими-либо специальными знаниями и опытом для обращения к поисковым средствам.  
          Оптимизация выдачи результатов поиска. Еще одной немаловажной тенденцией является оптимизация выдачи результатов поиска. В данном случае можно с уверенностью утверждать, что поисковые средства становятся более интеллектуальными. Они способны ранжировать результаты в зависимости от соответствия конкретному запросу. Программа анализирует расположение слов в документе, их повторяемость и общее количество. На этой основе перечень ссылок выдается в порядке соответствия запросу, причем ссылки на наиболее ценные источники, выдаются в начале списка. В перспективе работа над тем, как сделать поисковые средства еще более интеллектуальными будет продолжаться, поскольку только системы с мощной интеллектуальной базой будут способны переработать стремительно расширяющийся океан полнотекстовых данных. В частности, предстоит решать проблему информационного шума или «мусорных данных», которая становится все острей в связи с ростом в Интернете материалов низкой содержательной   ценности.  
      Диверсификация сервисов. Последняя технологическая тенденция - появление дополнительных сервисных функций, которые делают пользование поисковыми системами более привлекательным. Некоторые из навигационных средств формируют добавочные базы данных по определенным направлениям (электронные адреса частных лиц, справочники компаний, перечни последних новостей и т.д.). Другие размещают на своих страницах ссылки на наиболее популярные справочные ресурсы Интернет, как например электронные словари, тезаурусы, энциклопедии, интерактивные карты и т.п. источники, что превращает интерфейс поисковых систем в хорошую отправную точку для любого, работающего с Интернет.    
         Стратегии специализации и диффузии.   Помимо технологических

18

перемен, стратегические изменения в сфере  поискового сервиса также очевидны. Среди них наиболее заметным является дробление поисковых средств, выделение поисковых инструментов региональной или отраслевой направленности, учитывающих материалы по отдельным странам, на определенном языке или по определенной тематике. Эти локальные поисковые средства призваны решить задачу исчерпывающего учета информации по отдельным странам и наиболее актуальным темам. Наряду с образованием местных поисковых серверов, ясно обозначилось также стремление распространения вширь гигантов поискового бизнеса. Широко известные Yahoo!, Google, Alta Vista форсируют создание как «зеркальных», так и специальных профильных серверов в европейском и азиатском регионах, стремясь захватить там рынок сетевой рекламы. Само по себе это еще более ожесточает конкурентную борьбу в области поискового бизнеса.  
                Борьба с поисковым спамом        Помимо обычного спама (- массовых рассылок электронной почты, в интернете существует так называемый «спам наоборот» - это когда пользователя обманным путем завлекают на сайты с информацией и услугами, которыми пользователь не собирался воспользоваться.  
       Обычно поисковые системы оцениваются по качеству и эффективности механизма индексирования и ранжирования веб-страниц. Однако существует огромное количество «спамерских» веб-страниц, не несущих в себе никакой полезной информации. Единственным предназначением таких страниц является обман поисковых систем с целью искусственного накручивания своего рейтинга в базе различных поисковой системы.  
       Существует множество приемов ввести поисковую систему в «заблуждение», например, путем включения списков наиболее популярных ключевых слов, имеющий высокий поисковый рейтинг. Такие списки недобросовестные разработчики информационных ресурсов включают в теги с метаинформацией, которая используется в основном для индексации

19

документа, а пользователю не показывается.    Со временем таких обманных информационных ресурсов становится все больше и больше, а пользователю приходится просматривать множество ненужного хлама, прежде чем он может найти что-нибудь для себя полезного. Поэтому очень важно обеспечить защиту от так называемого поискового спама - страниц, которые с помощью искусственного накручивания рейтинга добиваются приоритетного положения в базах поисковых систем. Теперь этой проблемой приходится специально занимается разработчикам поисковых систем.     По мнению специалистов для борьбы с поисковым спамом можно применять технологии, похожие на антиспамерские решения для электронной почты, например таких, как фильтрация страниц с использованием статистических методов. Существует огромное количество фильтров для электронной почты, при помощи которых определяется принадлежность письма к спаму. Аналогичные поисковые фильтры могут оценивать вероятность принадлежности страницы к поисковому спаму на основе анализа ее содержания. При анализе страниц могут приниматься во внимание такие факторы, как количество доменов, ссылающихся на один и тот же сайт, длинна доменного имени, количество ссылок на одной странице и другие факторы. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Информация о работе Понятие и функции поисковой системы