Автоматизированные информационно поисковые системы- виды, назначения, преимущества

Автор работы: Пользователь скрыл имя, 29 Января 2013 в 15:57, курсовая работа

Описание

Актуальность. Современный этап развития цивилизации характеризуется переходом наиболее развитой части человечества от индустриального общества к информационному. Одним из наиболее ярких явлений этого процесса является возникновение и развития глобальной информационной компьютерной сети.
Проблема поиска и сбора информации - одна из важнейших проблем информационно поисковых систем.

Содержание

Введение 3
Глава 1 информационно поисковые системы виды, назначения.
1.1 Понятие информационно поисковых систем 6
1.2 Исторические предпосылки развития поисковых систем 7
1.3 Особенности поисковых систем 9
1.4 Структура работы поисковых систем 10
1.5 Виды поисковых систем в России 13
1.6 Зарубежные поисковые системы 19
Глава 2 Сравнительный анализ поисковых систем
2.1Сравнение по качеству поиска 26
2.2 Преимущества и недостатки поисковых систем 26
2.3 Популярные поисковые системы 29
Заключение 31

Работа состоит из  1 файл

курсовая Смыслова Александра Игоревича.docx

— 1.34 Мб (Скачать документ)

После копирования разысканных  Web-ресурсов на сервер поисковой системы начинается второй этап работы — индексация. В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось, то или иное слово. Считайте, что индексированная база данных — это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей. Современные системы способны выдавать ответы за доли секунды, но если не подготовить индексы заранее, то обработка одного запроса будет продолжаться часами.

На третьем этапе происходит обработка запроса клиента и  выдача ему результатов поиска в  виде списка гиперссылок. Допустим, клиент хочет узнать, где в Интернете  имеются Web-страницы, на которых упоминается известный голландский механик, оптик и математик Христиан Гюйгенс. Он вводит слово Гюйгенс в поле набора ключевых слов и нажимает кнопку  «Найти» (Search). По своим базам указателей поисковая система в доли секунды разыскивает подходящие Web-ресурсы и формирует страницу результатов поиска, на которой рекомендации представлены в виде гиперссылок. Далее клиент может пользоваться этими ссылками для перехода к интересующим его ресурсам.

Все это выглядит достаточно просто, но на самом деле здесь есть проблемы. Основная проблема современного Интернета связана с изобилием  Web-страниц. Достаточно ввести в поле поиска такое простое слово, как, например, футбол, и российская поисковая система выдаст несколько тысяч ссылок, сгруппировав их по 10-20 штук на отображаемой странице.

Впрочем, для рядового потребителя  совершенно все равно, выдадут ему  тысячу результатов поиска или миллион. Как правило, клиенты просматривают не более 50 ссылок, стоящих первыми, и что там делается дальше, мало кого беспокоит. Однако клиентов очень и очень беспокоит качество самых первых ссылок. Клиенты не любят, когда в первом десятке встречаются ссылки, утратившие актуальность, их раздражает, когда подряд идут ссылки на соседние файлы одного и того же сервера. Самый же плохой вариант — когда подряд идут несколько ссылок, ведущих к одному и тому же ресурсу, но находящемуся на разных серверах.

Клиент вправе ожидать, что  самыми первыми будут стоять наиболее полезные ссылки. Вот здесь и возникает проблема. Человек легко отличает полезный ресурс от бесполезного, но как объяснить это программе? Поэтому лучшие поисковые системы проявляют чудеса искусственного интеллекта в попытке отсортировать найденные ссылки по качественности их ресурсов. И делать это они должны быстро — клиент не любит ждать.

Все поисковые системы  черпают исходную информацию из одного и того же Web-пространства, поэтому исходные базы данных у них могут быть относительно похожи. И лишь на третьем этапе, при выдаче результатов поиска, каждая поисковая система начинает проявлять свои лучшие (или худшие) индивидуальные черты. Операция сортировки полученных результатов называется ранжированием. Каждой найденной Web-странице система присваивает какой-то рейтинг, который должен отражать качество материала. Но качество — понятие субъективное, а программе нужны объективные критерии, которые можно выразить числами, пригодными для сравнения.

Высокие рейтинги получают Web-страницы, у которых ключевое слово, использованное в, запросе, входит в заголовок. Уровень рейтинга повышается, если это слово встречается на Web-странице несколько раз, но не слишком часто. Благоприятно влияет на рейтинг вхождение нужного слова в первые 5-6 абзацев текста — они считаются самыми важными при индексации. По этой причине опытные Web-мастера избегают давать в начале своих страниц таблицы. Для поисковой системы каждая ячейка таблицы выглядит, как абзац, и потому содержательный основной текст как бы далеко отодвигается назад (хотя на экране это и не заметно) и перестает играть решающую роль для поисковой системы.

Очень хорошо, если ключевые слова, использованные в запросе, входят в альтернативный текст, сопровождающий иллюстрации. Для поисковой системы это верный признак того, что данная страница точно соответствует запросу. Еще одним признаком качества Web-страницы является тот факт, что на нее есть ссылки с каких-то других Web-страниц. Чем их больше, тем лучше. Значит, эта Web-страница популярна и обладает высоким показателем цитирования. Самые совершенные поисковые системы следят за уровнем цитирования зарегистрированных ими Web-страниц и учитывают его при ранжировании.

1.5 Виды поисковых систем в России

Это «Рамблер» (www.rambler.ru), «Яндекс» (www.yandex.ru) и «Мэйл» (www.mail.ru) и др.

Rambler

История развития и становления  поисковой системы «Рамблер»  берет начало в подмосковном городе Пущино. В 1991 году там появилась группа единомышленников вдохновленных идей только зарождающегося интернета. Дмитрий  Крюков, Сергей Лысаков, Виктор Воронков, Владимир Самойлов, Юрий Ершов - это  имена создателей Поисковой системы, которая в дальнейшем получит  название Rambler. Один из основателей  Сергей Лысаков при помощи своей  компании "Стек" занялся локальными сетями и подключением к Интернету. Они сами создали внутри города сеть и подключили ее к Москве, а уже  через Москву к мировому Интернету, присоединившись так же к сети Курчатовского института атомной  энергии. И уже на следующий 1992 год  компания запустила свои собственные ftp и mail серверы, а двумя годами позже  в 1994, свой первый www сервер. Самый продуктивный и "ключевой" год для российского  Рунета 1996 год ознаменовался для  основателей тем, что было принято  решение по разработке первой русской  поисковой системы для Интернета. Придумав название Rambler, к осени 1996 года был создан окончательный вариант поисковика, а 26 сентября зарегистрирован домен с названием rambler.ru. В начале 1997 года стартовал Ramblers Top100-рейтинг классификатор, который в некоторой степени явился переломным моментом в истории Рунета. С возникновением такого универсального рейтинга и счетчика, каждый вебмастер старался занять как можно более высокую позицию в рейтинге, что в свою очередь позволило Rambler-у окрепнуть и укорениться в сознании пользователей и вебмастеров. В середине 2003 года компания запустила обновленную версию Поисковой системы, которая отличалась от предыдущей по нескольким параметрам в частности поисковый индекс стал обновляться по нескольку раз в день, появилась возможность находить самые свежие документы в том числе и последние новости. Появился механизм ассоциаций, позволивший точнее формулировать свой запрос пользователям. Изменения так же коснулись и почтового сервиса и защиты данных. 2004 год ознаменовался тем, что был запущен проект Rambler Vision -это интерактивный мультимедийный портал в Рунете. В этом же году Rambler стал обладателем ряда наград, премий и дипломов. Следующий 2005 год стал для Rambler-а стал удачным в плане сотрудничества с новыми компаниями. Появилась Rambler ICQ. В 2006 году компания Rambler получает титул "супербренда" и одной из самых узнаваемых торговых марок России. В этом же году празднуется юбилей десятилетия компании Rambler.2007 год для компании стал годом совершенствования и ростом серьезных партнерских отношений с другими компаниями, благодаря чему были существенно развиты сервисы и материалы портала. В этом же году компания Rambler становится основным акционером сервиса контекстной рекламы "Бегун".К 2008 году компания Rambler продолжает четко следовать выбранному направлению, развивая при этом выбранные приоритетные направления, которые обозначены как: "Поиск, коммуникации, медиа и развлечения".


Yandex

Одна из самых крупнейших на сегодняшний день поисковых систем интернета Яндекс берет начало еще  в 1990 года, когда была разработана  программа поискового обеспечения  в компании "Аркадия". За  более  чем два года работы были созданы  две Поисковые системы "Международная  классификация изобретений" и "Классификатор  товаров и услуг". Каждая из систем работала локально под DOS, что позволяло  производить поиск из заданного  словаря со стандартными логическими  операторами. 1993 г. Компания "Аркадия" преобразовалась в подразделение  компании CompTek. В период с 93-94 годов  технологии программного обеспечения  были значительно улучшены благодаря  сотрудничеству с лабораторией Ю.Д. Апресяна (Институт проблем передачи информации РАН). Словарь, предоставляющий  базу для поиска с учетом морфологии языка стал занимать всего 300 Кб, и  мог полностью загружаться в  оперативную память, что в свою очередь существенно ускоряло его  работу. А это благоприятно сказывалось  на пользователях, которые получили возможность задавать любые формы слов. 1996 г. Разработан алгоритм "построения гипотез". Это позволило морфологическому разбору дистанцироваться от словаря, что дало возможность производить поиск по наиболее похожим словам и словосочетаниям и строить свою модель словоизменения. В том же году стало достаточно понятно, что компания CompTek способна создать свою глобальную Поисковую систему Интернета. А так как Интернет только зарождался, то объем информации по Рунету составлял всего несколько Гигабайт. Так осенью 1997 г. появилась компания- Поисковая система Yandex.ru. Представление Яндекса было на выставке Softool. Что же отличало эту поисковую систему от других? Прежде всего, это использование морфологии русского языка в ядре поисковой системы, а также проверка документа или страницы на уникальность. В данное время Поисковая система Яндекс это одна из крупнейших поисковых систем Рунета и можно сказать это лидер в области Поисковых запросов и предоставляемых сервисов. Сейчас поиск производится на более чем 4 млрд. страницах. Достаточно высокая релевантность поисковой выдачи, а так же расширенные возможности поиска информации дают возможность на дальнейшее развитие и процветание этой поисковой системы.

Mail

Mail.ru представляет собой  прекрасно организованный и спланированный  портал, одним из главных направлений  которого является поисковая  система. В этой связи отделить  поиск от всего портала было  бы не совсем корректным, и  вести дальнейшее повествование  необходимо обо всем портале  в целом. Начало данная компания  берет в 1998 году, когда уже присутствовали  и развивались другие поисковые  сервисы, Питерские программисты  работающие в компании "Data Art" произвели на свет новое программное  обеспечение для почтового сервера,  которое предполагалось продавать  иностранным компаниям. Для того  что бы проверить это ПО  в реальных условиях его на  короткое время выставили для  широкого пользования для пользователей  рунета, однако этот сервис пришелся "по душе" многим пользователям  и сервис стал стремительно  набирать обороты. В том же 1998 году из отделения "Data Art Enterprises Inc." организовалась отдельная  и самостоятельная компания "Port.ru". Основным предназначением этой  компании была реализация Интернет  портала матричного типа на  базе многочисленных сервисов, тематических  разделов и технологических изысканий.  В 1999 году в Рунете появилась  компания "Net Bridge" для демонстрации  возможностей создания Интернет  проектов по иностранным аналогам  зарекомендовавших себя с лучшей  стороны. Спустя два года в  2001 году обе эти компании "Net Bridge" и "Port.ru" объявляют о  слиянии под названием "Port.ru", однако для привлечения интереса  аудитории изменяют название  на "Mail.ru". На протяжении последующих  нескольких лет компания Mail.ru удерживает  лидерство среди пользователей  Рунета в области предоставления  почтовых сервисов и к 2012 году регистрируется 100 млн. почтовых ящиков. На протяжении этого периода времени компания "Mail.ru" активно борется со всякого рода негативных проявления присущих почтовым сервисам типа "спам" и вредоносного ПО. В этой связи ведется активное сотрудничество с такими компания как "Dr WEB" и "Антивирус Касперского". В том же году "Mail.ru" переходит на стандарт SPF по инициативе мировых почтовых сервисов. В 2003 году руководством компании "Mail.ru" было принято решение о создании и развитии поискового сервиса в рамках своего портала. В этой связи была получена лицензия на использование технологии "Google WebSearch". Несколько позже был открыт дополнительный сервис по поиску изображений, а в начале 2004 года Поисковая система была интегрирована с каталогом "List.mail.ru". С развитием этого направления в Поисковую систему Mail.ru был внедрен поиск с учетом морфологии русского языка и появилась опция ведения истории поисковых запросов. В первой половине 2005 года представлена первая версия поисковой панели для IE "Спутник@mail.ru". Со стремительным развитием поисковых запросов компания увеличивает объем продаж от контекстной рекламы. В том же году открываются и вводятся в эксплуатацию два новых сервиса получившие популярность среди пользователей Интернета это "Фото Mail.ru" и "Мир волшебников". Так же в 2005 году почтовый сервис Mail.ru обзавелся двумя совершенно новыми сервисами: "Доступ по протоколу IMAP" и голосовой почтой с возможностью прослушивать содержимое почтового ящика посредством телефонной линии. Позже к Интернет портала Mail.ru добавились сервисы "Хостинг" и "Энциклопедии". В данное время компания Интернет портала Mail.ru постоянно развивает направления по предоставлении различных интересных сервисов для пользователей Интернета, что позволяет находиться этому Интернет порталу находится на вершинах пользовательского сознания. Качество и разнообразие проектов это составляющие успеха компании Mail.ru.


1.6 Зарубежные поисковые системы


Google

Одна из самых крупнейших Поисковых систем Интернета Google была основана двумя аспирантами Стенфордского  университета Лари Пейджем (Larry Page) и  Сергеем Брином (Sergey Brin) основной работой  которых была поиск необходимой  информации в массивах данных. В 1996 г. они начали сотрудничество с поисковым  сервером "BackRub" принцип работы которой основывался на определении  количества обратных ссылок (back link). То есть формула высчитывала количество обратных ссылок на сайт с мыслью о  том, что на интересный сайт ссылок будет больше, чем на скучный и  не привлекательный.В сентябре 1998г.  Собрав необходимое количество средств  Брин и Пейдж регистрируют компанию Google в качестве поисковой системы  как юридическое лицо. В свое предварительной  версии (бета версия) поисковик Google обрабатывал  около 10 000 запросов ежедневно, демонстрирую при этом достаточно высокую релевантность  поисковым запросам. Это позволило  Поисковой системе Google в дальнейшем развиваться с очень большой  скоростью. К февралю 1999 года объем  ежедневных запросов вырастает до 500 000 в день, что привлекает внимание одной из крупнейших компаний AOLNetscape выбрав Google свои поисковым сервером после чего постоянно растущий объем запросов вырастает до 3 млн. в день а к июню того же года Google объявляет о сотрудничестве с Yahoo что в результате приводит к цифре 18 млн. запросов в день. И наконец к концу 2000 года эту цифра возрастает до 100 млн. запросов. К компании Google можно применить три слагаемых успеха, которые помогли и помогают держать топовые позиции:

  1. - Очень высокая релевантность выдачи к поисковому запросу, это достигается путем того что в отличии от многих поисковых систем Google не использует механизмы мета поиска. Это достигается анализом каждой страницы с учетом расположения на ней элементов.
  2. Достаточно удобный и дружественный интерфейс настроенный для удобства пользователей только на поисковую тематику не навязчиво предлагающий так же и другие сервисы, которых очень много.
  3. Некоммерческая направленность проекта.

С самого начала создания этой поисковой системы  интернета была цель создания бесконечно огромной базы данных для поиска. То есть можно сказать что в целом  мечта изначально была утопической. С августа 2004 года компания Google стала  публичной выйдя на фондовый рынок  со своими акциями (IPO). Продав около 20 млн. акций на общую сумму 1,67 млрд. долларов. Однако было продано далеко не все  количество акций. Оставив себе большую  честь компания Google может распоряжаться  ими по своему усмотрению.

Для более  удобной работы с Поисковой системой, Google постоянно создает все новые  сервисы и плагины. Вот некоторые  из них:

  1. Google toolbar для IE. Это навигационная панель интегрируемая в Интернет браузер Internet explorer, который упрощает работу пользователя.
  2. Google maps. Сервис предоставляющий спутниковые снимки земли, а так же луны. Достаточно хорошее качество изображения.
  3. Google talk. Интернет пейджер и Интернет телефон. И еще очень много различных сервисов.

По аналогии с другими компаниями развитие не может происходить без каких  либо скандалов и трений. Но такова природа каждого развития, и компания Google не исключение из общего числа. В  начале 2004 года адвокаты компании Google отправили письмо с требованием  закрыть пародийный поиск "для  взрослых" Booble. Летом того же года бывший операционный директор Google Брайан Рид был отстранен от должности  в связи с возрастными ограничениями, так как политика компании заключается  в молодости и энергичности. Потеряв  работу бывший операционный директор подал на компанию в суд с требованием  возместить утраченный доход и накопления в виде опционов. В том же году развивающийся сервис Gmail столкнулся с претензией на собственное имя, так как этот бренд уже использовался  одной английской фирмой на протяжении более 2 лет. И в том же году родственники американского математика Эдварда  Казнера предоставили иск на название googol (число означающее единицу со ста нулями), который он придумал (в основе названия Google обозначается именно этот термин). В данное время  Поисковая система Google ежедневно регистрирует до 100 млн. поисковых запросов ежедневно и индексирует более 8 млрд. Интернет страниц. Информация выдается на 101 языке мира..


Yahoo

Yahoo! (произносится как я́ху!) -американская компания, владеющая второй по популярности (5.88 %) в мире поисковой системой и предоставляющая ряд сервисов, объединённых интернет-порталом Yahoo! Directory; портал включает в себя популярный сервис электронной почты Yahoo! Mail, один из старейших и наиболее популярных в Интернете. В 2004 году была запущена новая версия почтового интерфейса, основанная на AJAX.

Компания Yahoo! была основана студентами магистратуры Стэнфордского университета Дэвидом Файло (англ. David Filo) и Джерри Янгом (англ. Jerry Yang) в январе 1994 года; стала корпорацией 2 марта 1995 года. Главный офис компании находится в городеСаннивейл (англ. Sunnyvale), штат Калифорния, США.

Согласно статистике Alexa Internet, в феврале-апреле 2012г. Yahoo! — четвёртый по посещаемости веб-сайт в сети Интернет, и примерно 28 % посещений состоят из просмотра только одной страницы. Целями же Яху стали книги из библиотеки Калифорнийского университета, от издательства О`Рейли, прославившегося своими учебниками, и Национального Архива Великобритании. Войдут в «стартовый пакет» и книги из фонда Европейского Архива. Избежать затяжных судов компания намерена путем предложения потребителям получить разрешение на просмотр данных текстов от правообладателей перед переходом на «полновесный» текст. При этом поисковая система Yahoo рассчитывает поделиться с другими поисковыми сервисами возможностью проводить поиск в этой «библиотеке», в то время как Google возможности своей несостоявшейся библиотеки делить ни с кем не планировала.

Информация о работе Автоматизированные информационно поисковые системы- виды, назначения, преимущества