Автор работы: Пользователь скрыл имя, 09 Ноября 2011 в 15:25, контрольная работа
8 тем
Для чего это нужно, кто-то может спросить? Ответ очевиден – для того, чтобы обеспечить своему Интернет-проекту присутствие в верхних позициях рейтинга той или иной поисковой системы. В свою очередь, нахождение сайта в ТОПе означает высокий трафик (количество посетителей). Чем выше будет последний, тем больший будет доход с веб-ресурса. Собственно в этом и кроется единственная причина массового распространения поискового спама в сети Интернет. Виды поискового спама неразрывно связаны с разнообразием обманных техник поисковой оптимизации. Другими словами, если я говорю о видах поискового спама, то подразумеваю различные способы “черной” раскрутки.
К
популярным видам поискового спама принадлежит
использование “невидимого текста”.
Суть обманной методики состоит в том,
что на веб-странице отображается лишь
та часть текстового контента, которая
предназначена для непосредственного
посетителя сайта. Вторая часть текста,
подготовленная для поисковых систем,
сознательно маскируется. Как правило,
подобный эффект достигается благодаря
минимизации контента, изменению его цвета
и т.п.
Наполнение веб-страницы неадекватным (завышенным) числом ключевиков – еще один пример создания в сети поискового спама. Веб-мастера или оптимизаторы, действующие подобным образом, убеждены, что чрезмерная плотность ключевых слов способна вывести их ресурс в лидеры по тем или иным поисковым запросам. Иной раз такое и в самом деле может получиться. Но как же быть с пользователем, который, попадая на сайт, сталкивается с бессмысленной абракадаброй на его страницах?! Это, похоже, такого рода специалистов волнует меньше всего. К проявлениям поискового спама также можно отнести и ситуацию, когда страницы веб-проекта сознательно наполняются ключевыми словами, абсолютно не соответствующим тематике сайта. Делается это в надежде на то, что какой-нибудь популярный поисковый запрос (запросы) сможет повлиять на поднятие сайта в рейтинге поисковика.
Дублирование страниц сайта также является поисковым спамом. Суть метода предельно проста – заполнив одну страницу добротным уникальным контентом, горе-оптимизатор создает еще несколько идентичных страниц. Какая в этом выгода? Во-первых, экономическая – не нужно тратить деньги на покупку нового текстового материала. Во-вторых, рабочая – нет нужды тратить время и усилия на создание контента, оптимизированного под определенные ключевые слова или фразы.
Разновидностями поискового спама являются также свопинг и клоакинг.
Особое
место в среде поискового спама занимают
дорвеи. Последние представляют собой
своего рода “входные” страницы.
Интернет-каталоги - это большие сайты справочно-информационного характера, на которых пользователи могут найти сайты нужной тематики. Между каталогами и поисковыми системами есть существенные различия (основное - в каталоге пользователь сам ищет нужный ресурс, выбирая рубрики, это не всегда удобно, т.к. часто логика посетителя каталога отличается от логики, применяемой к распределению сайтов по тематике. В поисковой же системе необходимо лишь сделать запрос и вы получите уже отобранные по теме ссылки на тематические ресурсы).
Также поисковый ресурс, поисковая система, поисковик, искалка - программно-аппаратный комплекс, предназначенный для осуществления поиска в Интернете и реагирующий на запрос пользователя, задаваемый текстовой фразой, выдачей набора ссылок на страницы и сайты, соответствующего запросу (по мнению поисковой машины).
Яndex
(http://www.yandex.ru) – самая популярная
в настоящее время
Яндекс - единственная российская поисковая система, индексирующая документы в форматах PDF, DOC, RTF, SWF, PPT и XLS. Актуализация базы осуществляется еженедельно.
Rambler (http://www.rambler.ru) – одна из первых российских ИПС, открыта в 1996 году. В конце 2002 года была произведена коренная модернизация, после которой Rambler вновь вошел в группу лидеров сетевого поиска. В настоящее время объем индекса составляет порядка 150 миллионов документов. Для составления сложных запросов рекомендуется использовать режим «Детальный запрос», который предоставляет широкие возможности для составления поискового предписания с помощью пунктов меню.
АПОРТ (http://www.aport.ru). На сегодняшний день объем ее базы составляет более 20 миллионов документов. Система обладает широким спектром поисковых возможностей. АПОРТ обладает функцией встроенного переводчика, это дает пользователю возможность формулировать запросы, как на русском, так и на английском языках. Кроме того, АПОРТ имеет специальные режимы для поиска иллюстраций и аудио файлов.
Поисковая система компании Mail.ru начала работать в 2007 году. Объем индексного файла весной 2009 г. составлял более 1.5 миллиарда страниц, расположенных на русскоязычных серверах. Помимо разыскания текстов, системой осуществляется поиск иллюстраций и видеофрагментов, размещенных на специализированных "самонаполняемых" российских серверах: Фото@Mail.Ru, Flamber.Ru, 35Photo.ru, PhotoForum.ru, Видео@Mail.Ru, RuTube, Loadup, Rambler Vision и им подобных. Gogo.ru позволяет ограничивать область поиска сайтами коммерческой направленности, информационными сайтами, а также форумами и блогами. Форма "Расширенного поиска" также дает возможность ограничить разыскания определенными типами файлов (PDF, DOC, XLS, PPT), местом положения искомых слов в документе или определенным доменом
.
Наиболее
популярными зарубежными
Google (http://www.google.com) — одна из самых полных зарубежных ИПС. Объем ее базы составляет более 560 миллионов документов. Отличительной особенностью ИПС Google является технология определения степени релевантности документа путем анализа ссылок других источников на данный ресурс. Чем больше ссылок на какую-либо страницу имеется на других страницах, тем выше ее рейтинг в ИПС Google.
AltaVista
(http://www.altavista.com) – одна из старейших
поисковых систем занимает
3. Какими преимуществами обладает поисковая машина перед тематическим каталогом.
Порталы — это целый набор серверов, которые обеспечивают работу единой системы какого-либо Интернет-сервиса. В данном случае нас интересует служба поиска сайтов по заданным словам. Это значит, что поисковая машина должна знать, где и на каком сайте встречаются те или иные слова.
На
каждом поисковом сайте есть раздел
помощи, зайдя в который можно
почитать об особенностях синтаксиса
составления запросов. При помощи специальных
символов можно составлять достаточно
сложные запросы, в которых указывать
не только нужные слова, их формы, но и
слова, которые не должны присутствовать
на странице.
Булева
модель, булевая, двоичная (boolean) — модель
поиска, опирающаяся на операции пересечения,
объединения и вычитания
Дубликаты (duplicates) — разные документы с идентичным, с точки зрения пользователя, содержанием; приблизительные дубликаты, почти дубликаты (near duplicates), в отличие от точных дубликатов, содержат незначительные отличия.
Единица поиска — текст, в пределах которого проверяется логическая комбинация.
Конкорданс — словарь, в котором в алфавитном порядке перечислены слова, употребляемые писателем, а также указаны их адрес и частота употребления.
Индекс цитирования (citation index) — число упоминаний (цитирований) научной статьи, в традиционной библиографии рассчитывается за промежуток времени, например за год.
Индексирование, индексация (indexing) — процесс составления или приписывания индекса (указателя) — служебной структуры данных, необходимой для последующего поиска.
Поиск похожих документов (similar document search) — задача информационного поиска, в которой в качестве запроса выступает сам документ и необходимо найти документы, максимально напоминающие данный.
Поисковая
система, информационно-поисковая
Полнота, охват (recall) — доля релевантного материала, заключенного в ответе поисковой системы, по отношению ко всему релевантному материалу в коллекции.
Релевантность (relevance, relevancy) — соответствие документа запросу.
Словоизменение (inflection) — образование определенной грамматической формы слова, обычно обязательной в определенном контексте.
Стоп-слова (stop-words) — союзы, предлоги и другие частотные слова, которые поисковая система исключила из процесса индексирования и поиска для повышения своей производительности и/или точности поиска.
Точность (precision) — доля релевантного материала в ответе поисковой системы.
Хиты — количество заходов на сайт за определенный промежуток времени.
Хосты — количество уникальных посетителей в единицу времени.
Ключевые слова, по изначальному замыслу, должны отображать наиболее существенную информацию. Понятие “существенности” информации при выборе КС является одним из основных и наиболее сложных понятий информатики. Многообразие возможных способов отбора информации по различным критериям существенности в силу субъективности принятия соответствующего решения обусловливает вариативность представления смыслового содержания текста при его индексировании.
Целесообразность включения КС в тезаурус обычно оценивается по нескольким факторам, которые тесно взаимосвязаны между собой:
- по важности данного КС для описания содержания соответствующего документа с точки зрения информационного поиска (важность определяется, например, по роли КС в тексте);
- по связям их с КС, отобранными ранее (выбор КС, обозначающих более широкие, узкие или ассоциативные понятия);
-
по их точности и приемлемости
с точки зрения
- по решению специалистов в данной области знания.
В качестве дополнительных источников лексики для ИПТ используются: тезаурусы по родственной тематике, энциклопедические, толковые и терминологические словари и справочники, учебники и руководства, монографии, терминологические и другие стандарты, таблицы классификаций; рубрикаторы и т.п.
Поисковых систем существует довольно много, каждая из них наделена своими целями и задачами, часто – коммерческими. Однако, глобальных, мирового значения поисковых систем, пользующихся большим доверием клиентов, не так уж много. По исследованиям текущего года доминирующую позицию в мире занимает система Google, получившая процентное выражение обращений к ней – около 85%. Следующая в этой категории идет более “древняя” Yahoo!, на долю которой приходится менее 7% запросов. Среди русскоязычных поисковых систем безусловным лидером является Яндекс.