Автор работы: Пользователь скрыл имя, 28 Декабря 2010 в 21:49, курсовая работа
Информационный поиск рассматривает поиск информации в документах, поиск самих документов, извлечению метаданных из документов, поиску текста, изображений, видео и звука в локальных реляционных базах данных, в гипертекстовых базах данных таких, как Интернет и локальные интранет-системы.
Введение 4
1 Поисковые системы 6
1.1 История поисковых систем 6
1.2 Глубокая паутина 7
2 Технология поиска изображений в Интернете 9
2.1 Визуальные примитивы и механизм поиска по образцу 9
2.2 Цветовые гистограммы 11
2.3 Объекты изображения 12
2.4 CBIR-системы 14
2.5 CBIR-системы на практике 16
2.6 Российские разработки по поиску изображений 19
3 Метапоисковые системы 21
3.1 Что такое метапоисковая система? 21
3.2 Принципы работы метапоисковых систем 21
Заключение 26
Библиографический список 27
ОГЛАВЛЕНИЕ
Информационный
поиск — большая
Информационный поиск рассматривает поиск информации в документах, поиск самих документов, извлечению метаданных из документов, поиску текста, изображений, видео и звука в локальных реляционных базах данных, в гипертекстовых базах данных таких, как Интернет и локальные интранет-системы.
Существует некоторая путаница, связанная с понятиями поиска данных, поиска документов, информационного поиска и текстового поиска. Тем не менее, каждое из этих направлений исследования обладает собственными методиками, практическими наработками и литературой.
В настоящее время информационный поиск — это бурно развивающаяся область науки, популярность которой обусловлено экспоненциальным ростом объемов информации, в частности в сети Интернет. Информационному поиску посвящена обширная литература и множество конференций.
Говоря о системах информационного поиска, употребляют термины запрос и объект запроса.
Запрос — это формализованный способ выражения информационных потребностей пользователем системы. Для выражения информационной потребности используется язык поисковых запросов, синтаксис варьируется от системы к системе. Кроме специального языка запросов, современные поисковые системы позволяют вводить запрос на естественном языке.
Объект запроса — это информационная сущность, которая хранится в базе автоматизированной системы поиска. Несмотря на то, что наиболее распространенным объектом запроса является текстовый документ, не существует никаких принципиальных ограничений. В частности, возможен поиск изображений, музыки и другой мультимедиа информации. Процесс занесения объектов поиска в информационной поисковой системе называется индексацией. Далеко не всегда информационная поисковая система хранит точную копию объекта, нередко вместо неё хранится суррогат.
Центральная задача информационного поиска — помочь пользователю удовлетворить его информационную потребность. Так как описать информационные потребности пользователя технически непросто, они формулируются как некоторый запрос, представляющий из себя набор ключевых слов, характеризующий то, что ищет пользователь.
Поиск
информации представляет собой процесс
выявления в некотором
Поиск включает последовательность операций, направленных на сбор, обработку и предоставление необходимой информации заинтересованным лицам.
Можно выделить 4 этапа поиска:
1)
определение информационной
2)
определение совокупности
3)
извлечение информации из
4) ознакомление с результатами поиска и их оценка.
Полнотекстовый поиск — поиск по всему содержимому документа. Пример полнотекстового поиска — любой Интернет-поисковик. Как правило, полнотекстовый поиск для ускорения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы.
Поиск по метаданным — это поиск по нескольким атрибутам документа, поддерживаемым системой — название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам — диалог поиска в файловой системе.
Поисковая система это:
1) Онлайн сервис, предоставляющий возможность поиска информации на сайтах в Интернете, а также (иногда) в новостных группах и ftp-серверах.
2) (англ. search engine, синонимы: поисковой сервер, поисковая система) - инструмент для поиска информации в сети Интернет. Работа поисковика состоит из двух этапов: индексации и поиска в индексе, с выдачей результатов поиска пользователю.
3) система, предназначенная для поиска и доставки информации. Сделана с целью каталогизации данных. Обычно использует индексацию страниц, чтобы в дальнейшем было легко находить обработанную информацию.
4)
специальный сайт, на котором
по заданному запросу можно
получить информацию о
Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэйем (англ. Matthew Gray) из Массачусетского технологического института в 1993. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой (т. н. «crawler-based» — то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице, с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.
Вскоре
появилось множество других конкурирующих
поисковых машин, таких как «Excite»,
«Infoseek», «Inktomi», «Northern Light» и «AltaVista».
В некотором смысле они конкурировали
с популярными Интернет-
Помимо поисковых машин для Всемирной паутины существовали и поисковики для других протоколов, такие как Archie для поиска по анонимным FTP-серверам и «Veronica» для поиска в Gopher.
Глубокая паутина (иногда упоминается как невидимая паутина и скрытая паутина) — часть веб-страниц Всемирной паутины, не индексированная поисковыми системами. Термины произошли от англ. deep web, invisible web, hidden web. Не следует смешивать понятие глубокая паутина с понятием тёмная паутина, под которым имеются в виду сетевые сегменты, вообще не подключённые к сети Интернет.
В
глубокой паутине находятся веб-
В 2000 году поисковая компания «BrightPlanet» провела исследование, которое показало, что в глубокой паутине находится в 500 раз больше документов, чем доступно через поисковые системы. Конечно, к этим цифрам следует относиться с осторожностью. Например, существует проблема с различением разных представлений одного и того же материала в базах данных. Но тем не менее, цифры поражают воображение, и неэффективность поисковых систем просто шокирует.
В 2005 году компания «Yahoo!» сделала серьёзный шаг к решению этой проблемы. Компания выпустила поисковый движок «Yahoo! Subscriptions», который производит поиск по сайтам (пока немногочисленным), доступ к которым открыт только зарегистрированным участникам этих сайтов.
Это, однако, полностью не решило имеющейся проблемы. Эксперты поисковых систем по-прежнему пытаются найти технические возможности для индексации содержимого баз данных и доступа к закрытым веб-сайтам.
До недавнего времени традиционным считался поиск визуальной информации, опирающийся на индексирование текстовых описаний, ассоциированных с изображением или фильмом. Однако поиск по названию, авторам, теме, словам описания содержания и по другой текстовой информации, ассоциированной с изображениями коллекции, представляется недостаточным. Неоднозначность соответствия между визуальным содержанием и текстовым описанием снижает показатели точности и полноты поиска.
Для
организации электронных
Визуальные
примитивы - это характеристики изображения,
которые автоматически
Различными
группами исследователей уже накоплен
определенный опыт реализации алгоритмов,
позволяющих автоматически
Исследования в этой области направлены на дальнейшее развитие методов вычисления и сравнения визуальных примитивов. Реализован метод количественной оценки близости статичных изображений по их цветовым гистограммам. Решена задача пространственного сегментирования изображения. Разработан и реализован алгоритм, осуществляющий вычисление параметров форм для выделенных объектов картинки и сравнение форм по их параметрам. Проводятся работы и имеются результаты, которые позволят выполнять локальное индексирование, отражающее распределение на изображении цветовых множеств.
Метод цветовых гистограмм – наиболее популярный из методов, использующих цветовые характеристики для индексирования изображений. Возможно также использование таких показателей, как средний или основной цвета, а также множества цветов; эти характеристики имеет смысл использовать для локального индексирования областей изображения.
Цветовое RGB-пространство рассматривается как трехмерный куб, каждая ось которого соответствует одному из трех основных цветов (красному, зеленому или синему), деления на осях пронумерованы от 0 до 255 (большее значение соответствует большей интенсивности цвета). При таком рассмотрении любой цвет RGB-изображения может быть представлен точкой куба. Для построения цветовой гистограммы каждая сторона делится на n (n=4) равных интервалов, соответственно RGB-куб делится на N (N=64) прямоугольных параллелепипедов. Vi – множество цветов, все компоненты которых попадают в определенные интервалы. Гистограмма изображения отражает распределение точек RGB-пространства, соответствующих цветам пикселей изображения, по параллелепипедам.
Выбор
размерности гистограммы
Информация о работе Технология поиска изображений в Интернете. Метапоисковые системы