Технология поиска изображений в Интернете. Метапоисковые системы

Автор работы: Пользователь скрыл имя, 28 Декабря 2010 в 21:49, курсовая работа

Описание

Информационный поиск рассматривает поиск информации в документах, поиск самих документов, извлечению метаданных из документов, поиску текста, изображений, видео и звука в локальных реляционных базах данных, в гипертекстовых базах данных таких, как Интернет и локальные интранет-системы.

Содержание

Введение 4
1 Поисковые системы 6
1.1 История поисковых систем 6
1.2 Глубокая паутина 7
2 Технология поиска изображений в Интернете 9
2.1 Визуальные примитивы и механизм поиска по образцу 9
2.2 Цветовые гистограммы 11
2.3 Объекты изображения 12
2.4 CBIR-системы 14
2.5 CBIR-системы на практике 16
2.6 Российские разработки по поиску изображений 19
3 Метапоисковые системы 21
3.1 Что такое метапоисковая система? 21
3.2 Принципы работы метапоисковых систем 21
Заключение 26
Библиографический список 27

Работа состоит из  1 файл

Информационные технологии (курсовик).doc

— 194.50 Кб (Скачать документ)

ОГЛАВЛЕНИЕ 

 

    Введение

     Информационный  поиск — большая междисциплинарная  область науки, стоящая на пересечении  когнитивной психологии, информатики, информационного дизайна, лингвистики, семиотики, и библиотечного дела.

     Информационный  поиск рассматривает поиск информации в документах, поиск самих документов, извлечению метаданных из документов, поиску текста, изображений, видео и звука в локальных реляционных базах данных, в гипертекстовых базах данных таких, как Интернет и локальные интранет-системы.

     Существует  некоторая путаница, связанная с  понятиями поиска данных, поиска документов, информационного поиска и текстового поиска. Тем не менее, каждое из этих направлений исследования обладает собственными методиками, практическими  наработками и литературой.

     В настоящее время информационный поиск — это бурно развивающаяся область науки, популярность которой обусловлено экспоненциальным ростом объемов информации, в частности в сети Интернет. Информационному поиску посвящена обширная литература и множество конференций.

     Говоря  о системах информационного поиска, употребляют термины запрос и объект запроса.

     Запрос  — это формализованный способ выражения информационных потребностей пользователем системы. Для выражения  информационной потребности используется язык поисковых запросов, синтаксис варьируется от системы к системе. Кроме специального языка запросов, современные поисковые системы позволяют вводить запрос на естественном языке.

     Объект  запроса — это информационная сущность, которая хранится в базе автоматизированной системы поиска. Несмотря на то, что наиболее распространенным объектом запроса является текстовый документ, не существует никаких принципиальных ограничений. В частности, возможен поиск изображений, музыки и другой мультимедиа информации. Процесс занесения объектов поиска в информационной поисковой системе называется индексацией. Далеко не всегда информационная поисковая система хранит точную копию объекта, нередко вместо неё хранится суррогат.

     Центральная задача информационного поиска — помочь пользователю удовлетворить его информационную потребность. Так как описать информационные потребности пользователя технически непросто, они формулируются как некоторый запрос, представляющий из себя набор ключевых слов, характеризующий то, что ищет пользователь.

     Поиск информации представляет собой процесс  выявления в некотором множестве  страниц (документов), которые посвящены  указанной теме, удовлетворяют заранее  определенному условию поиска (запросу) или содержат необходимые (подходящие информационной потребности) факты, сведения, данные.

     Поиск включает последовательность операций, направленных на сбор, обработку и  предоставление необходимой информации заинтересованным лицам.

     Можно выделить 4 этапа поиска:

     1) определение информационной потребности  и формулировка информационного запроса;

     2) определение совокупности возможных  источников;

     3) извлечение информации из выявленных  информационных массивов;

     4) ознакомление с результатами  поиска и их оценка.

     Полнотекстовый  поиск — поиск по всему содержимому  документа. Пример полнотекстового поиска — любой Интернет-поисковик. Как правило, полнотекстовый поиск для ускорения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы.

     Поиск по метаданным — это поиск по нескольким атрибутам документа, поддерживаемым системой — название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам — диалог поиска в файловой системе.

  1. Поисковые системы
              1. История поисковых систем

     Поисковая система это:

     1) Онлайн сервис, предоставляющий  возможность поиска информации  на сайтах в Интернете, а  также (иногда) в новостных группах  и ftp-серверах.

     2) (англ. search engine, синонимы: поисковой  сервер, поисковая система) - инструмент для поиска информации в сети Интернет. Работа поисковика состоит из двух этапов: индексации и поиска в индексе, с выдачей результатов поиска пользователю.

     3) система, предназначенная для  поиска и доставки информации. Сделана с целью каталогизации данных. Обычно использует индексацию страниц, чтобы в дальнейшем было легко находить обработанную информацию.

     4) специальный сайт, на котором  по заданному запросу можно  получить информацию о ресурсах  в Интернете, соответствующих  данному запросу.

     Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэйем (англ. Matthew Gray) из Массачусетского технологического института в 1993. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой (т. н. «crawler-based» — то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице, с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.

     Вскоре  появилось множество других конкурирующих  поисковых машин, таких как «Excite», «Infoseek», «Inktomi», «Northern Light» и «AltaVista». В некотором смысле они конкурировали  с популярными Интернет-каталогами, такими, как «Yahoo!». Позже каталоги соединились или добавили к себе поисковые машины, чтобы увеличить функциональность. В 1996 году русскоязычным пользователям Интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины Rambler и Aport. 23 сентября 1997 года была открыта поисковая машина Яндекс.

     Помимо  поисковых машин для Всемирной  паутины существовали и поисковики для других протоколов, такие как Archie для поиска по анонимным FTP-серверам и «Veronica» для поиска в Gopher.

              1. Глубокая  паутина

     Глубокая  паутина (иногда упоминается как  невидимая паутина и скрытая  паутина) — часть веб-страниц  Всемирной паутины, не индексированная  поисковыми системами. Термины произошли  от англ. deep web, invisible web, hidden web. Не следует смешивать понятие глубокая паутина с понятием тёмная паутина, под которым имеются в виду сетевые сегменты, вообще не подключённые к сети Интернет.

     В глубокой паутине находятся веб-страницы, которые никак не связаны с  другими — например, страницы, динамически создаваемые по запросам к базам данных. В глубокой паутине также находятся сайты, доступ к которым открыт только для зарегистрированных участников. Поисковые системы используют специальные роботы (англ. web crawler), которые переходят по гиперссылкам и индексируют содержимое веб-страниц, на которых они оказываются. Обыкновенно такие роботы не направляют запросы к базам данных (за исключением случаев, когда запрос помещается в отдельную гиперссылку на странице). Вот почему огромная часть Всемирной паутины оказывается «на глубине», скрытой от взоров поисковых систем.

     В 2000 году поисковая компания «BrightPlanet»  провела исследование, которое показало, что в глубокой паутине находится  в 500 раз больше документов, чем доступно через поисковые системы. Конечно, к этим цифрам следует относиться с осторожностью. Например, существует проблема с различением разных представлений одного и того же материала в базах данных. Но тем не менее, цифры поражают воображение, и неэффективность поисковых систем просто шокирует.

     В 2005 году компания «Yahoo!» сделала серьёзный  шаг к решению этой проблемы. Компания выпустила поисковый движок «Yahoo! Subscriptions», который производит поиск  по сайтам (пока немногочисленным), доступ к которым открыт только зарегистрированным участникам этих сайтов.

     Это, однако, полностью не решило имеющейся  проблемы. Эксперты поисковых систем по-прежнему пытаются найти технические  возможности для индексации содержимого  баз данных и доступа к закрытым веб-сайтам.

 

     

  1. Технология  поиска изображений в Интернете
              1. Визуальные  примитивы и механизм поиска по образцу

     До  недавнего времени традиционным считался поиск визуальной информации, опирающийся на индексирование текстовых  описаний, ассоциированных с изображением или фильмом. Однако поиск по названию, авторам, теме, словам описания содержания и по другой текстовой информации, ассоциированной с изображениями коллекции,  представляется недостаточным. Неоднозначность соответствия между визуальным содержанием и текстовым описанием снижает показатели точности и полноты поиска.

     Для организации электронных библиотек, связанных с визуальными данными, требуются методы создания и использования  поисковых образов, отражающих визуальное содержание изображений. Методы распознавания  образов и  понимания сцены в настоящее время из-за отсутствия эффективных универсальных алгоритмов применяются в узких предметных областях. Современная универсальная технология доступа к коллекциям изображений связана с сопоставлением изображению набора визуальных примитивов (характеристик цвета, формы, текстуры, а для видео еще и параметров движения сцены и объектов) и определением количественной оценки близости изображений по значениям примитивов.

     Визуальные  примитивы - это характеристики изображения, которые автоматически вычисляются по оцифрованным визуальным данным, позволяют эффективно индексировать их и обрабатывать запросы с использованием визуальных свойств изображения. Поисковый образ изображения, сгенерированный из визуальных примитивов, невелик по размеру в сравнении с самим изображением и удобен для организации поиска. Вычисление подобия изображений заменяет принятую в традиционных СУБД операцию установления соответствия запросу. Хотя запросом в такой системе может быть описание набора примитивов,  более удобен запросный механизм поиска по образцу, когда система отыскивает изображения, визуально похожие на предоставленный образец. Система анализирует образец аналогично тому, как это делается при составлении поисковых образов изображений базы. Вычисление подобия изображения-образца изображениям коллекции осуществляется на основании сравнения значений отдельных визуальных примитивов, при этом система определяет меру их отличия, а затем сортирует изображения базы в соответствии с близостью к образцу по всем параметрам, с учетом указываемой в запросе степени важности каждого параметра. Поиск на таком уровне абстракции не предполагает идентификацию объектов. Скажем, если в качестве образца взято изображение собаки, то система будет искать изображения, похожие на образец по цветовой гамме, композиции, наличию определенных форм и т.п., но нет никакой гарантии, что среди них окажется изображение именно этого животного. Тем не менее, метод поиска по образцу на основании визуальных примитивов представляется на сегодняшний день достаточно эффективным и универсальным средством доступа к коллекциям оцифрованных изображений.

     Различными  группами исследователей уже накоплен определенный опыт реализации алгоритмов, позволяющих автоматически описывать  изображения в терминах простых  вычислимых визуальных свойств, а также определять меру их отличия.

     Исследования в этой области направлены на дальнейшее развитие методов вычисления и сравнения визуальных примитивов. Реализован метод количественной оценки близости статичных изображений по их цветовым гистограммам. Решена задача пространственного сегментирования изображения. Разработан и реализован алгоритм, осуществляющий вычисление параметров форм для выделенных объектов картинки и сравнение форм по их параметрам. Проводятся работы и имеются результаты, которые позволят выполнять локальное индексирование, отражающее распределение на изображении цветовых множеств.

              1. Цветовые  гистограммы

     Метод цветовых гистограмм – наиболее популярный из методов, использующих цветовые характеристики для индексирования изображений. Возможно также использование таких показателей, как средний или основной цвета, а также множества цветов; эти характеристики имеет смысл использовать для локального индексирования областей изображения.

     Цветовое RGB-пространство рассматривается как трехмерный куб, каждая ось которого соответствует одному из трех основных цветов (красному, зеленому или синему), деления на осях пронумерованы от 0 до 255 (большее значение соответствует большей интенсивности цвета). При таком рассмотрении любой цвет RGB-изображения может быть представлен точкой куба. Для построения цветовой гистограммы каждая сторона делится на n (n=4) равных интервалов,  соответственно RGB-куб делится на N (N=64) прямоугольных параллелепипедов. Vi – множество цветов, все компоненты которых попадают в определенные интервалы. Гистограмма изображения отражает распределение точек RGB-пространства, соответствующих цветам пикселей изображения, по параллелепипедам.

     Выбор размерности гистограммы определялся  из следующих соображений. При n=2 (N=8) считались бы одинаковыми, например, {126,128,126} и {0, 255, 0}, что, естественно, недопустимо. Установка n=8 (N=512) приводит к тому, что базовая палитра становится более строгой, чем 8-битная. Такая точность не только автоматически дает некорректную обработку 256-цветных изображений, но и на остальных изображениях приводит к неестественным результатам. Очевидно, что при росте n ситуация только ухудшается. Поэтому было установлено n=4.

Информация о работе Технология поиска изображений в Интернете. Метапоисковые системы