Технология адаптивного распознавания образов APRP

Автор работы: Пользователь скрыл имя, 08 Декабря 2011 в 23:34, реферат

Описание

В начале 90-х годов появились технологические разработки, связанные с индексацией и поиском документов и использующие результаты, полученные в области нейронных сетей и искусственного интеллекта. Они позволили сформулировать принципиально новые концепции построения систем управления неструктурированной информацией в электронном виде.
Компания Excalibur Technologies разработала и представила на рынке технологию адаптивного распознавания образов APRP (Adaptive Pattern Recognition Processing), которая была положена в основу программного продукта - систему управления документами Excalibur EFS. Технология APRP основана на нейронных сетях. Она позволяет не только обойти проблемы ошибок распознавания текстов, но и предоставляет возможности автоматического индексирования и поиска различных типов неструктурированной информации в электронной форме

Работа состоит из  1 файл

Технология адаптивного распознавания образов APRP.doc

— 56.00 Кб (Скачать документ)

Технология  адаптивного распознавания  образов APRP

В начале 90-х годов  появились технологические разработки, связанные с индексацией и  поиском документов и использующие результаты, полученные в области  нейронных сетей и искусственного интеллекта. Они позволили сформулировать принципиально новые концепции построения систем управления неструктурированной информацией в электронном виде.

Компания Excalibur Technologies разработала и представила на рынке технологию адаптивного распознавания  образов APRP (Adaptive Pattern Recognition Processing), которая была положена в основу программного продукта - систему управления документами Excalibur EFS. Технология APRP основана на нейронных сетях. Она позволяет не только обойти проблемы ошибок распознавания текстов, но и предоставляет возможности автоматического индексирования и поиска различных типов неструктурированной информации в электронной форме.

Ядро технологии APRP "выросло" из работ основателя компании Excalibur Technologies Джеймса Дау III (James Dow III), посвященных изучению и разработке моделей нейронных сетей, способных идентифицировать, или более точно, распознавать присутствие тех или иных образов в составе данных специального вида. В своей научной работе, связанной с изучением физиологии лягушек, Дау пытался понять, каким образом живые организмы получают и обрабатывают информацию, а конкретно, как могут лягушки с ограниченными зрительными возможностями распознавать то, что они едят. Ответ был таков: они используют отождествление образов.

Дау применил аналогичную технологию к компьютерным системам. Таким образом, исследования в области распознавания образов,моделей и теории самоорганизующихся систем привели к появлению метода распознавания двоичных образов, позволяющего построить систему индексации общего назначения, которую можно универсально применять к основным видам данных, включая устную речь (голос), сигналы, тексты и изображения. Был также создан комплекс алгоритмов, самостоятельно адаптирующихся к особенностям обрабатываемой информации и позволяющих осуществлять поиск образов, составленных из двоичных символов.

Источники и основные принципы технологии APRP можно представить  следующей таблицей:

Затраты времени на индексацию и поиск данных
Документ Время индексации Время поиска
Полное  собрание сочинений Шекспира 2 минуты 20 секунд 01 секунда
26 томов  энциклопедии 29 минут 38 секунд 13 секунд
Библия 1 минута 47 секунд 01 секунда

Таблица 1.  
Возможные затраты времени на индексацию и поиск данных при реализации системы APRP на компьютере DEC Station 5000 для различных документов.

Отметим два наиболее важных с точки зрения автора достоинства  технологии APRP:

- В системах EDMS первого  и второго поколений, которые  обсуждались выше, индексация и  организация неструктурированных  электронных документов ориентированы на анализ их содержания и усечение этой информации до набора ключевых слов или других предопределенных категорий. Процесс поиска просто выполняет эту процедуру в обратном порядке,запуская процесс в обратную сторону - от ключевых слов к документам. Основная проблема этого подхода заключается в том, что пользователь может задавать только те вопросы, на которые заранее предусмотрены ответы. Этот прямолинейный и крайне субъективный процесс не позволяет ввести что-либо новое. Он слишком упрощен, негибок и статичен для управления сложными нелинейными динамическими потоками неструктурированных данных, протекающими через сегодняшние информационные системы.

- Кроме того, когда  индекс создается под управлением  данных, достигается его оптимизация  с точки зрения доступных ресурсов. Компьютерная система, организующаяся в соответствии с методологией APRP, подобна биологической системе, организующей себя так, чтобы добиться максимального объема доступных ресурсов.

Нейронные сети - лишь один из компонентов общей методологии APRP, включающей также набор правил и описание принципов, в соответствии с которыми происходит развитие архитектуры логической нейронной сети. Основной стандартный блок при ее построении - всем хорошо знакомая конструкция "ЕСЛИ_ТО". Входные данные определяют, какие из перечисленных ниже структурных элементов и в какой комбинации будут использованы для создания конструкций "ЕСЛИ_ТО":

- Логические элементы (ЛЭ), оценивающие логические выражения;

- Процессорные элементы (ПЭ), вычисляющие математические  выражения;

- Управляющие элементы (УЭ), выполняющие действия.

APRP определяет число  и типы таких элементов, а  также когда и как необходимо  создавать новые элементы и  вводить их в структуру нейронной  сети. Быстродействие APRP зависит от  соотношения между числом ЛЭ и числами ПЭ и УЭ. В большинстве приложений на каждый ПЭ или УЭ приходится свыше 100 ЛЭ.

Главным преимуществом  использования логической нейронной  сети является высокая скорость индексации и поиска информации. Высокие характеристики обусловлены тем,что при работе системы основную часть общего объема выполняемых операций составляют логические операции "И" и "ИЛИ". Кроме того, алгоритмы системы APRP могут выполняться параллельно. Например, время работы можно уменьшить вдвое при использовании двух процессоров или в восемь раз при использовании восьми процессоров. Верхний предел числа используемых процессоров равен единице плюс общее число ЛЭ и ПЭ. Дополнительный процессор предназначен для реализации УЭ. Однако даже без дополнительных процессоров метод APRP остается относительно быстрым.

Основные преимущества технологии APRP для контекстного поиска текста таковы:

- нечеткий поиск,

- автоматическая индексация,

- достоверность при  сложной индексации)

- использование меньшего  объема ресурсов,

- высокая скорость  поиска информации.

Нечеткий  поиск

Нечеткая логика и  нечеткий поиск стали одними из самых  модных терминов. В технологии APRP под  нечетким поиском понимается возможность  найти достаточно близкое приближение  к запрошенному термину или фразе.

Нечеткий поиск  устраняет для пользователя необходимость знать правильное написание каждого термина, с которым он работает. Уже нет необходимости пролистывать сотни страниц таблиц, заполненных корнями и основами ключевых слов, чтобы найти объект поиска. Поскольку APRP работает не с ключевыми словами, а с образами, две-три ошибочные буквы в слове или фразе не могут существенно изменить базовую картину текста. Таким образом, автоматически становится допустимой ошибка как во входных данных, так и в терминах запроса. APRP всегда в состоянии найти ближайшее приближение к терминам и фразам, заданным в качестве объектов поиска. Поясним это на примере.

Даже, если мы напишем  в запросе:

ЦЦЦТЕРМАРГМАСАРИТАЭЭЭЭЭЭ,

имея в виду название романа Михаила Булгакова, мы получим  правильный ответ: "Мастер и Маргарита". Поиск происходит следующим образом:

- Запрос конвертируется  в бинарную форму

- Игнорируется шум,  т.е. отбрасываются ЦЦЦ и ЭЭЭЭЭЭ

- Проводится нечеткий  поиск

Рассмотрим запрос более внимательно. Элементы названия романа присутствуют в запросе:

ЦЦЦТЕРМАРГМАСАРИТАЭЭЭЭЭЭ

ЦЦЦТЕРМАРГМАСАРИТАЭЭЭЭЭЭ

Как реально происходит нечеткий поиск? Ранее упоминалось, что технология APRP оперирует информацией  на уровне двоичных кодов, т. е. каждое слово для нее - это образ, состоящий из нулей и единиц. Например, слово "пень" для нее представляется двоичным образом 10101111 10100101 10!01101 11101100; а слово "печь" имеет двоичный образ 10101111 10100101 11100111 11101100 (каждая буква в слове представляется одним байтом). Сравним двоичные образы обоих слов:

ПЕНЬ -  
10101111 10100101 10101101 11101100

ПЕЧЬ -  
10101111 10100101 11100111 11101100

Из 32 позиций каждого  двоичного образа не совпадают только комбинации из 6-ти элементов, что составляет лишь около 20% от длины двоичного образа. С точки зрения технологии APRP образы этих слов очень близки к друг другу, и в качестве результата поиска вам могут быть предложены документы, содержащие оба слова, а вы укажете, которые из них вы имели ввиду при поиске. Приведенный пример, однако, не означает, что вам будет предложен бесконечный список вариантов, в той или иной степени похожих на ваш запрос. Далее в статье при описании программного продукта Excalibur EFS будут даны рекомендации по составлению эффективных запросов, поиск по которым не приведет, если в этом нет специальной необходимости, к появлению слишком длинных списков "близких" совпадений.

Нечеткий поиск  особенно полезен в ситуациях, когда  ввод данных осуществляется с помощью  оптического распознавания символов, так как процесс OCR, как уже говорилось, не является на 100% точным даже при очень высоком качестве печати. Например, если на данной странице с помощью OCR не удалось абсолютно правильно считать ни одного слова, практически. никакая система четкого поиска не имеет шансов добиться успеха при поиске этой страницы.

Автоматическая  индексация

При использовании APRP вы можете проиндексировать все свои данные, не указывая ключевых слов или  полей базы данных, не привлекая  администратора базы данных и не прибегая к экспертам для определения значимости того или иного слова или фразы по сравнению с другими словами или фразами.

Так как индексируемые  образы не задаются заранее пользователем  или программно, а выбираются самой  нейронной сетью, каждая нейронная сеть становится ассоциативным запоминающим устройством, оптимизированным для актуального текста в базе данных. Введя документ, вы переключаете систему в режим "изучения". В этом режиме она просматривает двоичные образы и определяет, где они находятся, как в виртуальной, так и в физической памяти, с использованием алгоритмов на нейронных сетях. "Изучив" документы в процессе индексации, система осуществляет поиск информации очень быстро, используя для этого процедуры нечеткой логики.

Нейронную сеть можно оптимизировать как для языковых образов (английский, французский, японский и т. п.), так и для профессиональной лексики (юридической, социологической,химической и т. п.). Система APRP динамически определяет и выделяет образы, которые могут представлять собой все, что угодно, - от простой текстовой строки, например, сочетания "акция" (найденное как отдельное слово или фрагмент слова), до сложных фраз типа "принимая во внимание согласие между фрагментом первой части и фрагментом второй части..."

Точность  поиска

Гибкость методологии  поиска APRP позволяет улучшить параметры  процесса поиска данных, позволяя пользователю самому определять степень совпадения найденной информации с запросом. Вы можете сформулировать эффективный  запрос без знания правильного написания слов или фраз. Получив запрос найти какой-либо документ, система просматривает образы и составляет список "ближайших приближений" к тому, что было описано в запросе. Затем система упорядочивает содержимое этой области по степени вероятности того, что тот или иной найденный на этом этапе документ является истинной целью поиска. Вы можете установить "ближайшую десятку", "ближайшую сотню" и т. д. Это потенциально создает среду поиска, в которой пользователь может проводить поиск в интерактивном режиме, чтобы найти ответ, предварительно не определив точно, что же является ответом.

Скорость  поиска и ресурсы

Программные системы, базирующиеся на методологии APRP, имеют  возможность динамически использовать ресурсы и архитектуру компьютера для получения более быстрого и точного доступа к информации. Поскольку индекс занимает минимальный объем, его можно мнгновенно загрузить в память любого компьютера в сети и работать с ним со скоростью двоичных логических операций.

Такое свойство самооптимизации  предполагает использование всех доступных ресурсов системы - память, диски и т. д. На большинстве рабочих станций APRP позволяет осуществлять поиск в объеме 200 000 страниц информации не более чем за десять секунд. Важнейшим преимуществом такого подхода является динамическая природа технологии оптимизации как конкретных данных, так и используемых аппаратных средств. По мере внедрения таких технологий, как параллельная обработка, повышающих мощность и совершенствующих архитектуру компьютеров, система APRP получит возможность функционировать на таких новых аппаратных платформах и автоматически использовать их ресурсы, значительно сокращая время реакции.

Информация любой  природы представляется в компьютере одинаково - с помощью нулей и  единиц. Это означает, что технология APRP может быть применена таким же образом для индексации и нечеткого поиска изображений, видео - и звукозаписей, сигналов, речи и всего разнообразия мультимедийной информации.

Компания Excalibur Technologies разработала библиотеки, реализующие  нечеткий поиск информации различной природы:

- Библиотека TRS - Text Recognition Software - предназначена для индексации  и нечеткого поиска текстовой  информации

- Библиотека SRC - Signal/Sound Recognition Software - предназначена для распознавания  (индексации и нечеткого поиска) голосовой, звуковой и сигнальной информации

- Библиотека VRS - Visual Recognition Software - предназначена для индексации  и нечеткого поиска изображений  (например, поиск по фотографиям,  отпечаткам пальцев и т. д.)

Информация о работе Технология адаптивного распознавания образов APRP