Приложения для автоматического распознавания текста

Автор работы: Пользователь скрыл имя, 09 Декабря 2010 в 13:32, реферат

Описание

В практической деятельности часто встречаются ситуации, когда необходимо перевести в электронный вид документ, напечатанный на бумаге. В этом случае можно просто набрать документ на компьютере, что довольно трудно, либо воспользоваться сканером — устройством, специально предназначенным для перевода документов в электронный вид. Для организации сканирования изображения помимо непосредственно сканера требуется одна из специальных программ систем оптического распознавания текста.
Системы оптического распознавания текста (Optical Character Recognition — OCR-системы) предназначены для автоматического ввода печатных документов в компьютер.

Содержание

Введение…………………………………………………………………………..3
I. Программы для распознавания текстов………………………………………5
II. ABBYY FineReader………………………………………….………………..6
1. Различие версий в семействе FineReader 8.0………………………………...6
2. Возможности ABBYY FineReader 8.0 Professional…………………………7
3. Интерфейс программы ABBYY FineReader 8.0……………………………..9
4. Дополнительные сведения. Сегментация текста на этапе распознавания…..12
III. CuneiForm …………………………………………………………………...14
1. Особенности CuneiForm……………………………………………………...14
IV. Cсравнительный анализ программ для распознавания текста…………..15
1. Скорость и качество………………………………………………………….16
2. Таблицы ………………………………………………………………………18
3. Блоки…………………………………………………………………………..19
4. Распознавание цвета………………………………………………………….20
V. Заключение…………………………………………………………………...23
VI. Список используемой литературы…………………………………………24

Скачать (905.87 Кб) Сколько стоит заказать работу?

Работа состоит из 1 файл

ТЕКСТ РЕФ.doc

— 1,016.50 Кб (Скачать документ)

Федеральное агентство по образованию

Федеральное государственное образовательное учреждение

Среднего профессионального образования

«Волгоградский технологический колледж»

Кафедра «Дизайн»

Реферат

По дисциплине: «Мультимедиа»

На тему: «Приложения для автоматического распознавания текста»

Выполнила

студентка группы Р-4-1:

Рожок Н.В.

Проверил преподаватель:

Данилькевич А.В.

Волгоград – 2010

Содержание

Введение…………………………………………………………………………..3

I. Программы для распознавания текстов………………………………………5

II. ABBYY FineReader………………………………………….………………..6

1. Различие версий в семействе FineReader 8.0………………………………...6

2. Возможности ABBYY FineReader 8.0 Professional…………………………7

3. Интерфейс программы ABBYY FineReader 8.0……………………………..9

4. Дополнительные сведения. Сегментация текста на этапе распознавания…..12

III. CuneiForm …………………………………………………………………...14

1. Особенности CuneiForm……………………………………………………...14

IV. Cсравнительный анализ программ для распознавания текста…………..15

1. Скорость и качество………………………………………………………….16

2. Таблицы ………………………………………………………………………18

3. Блоки…………………………………………………………………………..19

4. Распознавание цвета………………………………………………………….20

V. Заключение…………………………………………………………………...23

VI. Список используемой литературы…………………………………………24

Введение

Системы оптического распознавания текста (Optical Character Recognition — OCR-системы) предназначены для автоматического ввода печатных документов в компьютер.

Современные программы распознавания текста не только ошибаются реже, чем живой человек, но и обеспечивают проверку орфографии, автоматическое форматирование текста и массу других дополнительных удобств.

Последние годы ведущие позиции на российском рынке «распознавалок» удерживают программы FineReader и CuneiForm. Несмотря на свои замысловатые названия, обе программы отечественного производства вполне хорошего качества. По своим возможностям и сервису они примерно равноценны. Рассмотрим возможности и технологический процесс внимательнее.

Основным методом перевода бумажных документов в электронную форму является сканирование. Сканирование — это технологический процесс, в результате которого создается графический образ бумажного документа. Существует несколько разных видов сканеров, но в их основе лежит один и тот же принцип. Документ освещается светом от специального источника, а отраженный свет воспринимается светочувствительным элементом. Минимальный элемент изображения интерпретируется сканером как цветная (или серая) точка. Таким образом, в результате сканирования документа создается графический файл, в котором хранится растровое изображение исходного документа. Растровое изображение состоит, как известно, из точек. Количество точек определяется как размером изображения, так и разрешением сканера.

После обработки документа сканером получается графическое изображение документа (графический образ). Но графический образ еще не является текстовым документом. Человеку достаточно взглянуть на лист бумаги с текстом, чтобы понять, что на нем написано. С точки зрения компьютера, документ после сканирования превращается в набор разноцветных точек, а вовсе не в текстовый документ.

Проблема распознавания текста в составе точечного графического изображения является весьма сложной. Подобные задачи решают с помощью специальных программных средств, называемых средствами распознавания образов. Реальный технический прорыв в этой области произошел лишь в последние годы. До этого распознавание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера). Авторы программ задавали критерий «похожести», используемый при идентификации символов.

Подобные системы назывались OCR (Optical Character Recognition — оптическое распознавание символов) и опирались на специально разработанные шрифты, облегчавшие такой подход. Если приходилось сталкиваться с произвольным и, тем более, сложным шрифтом, программы такого рода начинали давать серьезные сбои.

Современные научные достижения в области распознавания образов буквально перевернули представление об оптическом распознавании символов. Современные программы вполне могут справляться с различными (и весьма вычурными) шрифтами без перенастройки. Многие распознают даже рукописный текст.

I. Программы для распознавания текстов

Поскольку потребность в распознавании текста отсканированных документов достаточно велика, неудивительно, что имеется значительное число программ, предназначенных для этой цели. Так как разные научные методы распознавания текста развивались независимо друг от друга, многие из этих программ используют совершенно разные алгоритмы.

Эти алгоритмы могут давать разные результаты на разных документах. Например, упоминавшиеся выше системы OCR способны распознавать только стандартный специально подготовленный шрифт и дают на этом шрифте наилучшие результаты, которые не может превзойти ни одна из более универсальных программ.

Современные алгоритмы распознавания текста не ориентируются ни на конкретный шрифт, ни на конкретный алфавит. Большинство программ способно распознавать текст на нескольких языках. Одни и те же алгоритмы можно использовать для распознавания русского, латинского, арабского и других алфавитов и даже смешанных текстов. Разумеется, программа должна знать, о каком алфавите идет речь.

Нас, прежде всего, интересуют программы, способные распознавать текст, напечатанный на русском языке. Такие программы выпускаются отечественными производителями. Наиболее широко известны и распространены программы Fine Reader и CuneiForm.

II. ABBYY FineReader

Одной из популярных программ оптического распознавания текстов является программа FineReader, созданная компанией ABBYY Software House.

FineReader — омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии «целостного целенаправленного адаптивного распознания».

Программа ABBYY FineReader - один из немногих качественных пакетов для распознавания текстов (OCR) и практически единственный, действительно хорошо поддерживающий кириллицу. Каждая новая версии данной утилиты всегда демонстрировала более качественное и быстрое распознавание текстовых документов с несложными таблицами.

1. Различие версий в семействе FineReader 8.0

Линейка продуктов ABBYY FineReader 8.0 включает в себя пять различных версий программы. Друг от друга их отличает способ распространения, возможности и, естественно, цена.

ABBYY FineReader 8.0 Sprint - упрощенная версия программы, поставляется в комплекте со многими новыми сканерами и МФУ. Стоит отметить, что, даже сегодня купив новый сканер, в комплекте с ним может поставляться устаревшая версия программы (к примеру, 5.0). Эта проблема решается обновлением через Интернет.

ABBYY FineReader 8.0 Home Edition - немного упрощенная, если сравнивать с Professional, версия программы. Предназначена, прежде всего, для домашнего использования. Данная версия программы способна распознавать несложные документы и простенькие таблицы. Результат распознавания можно сохранять в распространенные форматы документов.

Самая интересная версия программы - ABBYY FineReader 8.0 Professional Edition обладает наибольшим количеством функций и нововведений по сравнению с программами, вышедшими до восьмой редакции. Далее, в статье будет рассматриваться именно FineReader 8.0 Professional. Поэтому, описание этой программы выведено в отдельный подраздел данного реферата.

ABBYY FineReader 8.0 Corporate Edition - корпоративная версия программы. Она предназначена для использования в локальной сети в полиграфических и издательских организациях, а также других компаниях, активно работающих с текстовыми документами/таблицами. Программа обладает мощными возможностями для работы в локальной сети.

ABBYY FineReader XIX - уникальная разработка компании. Обладает возможностями Corporate Edition, а также способна распознавать старинные европейские шрифты. Программа способна распознавать такие шрифты, как Fraktur, Schwabacher и большое количество готических шрифтов с учетом особенностей орфографии и мифологии того времени. Цена на данную версию FineReader не известна, так как эти по истине уникальная разработка, и каждый ее покупатель тоже будет уникальным.

2. Возможности ABBYY FineReader 8.0 Professional

Часто случаются ситуации, когда нужно ввести и распознать большой объем текста со сканера или МФУ в компьютер. Подобные задачи востребованы переводчиками, редакторами изданий, студентами... FineReader способен распознавать изображения с минимальным качеством от 200 точек на дюйм. Так, отныне на ввод в ПК одной страницы формата А4 уйдет не более минуты, а в высокоскоростных сканерах - менее 30 секунд. Стоит отметить, что снижение требований к качеству изображений позволяет программе без особых трудностей распознавать текст со снимков фотокамеры (начиная от двух мегапикселей).

Подпрограмма для обучения пользователей, интеграция с последними версиями Microsoft Word, и подпрограмма для распознавания текста со скриншотов вашего монитора значительно облегчит работу по распознаванию текста. Встроенная подпрограмма «обучение на примерах» научит работать с FineReader любого пользователя, не знакомого ранее с этой программой. На выбор вам предоставляется множество готовых примеров работы с разными типами документов и изображений: простое письмо, многоязычный документ, книжный разворот, факс, газета, PDF-документ, таблица, визитная карточка и т.д. Кроме того, вы найдете множество полезных советов по разнообразным задачам, с которыми справляется FineReader. Для «непосвященных» предусмотрен раздел «быстрое знакомство».

Screenshot Reader - поставляемая вместе с FineReader программа (в демоверсии - недоступна), предназначенная для распознавания текста со снимков экрана вашего монитора. Работает она по простому принципу: сначала выполняется снимок с экрана (данная процедура - аналог действия клавиши PrintScreen), послу чего FineReader «поднимает" это изображение из буфера обмена и распознает тексты, таблицы и другие стандартные объекты документов. То же самое можно сделать и вручную, но Screenshot Reader позволяет значительно сэкономить время. О востребованности подпрограммы можно спорить, но бесполезной ее назвать нельзя. Во-первых, она значительно экономит время, во-вторых, это один из немногих способов "достать" исходный текст защищенных текстовых файлов и документов.

Информация о работе Приложения для автоматического распознавания текста