Приложения для автоматического распознавания текста

Автор работы: Пользователь скрыл имя, 09 Декабря 2010 в 13:32, реферат

Описание

В практической деятельности часто встречаются ситуации, когда необходимо перевести в электронный вид документ, напечатанный на бумаге. В этом случае можно просто набрать документ на компьютере, что довольно трудно, либо воспользоваться сканером — устройством, специально предназначенным для перевода документов в электронный вид. Для организации сканирования изображения помимо непосредственно сканера требуется одна из специальных программ систем оптического распознавания текста.
Системы оптического распознавания текста (Optical Character Recognition — OCR-системы) предназначены для автоматического ввода печатных документов в компьютер.

Содержание

Введение…………………………………………………………………………..3
I. Программы для распознавания текстов………………………………………5
II. ABBYY FineReader………………………………………….………………..6
1. Различие версий в семействе FineReader 8.0………………………………...6
2. Возможности ABBYY FineReader 8.0 Professional…………………………7
3. Интерфейс программы ABBYY FineReader 8.0……………………………..9
4. Дополнительные сведения. Сегментация текста на этапе распознавания…..12
III. CuneiForm …………………………………………………………………...14
1. Особенности CuneiForm……………………………………………………...14
IV. Cсравнительный анализ программ для распознавания текста…………..15
1. Скорость и качество………………………………………………………….16
2. Таблицы ………………………………………………………………………18
3. Блоки…………………………………………………………………………..19
4. Распознавание цвета………………………………………………………….20
V. Заключение…………………………………………………………………...23
VI. Список используемой литературы…………………………………………24

Работа состоит из  1 файл

ТЕКСТ РЕФ.doc

— 1,016.50 Кб (Скачать документ)

3. Интерфейс программы  ABBYY FineReader 8.0 

   Стартует программа с предложения - ввести документ с помощью Мастера Scan&Read, запустить обучающее приложение или показать работу пакета в демонстрационном режиме. Демо-пример, стоит отметить, отличный способ ознакомиться с принципом работы пакета для новичков.

   Окно программы содержит строку меню, ряд панелей инструментов и рабочую область. 

     

     Рисунок 1 – Порядок распознавания текстовых  документов 

   Преобразование бумажного документа в электронный происходит поэтапно или автоматически. Для автоматической работы используется инструмент Scan&Read. 

   Поэтапное распознавание:

   Первый этап работы – сканирование.

   Если документ был уже отсканирован ранее, его открывают. Если изображение находится на бумажном носителе, то на первом этапе выбирают действие сканировать.

   Программа FineReader использует для сканирования устройство, заданное по умолчанию. По завершении процесса сканирования полученное графическое изображение автоматически выгружается в рабочую область программы FineReader. 

     

     Рисунок 2 - Программа FineReader 

   Второй этап – распознавание текста. 

   Прежде чем включать текст в документ, он разбивается на блоки, содержащее цельные фрагменты. Эту операцию программа может выполнить автоматически, хотя разбиение не всегда проходит удачно.

    Границы и типы блоков можно устанавливать вручную. Эту возможность мы рассмотрим чуть позже.

   Процесс распознавания отображается в специальном информационном окне: 
 
 
 
 

    - Полученный текст помещается в окно «Текст». 

     Рисунок 3 – Тестовое окно FineReader 

   Третий этап - проверка. 

   На данном этапе программа выполняет поиск ошибок распознавания. FineReader выделяет цветом те символы, которые она сама рассматривает как неоднозначно опознанные.

   С помощью диалогового окна Проверка можно отредактировать нераспознанные символы. 

     

     Рисунок 4 –Процесс распознавания 

   Если вариант интерпретации программы верный нажимаем кнопку Пропустить.

    В случае обнаружения символов неверно распознанных программой ошибки исправляют вручную и фиксируют исправления нажатием кнопки Подтвердить. 

   Четвёртый этап – сохранение текста. 

   Программа FineReader предусматривает возможность прямой передачи полученного текста в Word:

    Сохранение текстового документа выполняют в программе Word. 

4. Дополнительные сведения. Сегментация текста на этапе распознавания. 

   При автоматической сегментации программа разбивает отсканированный документ на блоки различных типов: текстовые, графические и т. д.

   Если исходный текст содержит рисунки, подрисуночные подписи, таблицы, примечания и другие элементы, автоматическое распознавание текста может пройти неудачно.

   В таких случаях границы блоков указывают вручную. Для этого используют кнопки специальной панели инструментов Изображение.

       

     Рисунок 5 – Настройка изображения

 

  Кнопки панели инструментов Изображение соответствуют различным типам блоков.

    Блоки выделяются прямоугольными рамками различных цветов. Чтобы выделить блок необходимо:

     1. Выбрать соответствующую кнопку панели инструментов;

     2. Протягиванием определить границы блока.

  Анализ макета страницы - выполняет автоматическое разбиение на блоки.

   Выделить зону распознавания – позволяет выбрать щелчком мыши тот или иной блок, если автоматическое разбиение на блоки уже выполнено, и определить зону для автоматического разбиения методом протягивания, если оно ещё не выполнено.

   Выделить блок Текст. Удаление блока. Выделить блок Таблица. Выделить блок Картинка. Ластик - удаляет фрагмент отсканированного документа. Обрезка - позволяет вырезать любой фрагмент документа. 

5. Вывод

   Безусловно, FineReader 8.0 - лучший пакет для распознавания текстов. По крайней мере, для распознавания кириллицы пока ничего лучшего не придумали. 179 языков, доступных для распознавания, 20% из которых обладают словарями, возможность проверки орфографии после распознавания текста, новая возможность распознавания изображений низкого качества - все это содержит в себе новая версия пакета FineReader.

   О недостатках программы можно было бы говорить только в случае, если бы у нее были достойные конкуренты. А за неимением таковых, почти монопольный статус программы от ABBYY ставит ее в категорию лучших. Так что, можно считать, что явных недостатков в программе нет. 
 
 
 

III. CuneiForm  

   CuneiForm (англ. Клинопись) — свободно распространяемая открытая система оптического распознавания текстов российской компании Cognitive Technologies.

   Первоначально система CuneiForm была  разработана компанией Cognitive Technologies как коммерческий продукт. CuneiForm поставлялся с некоторыми моделями сканеров. Однако после нескольких лет перерыва разработки, 12 декабря 2007 года анонсировано открытие исходных текстов программы, которое состоялось 2 апреля 2008 года 

1. Особенности CuneiForm

   CuneiForm позиционируется как система преобразования электронных копий бумажных документов и графических файлов в редактируемый вид с возможностью сохранения структуры и гарнитуры шрифтов оригинального документа в автоматическом или полуавтоматическом режиме. Система включает в себя две программы для одиночной и пакетной обработки электронных документов.

   CuneiForm — Шрифтонезависимая система.

OCR CuneiForm может распознавать любые полиграфические,  машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи.  
 
 
 
 
 

IV. Cсравнительный  анализ программ для распознавания текста 

   В последние несколько лет стали очень популярны программы распознавания текста. Используются они не только в офисах для перевода документов в электронный вид, но и дома для распознавания различного вида текстов для написания рефератов и курсовых, что облегчает жизнь студентам и научным сотрудникам. Проблема выбора программного продукта для решения какой-либо задачи всегда стояла перед пользователем. Для того чтобы разрешить ее, необходимо было сравнить хотя бы несколько программ одного назначения. При этом тратились время и деньги, и достаточно часто выбор был далеко не оптимальным. На данный момент всего два программных продукта - Fine Reader 5.0 и Cuneiform 2000 - предлагают решение данной проблемы. Рассмотрим их.

 
 
 
 
 

                        Рисунок 6                                      Рисунок 7 

   Рис. 6. Fine Reader 5.0 после запуска. Если нажать на кнопку Scan&Read, то автоматически запустится мастер сканирования и распознавания. Рис. 7. Cuneiform 2000 готов к работе. Как и в Fine Reader 5.0, первая большая кнопка вызывает мастер сканирования и распознавания.

  Обе программы предлагают несколько дополнительных возможностей помимо распознавания текста:

  • проверка орфографии для различных языков;
  • сканирование;
  • сохранение в различных форматах и передача в другие программы распознанного документа;
  • обработка картинок;
  • пакетная обработка множества изображений;
  • форматирование текста.

   Но нас интересуют не столько предлагаемые функции (они практически одинаковые), сколько отличия для пользователя в работе данных программ. Для этого мы проведем исследование по пунктам, которые являются основными для пользователя. 

1. Скорость и качество 

   Эти характеристики являются одними из самых критичных в применении данных программ, т. к. распознавание должно экономить время, затраченное на страницу текста, а складывается оно в итоге из скорости и качества. Скорость - это время, необходимое самой программе на распознавание, а от качества зависит, придется ли вам исправлять полученный текст и насколько время исправления меньше времени набора того же самого текста. Как показывает опыт, качество напрямую зависит от исходного материала, а также от уровня интеллекта программы распознавания.

   Для начала мы посмотрим, как программы будут распознавать страницу, не содержащую ничего, кроме обычного текста. Затем рассмотрим несколько вариантов различной сложности.

   Для этого мы берем лист формата А4 с текстом, распечатанным на лазерном принтере, сканируем его в черно-белом режиме с разрешением 300 точек на дюйм и сохраняем в формате TIFF (с этими параметрами будут отсканированы и остальные образцы, взятые для тестов). 
 
 
 
 

Рис. 8. Вот так выглядит взятый для проверки текст. Здесь нет каких-либо трудностей для распознавания  
 
 
 

                Рисунок 8 

   Теперь мы открываем это изображение в Fine Reader 5.0, выделяем область для распознавания и нажимаем кнопку "Распознать". На этот процесс у программы уходит около 4 с. Производим подобную операцию в Cuneiform 2000 и спустя 8 с получаем распознанный текст.

   Таким образом, Fine Reader 5.0 работает быстрее, чем Cuneiform 2000. Теперь о качестве: первая программа совершила только одну ошибку (рис. 9), ну а вторая ошиблась только поставив ненужный пробел (рис. 10).

 
 
 
 
 

                            Рисунок 9                                      Рисунок 10 

   Теперь давайте посмотрим, какая картина будет, если мы возьмем для распознавания разворот учебника с формулами.

Рис. 11. Пример для распознавания учебника. Прежде чем распознавать, эту картинку пришлось поворачивать. Такую операцию не обязательно проводить средствами Photoshop, с ней легко справляются наши программы.

                  Рисунок 11 

   Производим распознавание и видим, что Fine Reader затратил около 43 с, а Cuneiform - порядка 18 с.

    Интересно: Fine Reader здесь показал не лучший результат по скорости, но по качеству - у него преимущество. В основном ошибки распознавания оказались только в формулах, а Cuneiform умудрился совершить их и в тексте.

 
 
 
 
 

                               Рисунок 12                                      Рисунок 13 

2. Таблицы  

   На этом этапе мы рассмотрим, насколько точно будет производиться определение таблиц и форм. Для того чтобы провести его более точно, мы возьмем два основных вида таблиц и один документ договора.

    Рис. 14. Пример простой таблицы. Такого типа таблицы очень часто встречаются в экономической литературе и справочниках.  

             Рисунок 14

    Рис. 15. Результат распознавания Fine Reader 5.0 — здесь требуется доработка. Рис. 16. Результат распознавания Cuneiform 2000 наиболее близок к оригиналу.

Информация о работе Приложения для автоматического распознавания текста