Автоматизированное распознавание речи

Автор работы: Пользователь скрыл имя, 10 Марта 2013 в 12:50, курсовая работа

Описание

Любой поработавший с современным графическим пакетом согласится, что около десятка движений мышью при создании какого-либо эффекта порой можно заменить одним словом. Таким образом, задача состоит в том, чтобы научить компьютер понимать без посредника тот язык, на котором говорят люди между собой, то есть придумать алгоритм распознавания звукового образа. На уровне письменного текста указанная проблема уже частично решена некоторые программы, позволяют вводить через сканер любой напечатанный текст. Однако в данном случае мы имеем дело с уже готовым текстом, а ввод информации в процессе его создания представляет определенную сложность.

Содержание

Введение 4
1. Понятия и виды систем распознавания речи. 5
1.1 Системы распознавания речи: понятие и виды 5
1.2 История создания и разработки автоматизированных систем распознавания речи 15
2. Применение автоматизированных систем распознавания речи. 19
2.1 Проблемы применения систем распознавания речи 19
2.2 Песпективы использования данных систем в России 26
Заключение 33
Список используемых источников 34

Работа состоит из  1 файл

итвдоу кр гд-4-001 Aword.docx

— 73.96 Кб (Скачать документ)

 


Спудьева М.Н. «Информационные технологии в ДОУ и архивном деле».

 

РОСЖЕЛДОР

Федеральное государственное  бюджетное

 образовательное  учреждение  высшего профессионального образования

«Ростовский государственный  университет путей сообщения»

(ФГБОУ ВПО РГУПС)


 

 

 

 

 

 

 

КУРСОВАЯ РАБОТА

 

По дисциплине: «Информационные технологии в ДОУ и архивном деле»

На тему: «Автоматизированное  распознавание речи»

 

 

 

Выполнил:                                                                          М.Н. Спудьева

                                              

                                                                                              Группа: ГД-4-001

 

Проверил:                                                                            Е.С. Окулова

 

 

 

Ростов-на-Дону

2012

 

Содержание

 

 

Введение 4

1. Понятия и виды систем распознавания речи. 5

1.1 Системы распознавания речи: понятие и виды 5

1.2 История  создания и разработки автоматизированных  систем распознавания речи 15

2. Применение автоматизированных систем распознавания речи. 19

2.1 Проблемы применения систем распознавания речи 19

2.2 Песпективы  использования данных систем  в России 26

Заключение 33

Список  используемых источников 34

 

 

 

 

Введение

 

В современных компьютерных системах все больше внимания уделяется  построению интерфейса естественного  ввода-вывода информации. Одним из перспективных  направлений на сегодняшний день является использование систем речевого диалога, которая предполагает автоматический синтез и распознавание речи. Этим и обусловлена актуальность данной темы.

Автоматизированное распознавание  речи необходимо для создания средств речевого ввода команд и текстов, автоматического перевода, реферирования текстов, построения справочных и информационно - поисковых устройств. Синтез речи является одним из функциональных узлов различных роботов связи. Существуют системы, которые могут сообщение, присланное вами по электронной почте, преобразовать в "голосовое" и передать по нужному телефону в заданный промежуток времени. Другие системы по названному телефонному номеру (входящему в заранее определенный список) обеспечивают услуги выдачи адресов, маршрутов проезда и т.п.

Ввод данных всегда требовал значительных затрат времени и сил, а стремление свести эти затраты  к минимуму заставляет постоянно  работать над способами перевода знаковой системы, которой пользуется человек, на тот язык, который понятен машине.

Перфокарты, а потом клавиатура не до конца решили эту проблему, так как эти способы передачи информации не являются естественными  для человека, а потому они неэффективны, неэкономичны и, кроме того, требуют  длительного освоения. При современных  масштабах распространения ПК работать с ними приходится не только специалистам, владеющим быстрым набором с  клавиатуры, но и малоподготовленным пользователям, для которых ввод информации выливается в отдельную  проблему.

 

Любой поработавший с современным  графическим пакетом согласится, что около десятка движений мышью  при создании какого-либо эффекта  порой можно заменить одним словом. Таким образом, задача состоит в  том, чтобы научить компьютер  понимать без посредника тот язык, на котором говорят люди между  собой, то есть придумать алгоритм распознавания  звукового образа. На уровне письменного  текста указанная проблема уже частично решена некоторые программы, позволяют вводить через сканер любой напечатанный текст. Однако в данном случае мы имеем дело с уже готовым текстом, а ввод информации в процессе его создания представляет определенную сложность. Пока человек не научится телепатически передавать свои мысли, единственным инструментом, служащим ему для этого, является речь, и потому каждому пользователю ПК очень хотелось бы, чтобы его помощник слышал, а главное, понимал своего хозяина.

В данной курсовой работе подробно изложены виды систем распознавания  речи, а также методология таких  систем. Особое внимание уделено перспективам использования и применению систем в настоящее время в России.

 

  1. Понятия и виды систем распознавания речи.
    1. Системы распознавания речи: понятие и виды

 

Распознавание речи — процесс  преобразования речевого сигнала в  цифровую информацию (напр., текстовые  данные). Обратной задачей является синтез речи.

Автоматическое речевое  распознавание - процесс, которым компьютер  отображает акустический речевой сигнал в виде текста или соответствующих команд, управляющих вычислительным процессом. Более сложным понятием является автоматическое понимание речи, которое включает в себя автоматическое распознавание и семантический анализ распознанного текста. Системы распознавания речи можно разделить, классифицировать по ряду признаков, в том числе:

         -          по зависимости от диктора,

         -          по объему словаря,

         -          по характеру распознаваемого речевого потока.

         Рассмотрим эти характеристики.

Диктор - зависимые системы разрабатываются для одиночного пользователя. Эти системы обычно проще по структуре, дешевле, однако не обладают достаточной гибкостью и возможностью адаптации к группе дикторов либо к работе с неизвестным диктором.

Диктор - независимые системы разрабатываются, чтобы эксплуатировать с любым диктором специфического типа. Эти системы наиболее трудно развиваются, являются наиболее дорогим и обеспечивают точность распознавания ниже чем диктор-зависимые системы. Однако, они более гибки и удобны в использовании.

Системы с адаптацией под  диктора позволяют производить  настройку под конкретного диктора  или группу дикторов. Такие системы  позволяют обеспечить достаточно эффективность  распознавания, однако сам процесс  настройки ее под диктора или группу дикторов может быть достаточно трудоемким.

Размер словаря речевой  системы распознавания непосредственно  связан с ее сложностью и сильно влияет на характеристики точности распознавания.

Размер словаря определяется конкретными требованиями соответствующей  прикладной системы. Некоторые прикладные программы только требуют нескольких слов (например только числа ), другие требуют очень больших словарей (например системы автоматической диктовки текста).

Обычно рассматриваются  следующие градации объема словарей:

- Маленький словарь - десятки слов

- Средний словарь - сотни  слов

-  Большой словарь - тысячи слов

- Очень большой словарь - десятки тысяч слов.

По характеру речевого потока системы распознавания речи делятся на системы распознавания  изолированных слов и непрерывной  речи.

Системы распознавания изолированных  слов ориентированы на распознавание  одиночных слов с одновременным  требование паузы между высказыванием  каждого слова. Это - самая простая  форма распознавания, потому что  здесь проще найти конечные и  начальные точки слова и при  этом произношение соседних слов не влияет друг на друга, что обеспечивает достаточно высокое качество распознавания.

Системы распознавания одиночных  команд должны обеспечивать достаточно высокую надежность (95%-97%) правильного  распознавания для группы дикторов до 5-7 человек, а также иметь возможность  подстройки системы при наличии ошибок распознавания.

Система распознавания одиночных  команд должна отвечать требованиям быстроты реакции, обеспечивающей минимальную задержку выдачи ответа после произнесения слова. Системы распознавания непрерывной (слитной) речи функционирует с речью, в которой слова соединены вместе, то есть не отделяемый к паузам. Непрерывная речь более трудно обрабатывается из-за ряда эффектов. Сначала, трудно найти начало и конечные пункты (точки) слов. Другая проблема - "коартикуляция". Смысл ее состоит в том, что воспроизведение каждой фонемы зависит от окружающих фонем, и аналогично, на начало и конец слов воздействуют предшествующие и последующие слова. На распознавание непрерывной речи также воздействует темп речи. Кроме этого размер словаря систем распознавания непрерывной речи должен иметь достаточно значительный объем (десятки и сотни тысяч слов).

Возможное применение состоит  в создании системы автоматической диктовки для оперативного формирования отчетов о проделанной работе, Существующие системы автоматической диктовки позволяют создавать текстовые  файлы в большинстве используемых текстовых редакторов - Word, Word Perfect ,WordPad с достаточно высоким качеством текста. Следует отметить, однако что последнее замечание касается в основном систем англоязычного распознавания, хотя в настоящее время на рынке начали появляться варианты систем для автоматической диктовки русскоязычного текста.

При автоматическом распознавании  речи большие трудности представляют собой процессы обнаружения и  идентификации некоторых групп фонем.

Для распознавания слов в  слитной речи апробированы два различных  подхода. В первом случае при глобальном подходе слово, которое необходимо распознать, сравнивается с каждым словом словаря. При сравнении используется, как правило, спектральное представление  каждого слова. Среди различных  методов данного типа хорошие  результаты дал метод динамического  программирования.

Во втором случае при аналитическом  подходе каждое слово или группа слов сначала сегментируется на меньшие  единицы. Сегментами являются слогоподобные или фонемоподобные единицы. Это позволяет проводить распознавание либо на слоговом, либо на фонемном уровне и одновременно хранить в памяти параметры (длительность, энергию и т.п.), относящиеся к просодии и полезные в дальнейшем. Сегментация может быть основана на нахождении гласных высказывания, которые часто располагаются около максимума интегративной энергии спектра. При таком подходе первым критерием сегментации является изменение энергии во времени. Некоторые согласные, например m, n, l, иногда обладают такой же энергией, как и гласные. Поэтому необходим ввод дополнительных параметров для выяснения наличия гласного звука в каждом ранее определенном сегменте.

Для идентификации согласных, как правило, проводится разделение взрывных и невзрывных согласных. Это  достигается путем обнаружения  паузы (смычки), соответствующей смыканию перед реализацией взрыва. Задача усложняется для позиции начала высказывания, где сравнительно просто определяется смычка только для звонких  взрывных согласных. После обнаружения  смычки определяются изменение спектра  и вид изменения. Для установления каждой категории звуков обычно пользуются упорядоченными правилами, основанными  на информации, зависящей от акустического  и фонетического контекстов. В  слитной речи фонетическая реализация какого-то конкретного высказывания зависит от нескольких факторов, включая  диалект, скорость произнесения речи, манеру произнесения диктора и другие.

Основные признаки распознавания  изолированных слов - иерархическая  многоярусная структура и контроль каждого яруса с помощью соответствующих  грамматик, чьи символы являются расплывчатыми лингвистическими переменными  величинами.

Стратегия распознавания  основана на группировке единиц речи в широкие фонетические классы, за которым следует классификация  на более детальные группы.

При распознавании слитной  речи возникают трудности: распознавание  слитной речи намного сложнее  распознавания отдельно произнесенных  слов, прежде всего, вследствие неявных  границ между словами. В результате трудно определить начало и конец  соответствия между фонемной цепочкой слова из словаря и распознаваемой фонемной цепочкой. Система акустико-фонетического  анализа слитной речи обычно рассматривается  как часть общей системы по автоматическому ее распознаванию.

Предварительная сегментация  и классификация звуковых элементов  включает определение гласно подобных, фрикативно подобных звуков, взрывных согласных, пауз. Задача сегментации, рассматриваемая  как задача деления речевого потока на функционально значимые отрезки, решается по-разному. При разработке систем распознавания речи учитывается  важность первой ступени обработки  акустического сигнала, что связано  с работой акустического процессора. Процесс автоматической сегментации  непрерывно связан с маркировкой  звуковой последовательности. Разработка автоматической сегментации и маркировки вызвана необходимостью привлечения  большой акустико-фонетической базы данных и стремлением к объективизации речевого анализа.

Проблема АРР может  быть решена поэтапно. На первом этапе  задача распознавания заключается  во внешнем удостоверении внутренне  выявленных и только поверхностно охарактеризованных классов акустических событий. Для  второго этапа решающее значение имеет обобщение внешних критериев  классификации внутренне не выявленных классов, что делает возможным предсказуемость  характеристики неизвестного сигнала.

Информация о работе Автоматизированное распознавание речи