Автор работы: Пользователь скрыл имя, 10 Марта 2013 в 12:50, курсовая работа
Любой поработавший с современным графическим пакетом согласится, что около десятка движений мышью при создании какого-либо эффекта порой можно заменить одним словом. Таким образом, задача состоит в том, чтобы научить компьютер понимать без посредника тот язык, на котором говорят люди между собой, то есть придумать алгоритм распознавания звукового образа. На уровне письменного текста указанная проблема уже частично решена некоторые программы, позволяют вводить через сканер любой напечатанный текст. Однако в данном случае мы имеем дело с уже готовым текстом, а ввод информации в процессе его создания представляет определенную сложность.
Введение 4
1. Понятия и виды систем распознавания речи. 5
1.1 Системы распознавания речи: понятие и виды 5
1.2 История создания и разработки автоматизированных систем распознавания речи 15
2. Применение автоматизированных систем распознавания речи. 19
2.1 Проблемы применения систем распознавания речи 19
2.2 Песпективы использования данных систем в России 26
Заключение 33
Список используемых источников 34
Спудьева М.Н. «Информационные технологии в ДОУ и архивном деле».
РОСЖЕЛДОР
Федеральное государственное бюджетное
образовательное учреждение
высшего профессионального
«Ростовский государственный университет путей сообщения»
(ФГБОУ ВПО РГУПС)
КУРСОВАЯ РАБОТА
По дисциплине: «Информационные технологии в ДОУ и архивном деле»
На тему: «Автоматизированное распознавание речи»
Выполнил:
Проверил:
Ростов-на-Дону
2012
Содержание
Введение 4
1. Понятия и виды систем распознавания речи. 5
1.1 Системы распознавания речи: понятие и виды 5
1.2 История
создания и разработки
2. Применение автоматизированных систем распознавания речи. 19
2.1 Проблемы применения систем распознавания речи 19
2.2 Песпективы использования данных систем в России 26
Заключение 33
Список используемых источников 34
В современных компьютерных системах все больше внимания уделяется построению интерфейса естественного ввода-вывода информации. Одним из перспективных направлений на сегодняшний день является использование систем речевого диалога, которая предполагает автоматический синтез и распознавание речи. Этим и обусловлена актуальность данной темы.
Автоматизированное
Ввод данных всегда требовал значительных затрат времени и сил, а стремление свести эти затраты к минимуму заставляет постоянно работать над способами перевода знаковой системы, которой пользуется человек, на тот язык, который понятен машине.
Перфокарты, а потом клавиатура не до конца решили эту проблему, так как эти способы передачи информации не являются естественными для человека, а потому они неэффективны, неэкономичны и, кроме того, требуют длительного освоения. При современных масштабах распространения ПК работать с ними приходится не только специалистам, владеющим быстрым набором с клавиатуры, но и малоподготовленным пользователям, для которых ввод информации выливается в отдельную проблему.
Любой поработавший с современным
графическим пакетом
В данной курсовой работе подробно изложены виды систем распознавания речи, а также методология таких систем. Особое внимание уделено перспективам использования и применению систем в настоящее время в России.
Распознавание речи — процесс преобразования речевого сигнала в цифровую информацию (напр., текстовые данные). Обратной задачей является синтез речи.
Автоматическое речевое распознавание - процесс, которым компьютер отображает акустический речевой сигнал в виде текста или соответствующих команд, управляющих вычислительным процессом. Более сложным понятием является автоматическое понимание речи, которое включает в себя автоматическое распознавание и семантический анализ распознанного текста. Системы распознавания речи можно разделить, классифицировать по ряду признаков, в том числе:
- по зависимости от диктора,
- по объему словаря,
- по характеру распознаваемого речевого потока.
Рассмотрим эти характеристики.
Диктор - зависимые системы разрабатываются для одиночного пользователя. Эти системы обычно проще по структуре, дешевле, однако не обладают достаточной гибкостью и возможностью адаптации к группе дикторов либо к работе с неизвестным диктором.
Диктор - независимые системы разрабатываются, чтобы эксплуатировать с любым диктором специфического типа. Эти системы наиболее трудно развиваются, являются наиболее дорогим и обеспечивают точность распознавания ниже чем диктор-зависимые системы. Однако, они более гибки и удобны в использовании.
Системы с адаптацией под
диктора позволяют производить
настройку под конкретного
Размер словаря речевой
системы распознавания
Размер словаря определяется конкретными требованиями соответствующей прикладной системы. Некоторые прикладные программы только требуют нескольких слов (например только числа ), другие требуют очень больших словарей (например системы автоматической диктовки текста).
Обычно рассматриваются следующие градации объема словарей:
- Маленький словарь - десятки слов
- Средний словарь - сотни слов
- Большой словарь - тысячи слов
- Очень большой словарь - десятки тысяч слов.
По характеру речевого потока системы распознавания речи делятся на системы распознавания изолированных слов и непрерывной речи.
Системы распознавания изолированных слов ориентированы на распознавание одиночных слов с одновременным требование паузы между высказыванием каждого слова. Это - самая простая форма распознавания, потому что здесь проще найти конечные и начальные точки слова и при этом произношение соседних слов не влияет друг на друга, что обеспечивает достаточно высокое качество распознавания.
Системы распознавания одиночных команд должны обеспечивать достаточно высокую надежность (95%-97%) правильного распознавания для группы дикторов до 5-7 человек, а также иметь возможность подстройки системы при наличии ошибок распознавания.
Система распознавания одиночных команд должна отвечать требованиям быстроты реакции, обеспечивающей минимальную задержку выдачи ответа после произнесения слова. Системы распознавания непрерывной (слитной) речи функционирует с речью, в которой слова соединены вместе, то есть не отделяемый к паузам. Непрерывная речь более трудно обрабатывается из-за ряда эффектов. Сначала, трудно найти начало и конечные пункты (точки) слов. Другая проблема - "коартикуляция". Смысл ее состоит в том, что воспроизведение каждой фонемы зависит от окружающих фонем, и аналогично, на начало и конец слов воздействуют предшествующие и последующие слова. На распознавание непрерывной речи также воздействует темп речи. Кроме этого размер словаря систем распознавания непрерывной речи должен иметь достаточно значительный объем (десятки и сотни тысяч слов).
Возможное применение состоит
в создании системы автоматической
диктовки для оперативного формирования
отчетов о проделанной работе,
Существующие системы автоматической
диктовки позволяют создавать текстовые
файлы в большинстве
При автоматическом распознавании речи большие трудности представляют собой процессы обнаружения и идентификации некоторых групп фонем.
Для распознавания слов в слитной речи апробированы два различных подхода. В первом случае при глобальном подходе слово, которое необходимо распознать, сравнивается с каждым словом словаря. При сравнении используется, как правило, спектральное представление каждого слова. Среди различных методов данного типа хорошие результаты дал метод динамического программирования.
Во втором случае при аналитическом подходе каждое слово или группа слов сначала сегментируется на меньшие единицы. Сегментами являются слогоподобные или фонемоподобные единицы. Это позволяет проводить распознавание либо на слоговом, либо на фонемном уровне и одновременно хранить в памяти параметры (длительность, энергию и т.п.), относящиеся к просодии и полезные в дальнейшем. Сегментация может быть основана на нахождении гласных высказывания, которые часто располагаются около максимума интегративной энергии спектра. При таком подходе первым критерием сегментации является изменение энергии во времени. Некоторые согласные, например m, n, l, иногда обладают такой же энергией, как и гласные. Поэтому необходим ввод дополнительных параметров для выяснения наличия гласного звука в каждом ранее определенном сегменте.
Для идентификации согласных, как правило, проводится разделение взрывных и невзрывных согласных. Это достигается путем обнаружения паузы (смычки), соответствующей смыканию перед реализацией взрыва. Задача усложняется для позиции начала высказывания, где сравнительно просто определяется смычка только для звонких взрывных согласных. После обнаружения смычки определяются изменение спектра и вид изменения. Для установления каждой категории звуков обычно пользуются упорядоченными правилами, основанными на информации, зависящей от акустического и фонетического контекстов. В слитной речи фонетическая реализация какого-то конкретного высказывания зависит от нескольких факторов, включая диалект, скорость произнесения речи, манеру произнесения диктора и другие.
Основные признаки распознавания
изолированных слов - иерархическая
многоярусная структура и контроль
каждого яруса с помощью
Стратегия распознавания основана на группировке единиц речи в широкие фонетические классы, за которым следует классификация на более детальные группы.
При распознавании слитной
речи возникают трудности: распознавание
слитной речи намного сложнее
распознавания отдельно произнесенных
слов, прежде всего, вследствие неявных
границ между словами. В результате
трудно определить начало и конец
соответствия между фонемной цепочкой
слова из словаря и распознаваемой
фонемной цепочкой. Система акустико-
Предварительная сегментация
и классификация звуковых элементов
включает определение гласно подобных,
фрикативно подобных звуков, взрывных
согласных, пауз. Задача сегментации, рассматриваемая
как задача деления речевого потока
на функционально значимые отрезки,
решается по-разному. При разработке
систем распознавания речи учитывается
важность первой ступени обработки
акустического сигнала, что связано
с работой акустического
Проблема АРР может
быть решена поэтапно. На первом этапе
задача распознавания заключается
во внешнем удостоверении