Автоматизированное распознавание речи

Автор работы: Пользователь скрыл имя, 10 Марта 2013 в 12:50, курсовая работа

Описание

Любой поработавший с современным графическим пакетом согласится, что около десятка движений мышью при создании какого-либо эффекта порой можно заменить одним словом. Таким образом, задача состоит в том, чтобы научить компьютер понимать без посредника тот язык, на котором говорят люди между собой, то есть придумать алгоритм распознавания звукового образа. На уровне письменного текста указанная проблема уже частично решена некоторые программы, позволяют вводить через сканер любой напечатанный текст. Однако в данном случае мы имеем дело с уже готовым текстом, а ввод информации в процессе его создания представляет определенную сложность.

Содержание

Введение 4
1. Понятия и виды систем распознавания речи. 5
1.1 Системы распознавания речи: понятие и виды 5
1.2 История создания и разработки автоматизированных систем распознавания речи 15
2. Применение автоматизированных систем распознавания речи. 19
2.1 Проблемы применения систем распознавания речи 19
2.2 Песпективы использования данных систем в России 26
Заключение 33
Список используемых источников 34

Работа состоит из  1 файл

итвдоу кр гд-4-001 Aword.docx

— 73.96 Кб (Скачать документ)

Результаты исследований советских времен соответствовали  мировому уровню, но носили научно прикладной характер, не ставящий перед собой  цели успешного коммерческого использования  этих результатов. Шло соревнование нескольких научных школ: ленинградская, новосибирская, грузинская, белорусская, украинская и др.: как на научном поприще, так и, особенно в последние годы этого ренессанса, в области создания макетных образцов систем покомандного распознавания речи. Надо сказать, это соперничество дало свои плоды: были разработаны такие устройства, как «Марс» в Минске (школа Лобанова), «Барс» в Ленинграде (школа Галунова) и др. Эти устройства были вполне конкурентоспособными, но только не в СССР, где о рыночной экономике не могло быть и речи. Экспериментальная научная база советских учёных тех времён значительно отставала от уровня зарубежных коллег (это касалось и компьютерной базы), также отставала и элементная база, которую производила в те времена электронная промышленность СССР. Также в те времена только начиналось освоение тех научных методов, на основе которых и создаются современные системы автоматического распознавания речи. Здесь имеются в виду статистические методы построения акустических моделей, основанные на аппарате скрытых марковских моделей. Тот уровень компьютерной техники не позволял практическое использование подобных способов, по крайней мере в СССР, ввиду огромных вычислительных затрат, требуемых для полноценного обучение статистических моделей на больших корпусах речи того или иного языка.

Кроме отмеченных исторических причин, замедливших развитие науки  в России, на отставание в области  распознавания речи повлияли объективные  трудности, связанные со спецификой славянских, а особенно русского языка. В области акустики наибольшую проблему для распознавания русской речи представляет необычайно сильная количественная и качественная редукция гласных  безударных слогов, частично обусловленная  свободным характером словесного ударения. Вкупе с низкой артикуляторной напряженностью это приводит к нейтрализации  и «размазыванию» акустических свойств  сегментов, особенно в спонтанной разговорной  речи. С точки зрения грамматики и синтаксиса русский язык относится к синтетическим языкам со свободным порядком слов и богатой словоизменительной парадигмой, что существенно затрудняет языковое моделирование на основе «классической» программной модели, поскольку требует использования чрезвычайно больших речевых корпусов для получения приемлемого числа реализаций всех входящих в словарь словоформ. После исчезновения СССР и выхода из его состава союзных республик научное сообщество, вовлечённое в эту проблематику, было разъединено, а та «эйфория свободы», которой были преисполнены учёные и специалисты уже бывших союзных республик, многократно ускорила этот процесс всеобщего размежевания. Кроме того, в процессе либерализации, проводимой руководством России, фактически мгновенно поднялся «железный занавес», через который многие ведущие учёные и специалисты уехали вместе со своими наработками в ведущие исследовательские центры: США, Бельгии, Израиля, Австралии и т.д., способствуя тем самым значительному усилению позиций зарубежных конкурентов. В результате, в том числе и этих факторов, названные ранее компании (и не только), продвинулись в разработке своих продуктов и технологий в области распознавания речи.

Многие из перечисленных  научных школ так и не оправились от утечки ведущих специалистов и  всех прелестей либерализации российской экономики начала 90 х, но часть из них выжила вопреки тем безумным условиям существования научно технических  коллективов, но благодаря рыночным механизмам, которые были запущены в те времена. Имеется в виду, что  в 90 е годы стало возможным основать и развивать эффективно работающие частные компании, в том числе  и в сфере высоких технологий.

В конце 90 х годов недобрую службу в доверии частных лиц  и, к сожалению, многих уважаемых  государственных учреждений, таких  как, например, МЧС, к речевым технологиям  сыграл продукт под названием  «Горыныч», который был выпущен на рынок компанией White. Программисты названной компании, взяв в качестве основы известную в то время на рынке программу распознавания Naturally Speaking компании Dragon, приспособленную для работы на английском языке, просто-напросто локализовали её на русский язык, ничего не меняя в так называемом «движке» (ядро системы распознавания, которое настроено на определённый язык). Пользователям предлагалось использовать программу «Горыныч» (остроумный синоним Dragon, собственно подчёркивающий её ориентированность на русский язык) для банального распознавания русскоязычных команд.

Сегодня имеется несколько  российских и зарубежных компаний, которые приблизились к созданию коммерчески выгодных и практически  полезных систем распознавания устной русской речи. Данные о состоянии системы распознавания речи в одной из них: Центр речевых технологий (ЦРТ), основной офис разработок, которой находится в Санкт-Петербурге.

Специалисты ЦРТ разработали  алгоритмы обучения акустических моделей  фонем русского языка. Процесс обучения был выполнен на корпусах русской  речи, собранных и имеющихся в  распоряжении ЦРТ. Они представляют собой спектральные и динамические характеристики звуков речи, зависящие от соседних звуков. Многообразие сочетаний звуков в речи приводит к тому, что количество таких моделей может достигать нескольких тысяч. Набор моделей, использующихся в ЦРТ, может достигать 6 тысяч, причём количество их будет расти с ростом обучающей базы данных. Теперь, для того чтобы создать эталон распознаваемой команды, достаточно ввести её в текстовом виде с клавиатуры. На основе нескольких миллионов словоформ, полученных в результате обработки текстов в русском сегменте Интернета, была создана языковая модель русской речи. Декодер, работающий с ограниченным словарём, создан в и успешно применяется в задачах поиска «ключевых слов» в потоке речи. Как было отмечено выше, существеннной проблемой при практическом использовании систем распознавания речи является их низкая помехоустойчивость. В современных системах борьба с помехами ведётся на каждом этапе обработки речевого сигнала: используются направленные микрофоны, методы адаптивного подавления помех, адаптация акустических моделей к шумам

В настоящее время достигнуты значительные успехи по повышению помехоустойчивости распознавания для ограниченного  класса стационарных помех (шум машины, шум улицы, шум самолёта и др.). Нерешённой проблемой остаётся распознавание  в условиях нестационарных речеподобных помех. Даже при малом уровне таких  помех качество распознавания речи существенно снижается.

 

 

 

 

 

 

Заключение

 

В данной курсовой работе рассмотрены  основные понятия и виды автоматизированных систем распознавания речи, а также перспективы развития таких систем в России и проблемы их применения.

В результате проведенного анализа, можно сделать вывод  о том, что совершенствование  автоматизированных систем распознавания  речи является перспективным направлением научных исследований и программных  разработок. Такие системы значительно  упрощают работу, а также достаточно снижают затраты времени и  сил. К тому же они могут применяться в различных отраслях деятельности, будь то медицинские и образовательные учреждения, а также государственные структуры.

Особое внимание необходимо уделить перспективам создания и  внедрения продуктов и программ, которые занимаются распознаванием русской речи. В России этот вопрос занимает немаловажное место. Таким образом, автоматизированные системы распознавания речи нуждаются в совершенствовании и дальнейшем внедрении в различные сферы человеческой деятельности.

 

 

 

 

Список используемых источников 

 

 

  1. Дьяконов В., Абраменкова И. MATLAB. Обработка сигналов и изображений: справочник. – СПБ., Питер, 2002.
  2. Секунов Н.Ю. Обработка звука на РС. – СПБ., БХВ – Петербург, 2001.
  3. Фролов А.В., Фролов Г.В., Синтез и распознавание речи. Современные решения.
  4. Чекмарев А.В., Автоматическое распознавание речи – проблемы применимости., журнал «Приборы, методы и технологии», №3,2009.
  5. Бабин Д.Н., Мазуренко И.Л., Холоденко А.Б., «О перспективах создания системы автоматического распознавания речи слитной устной русской речи».
  6. Прохоров А., Системы автоматического распознавания речи., журнал «Компьютер-пресс»., №7,2003.

 

 

 

 

 

 


Информация о работе Автоматизированное распознавание речи