Распознавание речи компьтером

Автор работы: Пользователь скрыл имя, 21 Сентября 2012 в 10:18, доклад

Описание

Первые попытки разработать программу, способную понимать человеческую речь, были предприняты едва ли не на заре компьютерной эры, в начале пятидесятых. В дальнейшем многие научные центры, в том числе и в нашей стране, брались за решение этой проблемы (фундаментальные исследования теории языка, которые велись в 70-х годах в СССР, легли в основу многих современных продуктов), но первый серьезный прорыв в области речевых технологий удалось сделать только в 1986 году в знаменитом американском Defense Advanced Research Project Agency (DARPA) — Агентстве перспективных исследований Министерства обороны.

Содержание

ВВЕДЕНИЕ 3
1. История 5
2. Распознавание речи на сегодняшний день 7
3. Алгоритмы распознавания речи 9
4. Способы распознавания речи 13
5. Перспективы 16
ЗАКЛЮЧЕНИЕ 17

Работа состоит из  1 файл

Распознавание речи доклад.docx

— 226.31 Кб (Скачать документ)

Обеспечение высокого качества распознавания

Качество распознавания зависит  от двух факторов – структуры каркаса системы распознавания речи (набора программных модулей и алгоритмов, использующихся при распознавании) и качества моделей – акустических, языковых, тематических.

Все модели обучаются с использованием большого объема материала. Так, для  акустических моделей используются сотни часов записей речи тысяч  дикторов. Для повышения устойчивости распознавания к помехам и  искажениям, при обучении используются записи в различных каналах и  различных условиях. Для обучения языковых моделей и моделей тематик  используются текстовые корпуса  объемом от сотен миллионов словоформ  до нескольких миллиардов. Подготовка такого объема обучающего материала  – это сложная и кропотливая  работа. «Центр речевых технологий»  в течение нескольких десятилетий  накапливал обучающий материал и  на данный момент обладает уникальный по своим объемам, разнообразию и качеству набором записей и текстов, способных обеспечить высочайшее качество распознавания речи.

 

  1. Перспективы

 

Возможности голосового управления открывают перед пользователями огромные перспективы. Если учесть, что сегодня во многих офисах компьютер управляет принтером, модемом, факсом, а с появлением DVD стало возможно подключать к домашнему компьютеру аудиоцентры и домашние кинотеатры, то можно себе представить следующую картину из нашего недалекого будущего. Вы сидите на мягком диване и говорите; «Телевизор», потом — «МузТВ» — включается цепочка «микрофон — звуковая карта — компьютер — телевизор», и вы видите на экране телевизора свой   любимый клип. Или вы произносите; «Отправить факс», «номер...», диктуете текст сообщения, потом — «Готово», и через несколько секунд услышите в ответ: «Факс отправлен». И все это вполне реально и осуществимо. Теперь добавьте к этому возможность голосовой навигации по Интернету, распознавание голоса, записанного на любой аудионоситель или в звуковой файл. В общем, пора уже наконец задуматься о приобретении системы распознавания звучащей речи, ведь не за горами тот день, когда вам надо будет только произнести слово! 

      Как пожаловался  недавно один бывший британский  чиновник, самым горьким напоминанием  о расставании с должностью  служит тот факт, что машина  не трогается с места, когда  он беззаботно плюхается на  заднее сидение. 

      По мнению  самых оптимистичных специалистов  по автотранспортным технологиям,  неприятности такого рода могут  через некоторое время сойти  на нет. Пройдет десяток - другой лет, и автомобилисты 21-го века будут с уютом располагаться на задних сидениях машин и небрежно отдавать приказ: "Домой!".

      Многие  технологии, позволяющие автомобилю  управлять своим движением, появляются  уже сейчас. Системы спутниковой  навигации уже присутствуют на  рынке. Средства избежания столкновений, с компьютерным управлением мотором, тормозами и рулевой частью, скоро увидят свет.

 

ЗАКЛЮЧЕНИЕ

 

За кажущейся несерьезностью диалога с компьютером скрывается не только очень большая работа ученых многих специальностей - лингвистов, логиков, математиков, программистов, но и значительность решаемой задачи. Ведь проблема распознавания  речи чрезвычайно серьезна, играет огромную роль в общении человека с машиной.

Речевое, столь привычное, естественное для человека управление объектами открыло бы широкие  перспективы перед автоматизацией производства; раздвинуло бы границы  возможностей общения с машинами, особенно пользователей персональных компьютеров, не знающих языков программирования. Речевой контакт облегчает ввод данных в машину, помогает работать человеку и компьютеру в реальном масштабе времени: человек сказал - машина сделала.

Чтобы машина научилась понимать человеческий язык, отвечать на вопросы, исследователи затрачивают много  сил и времени, начиняя ее гигантской информацией даже для того, чтобы  распознавать отдельные звуки.

У каждого звука сложная  волновая структура, включающая различные  частоты и колебания, к тому же, естественно, одно и то же слово разные люди произносят по-своему: разный тембр  голоса (звуковая окраска), разные интонации, разная чистота произношения. Сколько  людей, столько и голосов. Голос - индивидуальный признак личности, такой, как почерк и отпечатки пальцев.

Чтобы научить машину узнавать речь, ее заставляют прослушивать слова, произнесенные и одним человеком, и разными людьми. Задача машины - прослушав, усреднить особенности  произношения, свести на нет индивидуальность, чтобы потом, услышав слово, не ошибиться.

Компьютеру не понятен  ни один живой язык. Даже такая фраза: «Компьютер, слушай мою команду» - сложна для машины. Машина негибка, неповоротлива в восприятии слов. Для нее недоступно образное мышление: только сухая логичность, только строгая однозначность, только неумолимая точность - никакой свободы, никаких полутонов, никакой иносказательности. Еще несовершенны системы распознавания и синтеза речи.

Разными способами действуют  ученые, разные педагогические приемы применяют они к своим металлическим  ученикам. Ныне считают, что система, предназначенная вести диалог с  человеком, должна обладать знаниями языка, описанными в модели языка, знаниями об окружающем мире - их представляет модель окружающего мира, система должна знать и собеседника, то есть иметь  модель пользователя. Системе нужны  сведения о ней самой - значит, необходима модель системы.

Этим сложным требованиям  способна ответить машина, работающая по программам искусственного интеллекта и, как мы уже знаем, понимающая обращение  к ней, например, на языке деловой  прозы.

Деловая проза, выделившись  из живого языка, действует в строго определенной сфере, так что модель действительности уже заложена в  самой деловой прозе. К тому же она упрощена, уточнена, обладает четкостью  каждого сообщения - например, предписание, которое нужно выполнить, или  запрос, на который нужно ответить.

Машина, распознающая речь, сама остается немой: она не говорит, а пишет ответы. Устраивает ли это пользователя? Да, безусловно, и все-таки общение с компьютером в полном смысле слова - это диалог. Тем более что в создании определенного звука не обязательно участие голосовых связок, звук можно искусственно синтезировать, научить говорить машину. Отвечать на вопросы голосом учат машину давно.

Также можно использовать компьютер в редактировании текстов, в совершенствовании обучающих машин.

Есть, например, электронный  синтезатор речи, который в паре с машиной используя заложенные в ней знания, способен не только за доли секунды дать ответ на самый  каверзный вопрос, но и читать лекции.

Уже становится привычным, что  компьютер разговаривает, его металлический  голос, имитируя человеческую речь, о  чем-то сообщает. Системы, синтезирующие речь, теперь входят в состав телефонной службы, и телефонным собеседником бывает не человек, а машина. Выпускают автомобили, говорящие водителю о расходе бензина, утечке масла, перегреве двигателя и других неполадках. Разработана система, способная читать вслух. Она сначала преобразует буквы в цифровые сигналы, анализирует их, а потом синтезирует слова. В системе запрограммировано 2500 правил произношения, чтобы читать с выражением, делать паузы, то есть свести к минимуму машинность речи.

При совместной работе человека с машиной в речевом контакте человек сможет направлять работу машины, подбрасывая ей новые идеи походу работы, а машина, вероятно, сумеет пожаловаться, если надо, на возникшее у нее трудности и объяснит человеку характер препятствий, встретившихся при решении той или иной задачи.

Преимущества тесного  контакта человека и машины неоспоримы Намного бы упростилась работа специалистов по машинному переводу. Не нужны были бы кодировщики, переводящие текст в цифровой вид. Читай перед микрофоном фразы - машина все понимает.


Информация о работе Распознавание речи компьтером