Автор работы: Пользователь скрыл имя, 10 Марта 2013 в 12:50, курсовая работа
Любой поработавший с современным графическим пакетом согласится, что около десятка движений мышью при создании какого-либо эффекта порой можно заменить одним словом. Таким образом, задача состоит в том, чтобы научить компьютер понимать без посредника тот язык, на котором говорят люди между собой, то есть придумать алгоритм распознавания звукового образа. На уровне письменного текста указанная проблема уже частично решена некоторые программы, позволяют вводить через сканер любой напечатанный текст. Однако в данном случае мы имеем дело с уже готовым текстом, а ввод информации в процессе его создания представляет определенную сложность.
Введение 4
1. Понятия и виды систем распознавания речи. 5
1.1 Системы распознавания речи: понятие и виды 5
1.2 История создания и разработки автоматизированных систем распознавания речи 15
2. Применение автоматизированных систем распознавания речи. 19
2.1 Проблемы применения систем распознавания речи 19
2.2 Песпективы использования данных систем в России 26
Заключение 33
Список используемых источников 34
Становление современной компьютерной индустрии проходило под флагом графического интерфейса, альтернативы которому в круге решаемых сегодня компьютерами задач не существует. Развитие автоматизации отдельных секторов промышленности задало направление развитию пользовательского интерфейса, форма которого, утвердившись, в свою очередь оказала свое ограничивающее влияние на основные тенденции автоматизации. Массовые приложения: САПР, офисные и издательские пакеты, СУБД составляют основной объем программной начинки компьютеров, оставляя в их нынешнем виде очень мало места для применения альтернативных моделей пользовательского интерфейса, в том числе и речевого.
Для подачи команд, связанных с позиционированием в пространстве, человек всегда пользовался, и будет пользоваться жестами, то есть, системой «руки - глаза». На этом принципе построен современный графический интерфейс. Часто упускаемая из рассмотрения характеристика этого вида интерфейса – он аналоговый. В отличие от графического интерфейса речь носит дискретный характер и манипулирует дискретными сущностями. Перспектива замены клавиатуры и мыши блоком распознавания речи абсолютно отпадает, а перспектива их совмещения пока достаточно призрачна. При этом выигрыш от возложения на речевой интерфейс даже части функций управления настолько мал, что не смог предоставить достаточных оснований даже для пробного внедрения в массовых компьютерах на протяжении уже более сорока лет при наличии технической возможности. Именно таким сроком оценивается существование коммерчески применимых систем распознавания речи.
Сегодня среди ведущих производителей систем распознавания речи не принято отдавать должное достижениям исследователей прошлых лет. Причина понятна: это не только в значительной степени снизит видимые показатели достигнутого ими прогресса, но и поспособствует возникновению вполне обоснованных сомнений в перспективности осуществляемых подходов вообще.
Для объективной оценки прогресса технологии распознавания речи сравните характеристики систем, реализованных в рамках проекта ARPA к 1976 году и систем, продвигаемых на рынок в настоящее время. Возникает два вопроса.
Почему не нашли достойного применения разработки двадцатилетней давности, и почему за такой продолжительный период не произошло видимого качественного сдвига в характеристиках конкретных систем? Ответ на первый вопрос частично изложен выше: основная проблема в области применения. Можно добавить, что вопреки настойчиво навязываемому сегодня в маркетинговых целях мнению, высокие требования данной технологии к вычислительным ресурсам не являлись основным препятствиям к ее широкому внедрению. Возникновение схожих проблем у разработчиков графических систем привело к созданию и массовому применению графических аппаратных ускорителей, а не отказу от оконного интерфейса. При этом разрабатываемые речевые адаптеры не превосходят по себестоимости графических. Ответ на второй вопрос напрямую связан с первым. Технология, не находящая применения, не может себя прокормить и обеспечить свой рост. Кроме того, вполне возможно, что ориентация большинства исследовательских центров на увеличение распознаваемого словаря является ошибочной как с точки зрения применимости, так и с точки зрения научной перспективности. Еще в 1969 году в своем знаменитом письме редактору журнала Акустического общества Америки Дж. Пиес, сотрудник фирмы Bell Laboratories, указал на отсутствие явного прогресса в то время и возможности такого прогресса технологии распознавания речи в ближайшем будущем в связи с неспособностью компьютеров анализировать синтаксическую, семантическую и прагматическую информацию, содержащуюся в высказывании. Имеющийся барьер может быть преодолен только с развитием систем искусственного интеллекта, направлением, натолкнувшимся в 70- х годах прошлого века на барьер сложности и находящимся в настоящее время в некотором забвении.
Трудно надеяться на дальнейшее улучшение характеристик устройств речевого ввода, учитывая, что уже в 70- х годах их способность распознавать звуки речи превосходила человеческую. Данный факт был подтвержден серией экспериментов по сравнению уверенности распознавания человеком и компьютером слов иностранного языка и бессмысленных цепочек звуков. При отсутствии возможности подключения прагматических (смысловых), семантических и других анализаторов человек явно проигрывает.
Для сравнения: спонтанная речь произносится со средней скоростью 2,5 слов в секунду, профессиональная машинопись–2 слова в секунду, непрофессиональная–0,4. Таким образом, на первый взгляд речевой ввод имеет значительное превосходство по производительности. Однако оценка средней скорости диктовки в реальных условиях снижается до 0,5 – 0,8 слова в секунду в связи с необходимостью четкого произнесения слов при речевом вводе и достаточно высоким процентом ошибок распознавания, нуждающихся в корректировке.
Речевой интерфейс естественен для человека и обеспечивает дополнительное удобство при наборе текстов. Однако даже профессионального диктора может не обрадовать перспектива в течение нескольких часов диктовать малопонятливому и немому компьютеру.
Часто к достоинствам речевого ввода текста относят отсутствие необходимости в предварительном обучении оператора. Однако одно из самых слабых мест современных систем распознавания речи - чувствительность к четкости произношения приводит к потере этого, казалось бы, очевидного преимущества. Печатать на клавиатуре оператор учится в среднем 1 - 2 месяца. Постановка правильного произношения может занять несколько лет. Кроме того, дополнительное напряжение следствие сознательных и подсознательных усилий по достижению более высокой распознаваемости совсем не способствует сохранению нормального режима работы речевого аппарата оператора и значительно увеличивает риск появления специфических заболеваний. Существует и еще одно неприятное ограничение применимости, сознательно не упоминаемое создателями систем речевого ввода. Оператор, взаимодействующий с компьютером через речевой интерфейс, вынужден работать в звукоизолированном отдельном помещении либо пользоваться звукоизолирующим шлемом. Иначе он будет мешать работе своих соседей по офису, которые, в свою очередь, создавая дополнительный шумовой фон, будут значительно затруднять работу речевого распознавателя. Таким образом, речевой интерфейс попадает в
явное несоответствие с современной организационной структурой предприятий, ориентированных на коллективный труд. Ситуация несколько смягчается с развитием удаленных форм трудовой деятельности, однако еще достаточно долго самая естественная для человека производительная и потенциально массовая форма пользовательского интерфейса обречена на суженный круг применения.
Ограничения применимости систем распознавания речи в рамках наиболее популярных традиционных приложений заставляют сделать вывод о необходимости поиска потенциально перспективных для внедрения речевого интерфейса приложений за пределами традиционной офисной сферы, что подтверждается коммерческими успехами узкоспециализированных речевых систем. Самые успешные на сегодня проекты коммерческого применения распознавания речи – системы автоматического речевого взаимодействия, используемые в рамках центров обслуживания телефонных вызовов (Interactive voice response). Интересно, что данные системы не манипулируют распознаванием предложений – их задача найти и распознать отдельные ключевые слова, с учетом которых перенаправить звонок или запустить подпрограмму синтеза речевого сообщения. Вышеприведенный вывод находится в противоречии с устоявшимися, широко распространенными стереотипами и ожиданиями, что не только делает его очевидность скрытой от основной массы разработчиков и пользователей, но и мешает эффективной расстановке приоритетов научных исследований и практических разработок. Несмотря на то, что одним из наиболее перспективных направлений для внедрения систем распознавания речи может стать сфера компьютерных игр, узкоспециализированных реабилитационных программ для инвалидов, телефонных и информационных систем, ведущие разработчики речевого распознавания наращивают усилия по достижению универсализации и увеличению объемов словаря даже в ущерб сокращению процедуры предварительной настройки на диктора. А между тем, именно эти приложения предъявляют очень низкие требования к объему распознаваемого словаря, наряду с жесткими ограничениями, налагаемыми на предварительную настройку.
Говоря о речевом интерфейсе, часто делают упор на распознавание речи, забывая о другой его стороне – речевом синтезе. Заглавную роль в этом перекосе сыграло бурное развитие в последнее время систем, ориентированных на события, в значительной степени подавляющих отношение к компьютеру как активной стороне диалога. Еще относительно недавно (лет тридцать назад) подсистемы распознавания и синтеза речи рассматривались как части единого комплекса речевого интерфейса. Однако интерес к синтезу пропал достаточно быстро. Во-первых, разработчики не встретили даже десятой доли сложностей, с которыми они столкнулись при создании систем распознавания. Во-вторых, в отличие от распознавания, синтез речи не демонстрирует значительных преимуществ перед другими средствами вывода информации из компьютера. Практически вся его ценность заключается в дополнении речевого ввода. Для человека естественным и привычным является именно диалог, а не монолог. Как следствие недооценки необходимости речевого ответа появляется повышенная утомляемость операторов, монотонность речи и ограниченность
применимости речевого интерфейса. Чем может помочь слепому компьютер, оснащенный распознавателем речи, если он лишен устройства обратной не визуальной связи? Широко известен факт непроизвольной подстройки голоса под голос собеседника. Почему не использовать эту способность человека для увеличения безошибочности распознавания речи компьютером за счет корректировки произношения оператора с помощью двустороннего диалога? Кроме того, вполне возможно, что правильно организованный и модулированный синтез может в значительной степени снизить риск появления у оператора заболеваний, связанных с монотонностью речи и дополнительным напряжением.
Повсеместное проникновение графического пользовательского интерфейса было обеспечено за счёт совместного применения графического монитора, средства вывода графической информации, и мыши для ее ввода, а также, не в последнюю очередь, благодаря находкам в области оконного интерфейса фирмы Xerox. Будущее речевого интерфейса в не меньшей степени зависит от умения современных исследователей и разработчиков не только создать технологическую основу речевого ввода, но и гармонично слить технологические находки в единую, логически завершенную систему взаимодействия «человек – компьютер». Основная работа еще впереди.
За последние 2–3 десятилетия было множество публикаций, посвящённых созданию сначала в СССР, а затем и в России систем автоматического распознавания устной русской речи. Однако до сих пор на рынке отсутствует сколько-нибудь коммерчески состоятельный продукт. Почему же после стольких слов обещаний, демоверсий программ и т.д. так и не была реализована давнишняя мечта о создании автомата, реализующего столь естественную функцию, которая отличает человека от остальных живых обитателей планеты Земля, по крайней мере для русской речи.
Обратившись к зарубежной истории создания подобных средств для иностранных языков, становится ясно, что первыми коммерчески успешными продуктами были программы для РС под Windows: Naturally Speaking компании Dragon и ViaVoice компании IBM, которые появились на рынке в конце 90 х годов прошлого столетия. Большую роль в развитие технологий распознавания вносили государственные институты. Так, создание базы данных английского языка (американский вариант) было профинансировано из фондов Министерства обороны США в середине 80х годов по заказу Управления перспективных оборонных проектов (Defense Advanced Research Projects Agency — DARPA). Тогда в США были созданы или начинали создаваться базы, которые у нас создаются только сейчас и без помощи государства (числительных, изолированных слов и слитной речи, в условиях без помех и телефонные). Вся территория США разбита на 21 диалектный район, каждый из которых был представлен 5 дикторами мужчинами и 5 женщинами. В те же годы во Франции создавалась национальная речевая база данных.
Решению проблемы распознавания спонтанной речи был посвящен японский национальный проект: «Spontaneous Speech Corpus and Processing Technology», который действовал в течение пяти лет 1999–2004, с бюджетом приблизительно в $10 млн US. В ходе этого проекта был собран и обработан крупномасштабный корпус спонтанной речи, Corpus of Spontaneous Japanese (CSJ), состоящий приблизительно из 7 млн слов с общим количеством речи 650 часов.
Создание таких баз
данных — это трудоёмкая работа,
рассчитанная на несколько лет и
требующая постоянного
На основе этих разработок созданы современные программы распознавания речи, которые вполне удовлетворительно работают, поддерживая наиболее распространённые в мире языки, к которым относятся: английский с различными версиями и диалектами (например, английский для США, Канады, Австралии и т.п.), испанский, немецкий, французский, китайский и др. В настоящее время права на программы компании Dragon принадлежат американской компании Nuance, которая является сейчас крупнейшим в мире игроком на рынке речевых технологий. Компании IBM, Microsoft продвигают собственные продукты, которые соответствуют современному уровню, но несколько уступают программам диктовки компании Nuance. Программы автоматического распознавания называют преобразователями речь — текст или иногда диктовочными блокнотами. Упомянутые программы работают вполне удовлетворительно: на нормативно правильном языке (имеется в виду носитель языка, без заметных дефектов речи) обеспечивается начальная точность распознавания от 85 до 90% с последующим повышением качества по мере адаптации программы к голосу пользователя (алгоритм адаптации реализован таким образом, чтобы подстройка программы к голосу происходила автоматически, без участия пользователя). К недостаткам существующих систем можно отнести их недостаточную робастность, т.е. недостаточное качество работы в неофисных условиях эксплуатации. До сих пор отмеченные системы нестабильны в условиях высоких окружающих шумов. Алгоритмы распознавания совершенствуются, но пока такие программы работают эффективно только в условиях офиса, с использованием специальных микрофонных гарнитур, обеспечивающих фиксированное расстояние между ртом говорящего и микрофоном, а также в ряде случаев обладающих средствами пассивного шумоподавления или шумоочистки.
Так почему же до сих пор нет подобных программ для русского языка? Существует несколько причин как научных, так и коммерческих. Начнем по порядку. В семидесятые и особенно в восьмидесятые годы в СССР, где основным государственным языком был русский язык, активно велись разработки по речевой тематике многими научными коллективами, которые были сосредоточены в крупных отраслевых НИИ, таких как: НИИ Дальней связи (г. Ленинград), НИИ Автоматики (г. Москва), институт кибернетики (г. Киев) и др.,в крупных вузах: МГУ, ЛГУ, НГУ и т.п. Большинство из речевых проектов было инициировано представителями правоохранительных органов, главным образом КГБ, а также Министерством обороны через уполномоченные органы АН СССР и союзных республик. Множество учёных было занято в этих проектах, которые не реже одного раза в 2 года собирались на научные симпозиумы, которые назывались АРСО (школа автоматического распознавания слуховых образов). Во время своего расцвета, например в 1984 г., в Новосибирском Академгородке собралось около 800 участников, что сравнимо по размерам с современными международными конференциями EUROSPEECH или INTERSPEECH,. К нашему стыду от России было всего несколько человек: не более 5, тогда как представителей, например, США было несколько сотен.