Автор работы: Пользователь скрыл имя, 21 Сентября 2012 в 10:18, доклад
Первые попытки разработать программу, способную понимать человеческую речь, были предприняты едва ли не на заре компьютерной эры, в начале пятидесятых. В дальнейшем многие научные центры, в том числе и в нашей стране, брались за решение этой проблемы (фундаментальные исследования теории языка, которые велись в 70-х годах в СССР, легли в основу многих современных продуктов), но первый серьезный прорыв в области речевых технологий удалось сделать только в 1986 году в знаменитом американском Defense Advanced Research Project Agency (DARPA) — Агентстве перспективных исследований Министерства обороны.
ВВЕДЕНИЕ 3
1. История 5
2. Распознавание речи на сегодняшний день 7
3. Алгоритмы распознавания речи 9
4. Способы распознавания речи 13
5. Перспективы 16
ЗАКЛЮЧЕНИЕ 17
Уже сотни крупных компаний используют технологию распознавания голоса в своей продукции или в услугах; в их числе — AOL, FedEx, Honda, Sony, Sprint, T. Rowe Price, United Airlines и Verizo. По оценкам экспертов, рынок голосовой технологии достиг в 2002 году порядка 695 млн. долл., что на 10% выше, чем в 2001 году.
Авиакомпания United Airways внедрила автоматическую справочную службу еще в 1999 году. Автоматические системы обработки телефонных звонков эксплуатируются такими компаниями, как инвестиционный банк Charles Schwab & Со, розничная сеть Sears, сеть супермаркетов Roebuck. Американские операторы беспроводной связи (AT&T Wireless и Sprint PCS) уже больше года используют подобные программы и предоставляют услуги голосового набора. И хотя сейчас лидером по количеству call-центров такого типа является Америка, в последнее время выгоду от систем распознавания речи начали осознавать и в Европе. Например, швейцарская служба железных дорог уже предоставляет своим немецкоязычным пассажирам услуги, аналогичные тем, что предлагает United Airways.
Процесс распознавания речи может быть разделен на две основные фазы: оцифровка и декодирование. На первой фазе входной аудиосигнал записывается и разбивается на фрагменты. На фазе декодирования полученная информация анализируется на основе использования различных моделей и алгоритмов
Алгоритмы декодирования могут опираться на образцы как целых слов, так и отдельных частей слов. Самой малой частью слова является фонема, и любому языку обычно достаточно 40-60 фонем, чтобы описать произношение всех слов.
Наиболее точными с точки зрения распознавания являются модели, основанные на распознавании слов целиком. Однако они могут использоваться лишь в системах со словарями небольшого объема
Модели, основанные на фонемной структуре, являются гораздо более универсальными и в значительной мере решают проблему объема словаря.
В основу предлагаемого подхода, и это является его главной отличительной чертой, положено сложное (иерархическое и многоярусное) представление пространства акустико-фонетических признаков и фонетических единиц, задействованных в процессе распознавания. Ниже в самом общем виде описываются основные этапы процедуры формирования такого представления и способ его использования непосредственно в процессе распознавания.
Первоначально для речевого
сигнала, который будет использоваться
в процессе обучения распознающей системы,
составляется детальная сегментная
транскрипция. Сегменты – аллофоны
фонем – описываются
Составляется словарь системы распознавания речи, при этом каждое слово получает транскрипционное представление. За основу принимается стандартное (полностильное) произнесение, определяемое как исходная транскрипция слова (ИТС). В дальнейшем, в процессе распознавания, каждое слово будет соотноситься с имеющимися в словаре ИТС.
Далее, в рамках разработки
расширенного пространства слова, осуществляется
генерация всех теоретически возможных
вариантов реализации данного слова
- т.н. «аллофонных сетей». При генерации
аллофонных сетей используются фонетические
правила модификации, которые позволяют
для любой русской фонемы в
любом контексте
Как уже говорилось выше,
аллофонные сети, являясь необходимым
элементом фонетического
Иерархическая многоярусная сеть (ИМС), в которую организованы все единицы и мета-единицы, представляет собой односвязное многоярусное дерево. На заданном уровне дерева каждая пара единиц или мета-единиц может быть либо независимой (автономной), либо иерархически связанной с высшим уровнем (иерархической). Такое структурированное представление позволяет установить меру близости для любой заданной пары звуков. На каждом узле ИМС имеется иерархическая весовая функция (ИВФ), описывающая относительную значимость добавления /отрицания данного фонетического признака для распознавания конкретной фонемы в данном слове. Весовые функции первоначально отражают статистическую информацию о влиянии чисто фонетического уровня реализации звуков (выводимую на основе фонетических модификационных правил) и имеют поправки за счет общелингвистических факторов влияния – уровня (фонетического) слова (позиция, контекст и др.), уровня лексикона (частотность слова, омонимия и т.п.), уровня произнесения (темп, стиль). Такая структура признакового описания единиц и мета-единиц позволяет достаточно просто и стандартизовано определять меру сходства между собой различных вариантов аллофонной реализации слова с учетом многих лингвистических и экстралингвистических факторов.
В процессе обучения системы для каждой единицы и мета-единицы, включенной в ИМС, создается шаблон. Для простых единиц такие шаблоны получаются стандартным способом (например, с помощью СММ). Шаблоны для мета-единиц имеют иерархическую структуру и составляются из шаблонов простых единиц, входящих в состав данной мета-единицы. Также существует возможность создания дополнительных шаблонов непосредственно для мета-единиц.
В процессе распознавания происходит сравнение входных данных и имеющихся ИТС. При этом с учетом значений иерархической весовой функции устанавливается мера сходства между найденной текущей реализацией распознаваемого слова и ИМС, построенной по исходной транскрипции сравниваемого слова (ИТС). Чем выше значение меры близости сравниваемых транскрипций с учетом ИВФ, тем более вероятным является распознанный вариант слова.
Выделяют несколько основных способов распознавания речи:
Суть технологии: раздельное произнесение и последующее распознавание слова или словосочетания из небольшого заранее заданного словаря.
Техническая реализация: точность распознавания ограничена объемом заданного словаря. При соблюдении этого условия данная технология позволяет достичь самой высокой достоверности распознавания.
Применение: в настоящее время наиболее ярким примером использования технологии распознавания отдельных команд в коммерческих приложениях является голосовая навигация по сайтам.
Суть технологии: распознавание фраз, соответствующих определенным заданным правилам (грамматике).
Техническая реализация: для задания грамматик используются стандартные XML-языки (VoiceXML), обмен данными между системой распознавания и приложением, как правило, осуществляется по протоколу MRCP.
Применение: технология распознавания по грамматике широко применяется в системах голосового самообслуживания (СГС).
Суть технологии: распознавание отдельных участков речи.
Техническая реализация: в этом случае речь может быть как спонтанной, так и соответствующей определённым правилам. Произнесенная речь не полностью преобразуется в текст - в ней автоматически находятся лишь те участки, которые содержат заданные слова или словосочетания.
Применение: данная технология распознавания часто применяется в поисковых системах, в системах мониторинга речи.
Суть технологии: эта технология наиболее близка к мечте человека о взаимодействии человека и машины – все, что сказано, дословно преобразуется в текст. Поэтому иногда эта технология так и называется STT – speech to text.
Техническая реализация: задача полноценного распознавания слитной речи не решена нигде в мире, однако, достоверность распознавания уже достаточно высока для использования технологии на практике.
Применение: потенциальная сфера применения технологии в коммерческих целях довольно широка.
В зависимости от способов распознавания
применяются различные
1. Обработка речи начинается с оценки качества речевого сигнала. На этом этапе определяется уровень помех и искажений.
2. Результат оценки поступает в модуль акустической адаптации, который управляет модулем расчета параметров речи, необходимых для распознавания.
3. В сигнале выделяются участки, содержащие речь, и происходит оценка параметров речи.
4. Далее параметры речи
А) Акустические модели. При сравнительно небольшом рабочем словаре высокой достоверности распознавания можно достигнуть, лишь сопоставляя входной поток речи с шаблонами отдельных звуков – акустическими моделями. Современная тенденция технологии описания звуковых образов подразумевает комбинирование различных подходов. Так, в «Центре речевых технологий» для описания акустических моделей используют комбинацию классической теории цифровой обработки сигналов и технологии искусственных нейронных сетей. Такие модели наиболее устойчивы к междикторской вариативности, а также к помехам и искажениям, вносимым окружением или каналом передачи.
Б) Языковые модели. С ростом словаря увеличивается количество слов, схожих или даже одинаковых по звучанию. При слитном произнесении акустическая схожесть отдельных фрагментов речи проявляется настолько, что часто и человек, прослушивая запись вне контекста, не может в точности распознать то, что было произнесено. Поэтому значительную роль в распознавании речи играют так называемые языковые модели. Они позволяют определить наиболее вероятные словные последовательности. Сложность построения языковой модели во многом зависит от конкретного языка. Так, для английского языка, достаточно использовать статистические модели (так называемые N-граммы). Для высокофлективных языков (языков, в которых существует много форм одного и того же слова), к которым относится и русский, языковые модели, построенные только с использованием статистики, уже не дают такого эффекта – слишком много нужно данных, чтобы достоверно оценить статистические связи между словами. Задача осложняется тем, что в русском языке допустим произвольный порядок слов («мама мыла раму» - «раму мыла мама»). Поэтому в «Центре речевых технологий» используются гибридные языковые модели, использующие правила русского языка, информацию о части речи и форме слова и классическую статистическую модель.
В) При распознавании на большом словаре также используется модуль определения темы разговора. Это позволяет в зависимости от тематики речи автоматически менять словарь и языковые модели. Модуль определения темы разговора разработан с использованием теории data mining. По сути этот компонент – зачатки системы искусственного интеллекта, которая в будущем все чаще будет использоваться совместно с модулем распознавания, делая процесс преобразования речи в текст более осмысленным.