Автор работы: Пользователь скрыл имя, 24 Апреля 2012 в 13:37, реферат
Распознавание и порождение (синтез) речи компьютером является, безусловно, важной проблемой. Десятилетиями ученые и инженеры искали способы, которые позволили бы людям общаться с компьютером так же, как они общаются между собой, а не заставляли человека подстраиваться под способ общения, приемлемый для машины. Много было сделано, но, пожалуй, и на сегодняшний день можно считать, что вопрос далеко не закрыт, хотя именно в последнее время были достигнуты значительные успехи: уже многие годы голосовые команды являются одной из возможных опций программного обеспечения персональных компьютеров, появление функций распознавания речи уже обычное дело в ряде текстовых процессоров, системы распознавания речи работают там, где требуется оказание справочных услуг и в системах безопасности.
ОБЗОР СУЩЕСТВУЮЩИХ СИСТЕМ УПРАВЛЕНИЯ РАСПОЗНАВАНИЕМ РЕЧЕВОЙ ИНФОРМАЦИИ И МЕТОДОВ РЕШЕНИЯ
Распознавание и порождение (синтез) речи компьютером является, безусловно, важной проблемой. Десятилетиями ученые и инженеры искали способы, которые позволили бы людям общаться с компьютером так же, как они общаются между собой, а не заставляли человека подстраиваться под способ общения, приемлемый для машины. Много было сделано, но, пожалуй, и на сегодняшний день можно считать, что вопрос далеко не закрыт, хотя именно в последнее время были достигнуты значительные успехи: уже многие годы голосовые команды являются одной из возможных опций программного обеспечения персональных компьютеров, появление функций распознавания речи уже обычное дело в ряде текстовых процессоров, системы распознавания речи работают там, где требуется оказание справочных услуг и в системах безопасности.
Методы цифровой обработки сигналов
обычно осуществляют преобразование,
очистку и трансформацию
Кроме того, системы распознавания и синтеза речи затрагивают вопросы лингвистики, в которой заложены фундаментальные концепции и принципы распознавания речи и понимания языка.
Перечислим два подхода
Применение нейронных сетей для распознавания речи.
Искусственная нейронная
сеть — это математическая модель,
а также устройства параллельных
вычислений, представляющие собой систему
соединённых и
Такие процессоры обычно довольно просты, особенно в сравнении с процессорами, используемыми в персональных компьютерах.
Каждый процессор подобной сети имеет дело только с сигналами, которые он периодически получает, и сигналами, которые он периодически посылает другим процессорам. И тем не менее, будучи соединёнными в достаточно большую сеть с управляемым взаимодействием, такие локально простые процессоры вместе способны выполнять довольно сложные задачи.
Понятие возникло при изучении процессов, протекающих в мозге при мышлении, и при попытке смоделировать эти процессы. Полученные модели называются искусственными нейронными сетями (ИНС).
Рис. 1.1. Схема простой нейросети. Зелёным обозначены входные элементы, жёлтым — выходной элемент
Нейронные сети не программируются в привычном смысле этого слова, они обучаются. Возможность обучения — одно из главных преимуществ нейронных сетей перед традиционными алгоритмами. Технически обучение заключается в нахождении коэффициентов связей между нейронами. В процессе обучения нейронная сеть способна выявлять сложные зависимости между входными данными и выходными, а также выполнять обобщение. Это значит, что, в случае успешного обучения, сеть сможет вернуть верный результат на основании данных, которые отсутствовали в обучающей выборке.
Сложнее обстоит дело с многослойными сетями, так как изначально неизвестны желаемые выходы слоев сети (за исключением последнего) и их невозможно обучить, руководствуясь только величиной ошибок на выходе сети, как это было с однослойной сетью.
Наиболее приемлемым вариантом решения проблемы стала идея распространения сигнала ошибки от выхода сети к ее входу, слой за слоем. Алгоритмы, реализующие обучение сети по этой схеме, получили название алгоритмов обратного распространения. Наиболее распространенный вариант этого алгоритма мы и рассмотрим и в дальнейшем применим в программной реализации задачи.
Алгоритм требует
Применение скрытых Марковских моделей для распознавания речи.
Скрытой Марковской моделью
(СММ) называется модель состоящая из
N состояний, в каждом из которых
некоторая система может
Таким образом, скрытой Марковской моделью называется тройка λ={A,B,π}. Использование скрытых Марковских моделей для распознавания речи основано на двух приближениях:
1) Речь может быть разбита
на фрагменты, соответствующие
состояниям в СММ, параметры
речи в пределах каждого
2) Вероятность каждого
фрагмента зависит только от
текущего состояния системы и
не зависит от предыдущих
Модель называется «скрытой», так как нас, как правило, не интересует конкретная последовательность состояний, в которой пребывает система. Мы либо подаем на вход системы последовательности типа O={o1,o2,…oi} - где каждое oi – значение параметра (одно из M), принимаемое в i-й момент времени, а на выходе ожидаем модель λ={A,B,π}с максимальной вероятностью генерирующую такую последовательность, - либо наоборот подаем на вход параметры модели и генерируем порождаемую ей последовательность. И в том и другом случае система выступает как “черный ящик”, в котором скрыты действительные состояния системы, а связанная с ней модель заслуживает названия скрытой.
Для осуществления распознавания
на основе скрытых моделей Маркова
необходимо построить кодовую книгу,
содержащую множество эталонных
наборов для характерных
Фрагмент речи разбивается
на отрезки, в течении которых
параметры речи можно считать
постоянными. Для каждого отрезка
вычисляются характерные
Рис. 1.2 кодовая книга
На этапе настройки
моделей Маркова мы применяем
алгоритм Баума- Уэлча для имеющегося
словаря и сопоставления
При распознавании мы разбиваем
речь на отрезки, для каждого вычисляем
набор номеров кодовой страницы
и применяем алгоритм прямого
или обратного хода для вычисления
вероятности соответствия данного
звукового фрагмента
Необходимо подобрать
параметры скрытой модели Маркова
так, чтобы максимизировать
Вводятся переменные
ξt(i,j) = P(qt=Si,qt+1=Sj|O,λ)
которые показывают вероятность того, что при заданной последовательности наблюдений O система в моменты времени t и t+1 будет находиться соответственно в состояниях Si и Sj. Используя прямую и обратную переменные запишем:
Введем переменные вероятности того, что при заданной последовательности наблюдений O система в момент времени t будет находиться в состоянии Si:
При этом мы можем вычислить ожидаемое число переходов из состояния Si: равно
а ожидаемое число переходов из состояния Si в состояние Sj
Исходя из этого можно получить формулы для переоценки параметров модели Маркова:
π*i= (i)
Выражение
в формуле для b*ij (k) означает что суммируются только те γt(j) , для которых значение состояния равно k, то есть Ot = k.
После переоценки параметры модели либо выясняется, что она уже была оптимальной до переоценки либо обязательно улучшаются ее параметры (то есть правдоподобность модели после переоценки выше, чем до переоценки во всех случаях, когда модель можно оптимизировать).
Методы распознавания(анализа) речи
Хотя термин «распознавания речи»
встречается в литературе очень
часто, на самом деле он имеет много
различных значений. В этой главе
мы попытаемся рассказать о различных
трактовках этого термина, а также
сделаем небольшой обзор
Как правило, в существующих системах используются два принципиально разных подхода:
· распознавание голосовых меток;
· распознавание лексических элементов
Первый подход предполагает распознавание фрагментов речи по заранее записанному образцу. Этот подход широко используется в относительно простых системах, предназначенных для исполнения заранее записанных речевых команд.
Второй подход сложнее. При его
реализации из потока речи выделяются
отдельные лексические
Все системы распознавания речи можно разделить на два класса:
· системы, зависимые от диктора;
· системы, не зависимые от диктора
К первому классу относятся системы, работа которых не зависит от диктора. Такие системы не требуют предварительного обучения и способны распознавать речь любого диктора.
Системы второго класса настраиваются на речь диктора в процессе обучения. Для работы с другим диктором такие системы требуют полной перенастройки.
Сразу отметим, что создание систем распознавания речи любого класса, пригодных для промышленного применения, представляет собой чрезвычайно сложную задачу. Как правило, разработчики таких систем обладают многолетним опытом в практическом применении речевых технологий.
Прежде всего, мы выделили два подхода
к распознаванию речи. Первый подход
реализует распознавание
Мы также выделили системы распознавания речи, требующие обучения и зависящие от диктора, а также системы, способные работать без предварительного обучения и, следовательно, не зависимые от диктора.
Перед тем как приступить к выделению
из речи лексических элементов, необходимо
выполнить предварительную
В этой главе мы рассмотрели две методики выделения из речи лексических элементов.
Первая методика предполагает использование дискретного преобразования Фурье . Непосредственно лексические элементы выделяются из оцифрованной речи при помощи нейронной сети, способной к обучению. При этом речь представляется в виде некоторого набора числовых параметров, так как нейронные сети работают именно с наборами таких параметров.
Для тех, кто любит формулы, мы привели несколько выражений, использованных для предварительной обработки сигнала, повышающей контрастность спектра, а также для выполнения дискретного преобразования Фурье и нормирования частотного спектра.
Вторая методика выделения лексических
элементов речи, упомянутая в этой
главе, основана на применении вейвлет-преобразований.
В отличие от дискретного преобразования
Фурье, этот метод исключает потерю
информации о временных характеристиках
обрабатываемых сигналов. Мы отметили,
что при использовании вейвлет-