Автор работы: Пользователь скрыл имя, 24 Апреля 2012 в 13:37, реферат
Распознавание и порождение (синтез) речи компьютером является, безусловно, важной проблемой. Десятилетиями ученые и инженеры искали способы, которые позволили бы людям общаться с компьютером так же, как они общаются между собой, а не заставляли человека подстраиваться под способ общения, приемлемый для машины. Много было сделано, но, пожалуй, и на сегодняшний день можно считать, что вопрос далеко не закрыт, хотя именно в последнее время были достигнуты значительные успехи: уже многие годы голосовые команды являются одной из возможных опций программного обеспечения персональных компьютеров, появление функций распознавания речи уже обычное дело в ряде текстовых процессоров, системы распознавания речи работают там, где требуется оказание справочных услуг и в системах безопасности.
Вопросы обработки речи являются, главным образом, частью дисциплин, именуемых цифровой обработкой сигналов и распознаванием образов.
Методы цифровой обработки сигналов
обычно осуществляют преобразование,
очистку и трансформацию
Кроме того, системы распознавания
и синтеза речи затрагивают вопросы
лингвистики,в которой заложены
фундаментальные концепции и
принципы распознавания речи и понимания
языка .Сами системы речевой обработки
сигналов обычно делят на системы
распознавания и системы
Он состоит из этапа преобразования голоса в текст и из этапа автоматической интерпретации семантики (смысла) речи. Распознаванием голоса часто называется также идентификация говорящего по голосу. Такие системы используются, например, в системах безопасности.
Основанием дальнейшей классификации систем речевой обработки сигналов могут являться, например, вид и сложность решаемых задач. Так если при синтезе речи необходимо воспроизводить ограниченное число фраз, их достаточно просто записать и реализовать механизм включения их воспроизведения в нужный момент. Если же число фраз велико или вообще не ограничено, такие методы не приносят результат.
Системы распознавания по сложности обычно делят на следующие группы:
- системы автоматического
- системы автоматического
- системы понимания речи. То
есть системы, которые
Также системы распознавания речи могут быть классифицированы по:
- размеру словаря. Под словарем понимается набор хранимых в системе единиц речи (например, слов, слогов, фонем-звуков);
- качеству распознавания (
- по способу обработки входного сообщения;
- по степени зависимости от диктора.
Размер словаря системы
- системы с очень большим словарем – десятки тысяч слов;
- системы с большим словарем – тысячи слов;
- системы со средним словарем – сотни слов;
- системы с маленьким словарем – до сотни слов.
Качество распознавания на современном уровне, кроме низкого процента ошибки распознавания и надлежащего размера словаря предполагает независимость распознавания от диктора и способность обрабатывать непрерывную речь, то есть возможность пользователям говорить естественно (непрерывно), не делая пауз между словами.
Распознавание речи, зависимое от
диктора подразумевает, что пользователь
должен сначала научить систему
распознавания своему голосу и только
после этого система сможет функционировать.
Независимое от диктора распознавание
речи означает, что система способна
распознать любую речь, независимо
от того, кто говорит. Голосозависимые
системы предназначены для
Распознавание речи происходит так: при
помощи микрофона и оцифровывающего
устройства (например, звуковой карты
компьютера) и машинной обработки
речевой сигнал фиксируется. Затем
цифровой сигнал разбивается на неделимые
интервалы, каковыми могут быть фонемы
(элементарные звуки речи), слоги, слова.
На основе контекста, шаблонов речи, некоторых
акустических признаков слова объединяются
в логические единицы - фразы и
предложения. Затем эти логические
единицы анализируются и
РАСПОЗНАВАНИЕ РЕЧИ МЕТОДОМ ЛОГИЧЕСКОГО ВЫВОДА
Токмаков Геннадий Петрович
ГНПО "Марс"
432022, г. Ульяновск
В последние годы благодаря интенсивным
исследованиям в области
Принцип работы современных систем распознавания речи (СРР) заключается в следующем. Пользователь произносит в микрофон фразы текста или команды для прикладного ПО. Посредством АЦП аналоговый звуковой сигнал преобразуется в цифровые отсчеты с частотой 8-10 кГц, над которыми ЦПС производит обратное преобразование Фурье, так что подученные данные оцифрованной речи раскладываются на частотные составляющие или вектора. Последовательности таких векторов соответствуют фонемам - основным звуковым единицам речи, из которых состоят слова. ПО распознавания речи сравнивает произнесенные фонемы с прототипами из своей библиотеки. Чтобы абстрагироваться от незначительных изменений, таких как модуляция, быстрота произношения и высота тона, большинство систем используют особый алгоритм Маркова, который проверяет предположение о той или иной фонеме по вероятности следования ее за предыдущей в обычной речи,
К сожалению, современные механизмы распознавания речи недостаточно надежны и накладывают довольно серьезные ограничения на произношение фраз на естественном языке (ЕЯ) произвольным диктором. Это обусловлено, на наш взгляд, недостаточным использованием в современных СРР знаний о ЕЯ. В основном усилия разработчиков СРР были сконцентрированы на преодолении проблем, связанных с вариациями физических свойств речевого сигнала (PC), в то время как на характеристики PC существенное влияние оказывают и лингвистические явления.
При объективном анализе PC было обнаружено, что звуки речи, относимые к одной и той же фонеме, настолько варьируют по своим характеристикам в зависимости от контекста и позиции в слове, что невозможно найти четких границ между группами звуков, относимых к разным фонемам, Более того выяснилось, что окружение этого звука имеет существенное значение для восприятия этого звука, Таким образом, приходится признать, что информация о каждой фонеме заключается не только в одном звуке речи, но и в соседних с ним звуках,
Следовательно, в акустическом потоке фонемы не представлены непосредственным образом, и в процессе восприятия речи переход от акустического сигнала к символам фонем осуществляется иным, более сложным образом, чем это предполагалось гипотезой пофонемного распознавания, В связи с этим можно привести интересные данные о восприятии согласных. Оказалось, что шум одного и того же спектра может восприниматься и как «р», и как «г», и как «к» в зависимости от того с какой гласной он предъявляется. Это говорит о том, что человек принимает решение о предыдущей фонеме только после анализа последующего звука, т.е. он должен проанализировать всю морфему, следующую структурную единицу языка по степени сложности. Но из этого следует, что в памяти человека должны содержаться образы всех возможных морфем в виде последовательности фонем,
В свою очередь и морфемы, представленные
фонемными
отпуск |
-от |
отход |
-ат |
опщипить |
-ац |
оттеснить |
-ат’ |
отзыв |
-од |
отгадать |
-яд |
оттепель |
-от’ |
отделить |
-ад' |
Рис.1 |
Таким образом, информация о текущей фонеме содержится не только в самой фонеме, а распределена во всем слове. А это требует существенного пересмотра подходов принятия решений о принадлежности фрагмента ГС той или иной фонеме исключительно на основе физических свойств рассматриваемой фонемы.
Повышению надежности распознавания речи способствует также использование сведений о ритмической структуре (распределение ударений по морфемам) и других просодических характеристиках сообщения. Эта информация могла бы быть использована при распознавании слов, для членения непрерывного потока речи на слова. Например, после восприятия ударной гласной намечается условная граница слов. Кроме того, позиция ударной гласной является важным дифференциальным признаком для распознавания слова.
Таким образом, на сегодняшний день актуальными являются, во-первых использование лингвистической информации, во-вторых, использование таких методов принятия решений, которые с учетом контекста позволяли бы отменять ранее принятые решения. Сочетание таких проблем оптимально решается методами логического вывода, которые предполагают декларативное описание проблем в виде графовых структур, а вычислительный процесс при решении задач сводится к выбору некоторого маршрута в дереве решений.
Для решения поставленных целей предлагается использовать систему морфологического анализа словоформ [l], в которой информация о русском языке (РЯ) представлена на трех уровнях в виде древовидных БД и БЗ, а задача морфологического анализа решается как задача поиска входной последовательности в этих структурах.
В БД Морфемного уровня хранятся морфемы РЯ в виде последовательности фонем, в БД Лексем - основы слов РЯ в виде последовательности морфем и информация о позиции ударной гласной, а в БД Грамматик хранятся окончания слов и соответствующие им грамматические параметры. Таким образом, в описанных БД содержится информация о морфемах, о целых словах и ритмической структуре слова, необходимые для надежного распознавания слов.
Для поиска в этих БД используется процедура поиска называемая бэктрекингом, которая предполагает отмену принятого решения на некотором шаге поиска и возврат к состоянию на момент принятия предыдущего решения и поиск альтернативного решения. Другими словами любое решение, принятое на том или ином этапе, не является окончательным, а должно подтвердиться на следующем более высоком уровне принятия решений, где это решение либо принимается, либо отвергается.
Такой способ принятия решений мог
бы применяться и при
Эти условия выражены в виде правил варьирования звуков в зависимости от контекста. Например:
1. Под ударением, не после согласного, не тред мягким согласным - #α#
2. Под ударением, после твердого, не перед мягким согласным - τα#, τατ ит.д.
Эти правила также можно