Голосовой интерфейс

Автор работы: Пользователь скрыл имя, 07 Июня 2012 в 12:08, курсовая работа

Описание

Под речевыми технологиями в компьютерном мире подразумевают целый конгломерат программных и аппаратных средств, позволяющих осуществлять прежде всего синтез и распознавание человеческой речи, а также разрабатывать средства, позволяющие создавать системы обработки речи. Создание и разработка речевого интерфейса на сегодняшний момент времени является одной из самых сложных и противоречивых задач

Работа состоит из  1 файл

Курсовая_Сазонов_голосовой_интерфейс.doc

— 169.50 Кб (Скачать документ)

     Поэтому пока удел речевого интерфейса - всего лишь дублирование голосом команд, которые могут быть введены с клавиатуры или при помощи мыши. А здесь его преимущества весьма  сомнительны. Впрочем, есть одна область, которая для многих может оказаться очень привлекательной. Это речевой ввод текстов в компьютер. Действительно, чем стучать по клавиатуре, гораздо удобнее продиктовать все компьютеру, чтобы он записал услышанное в текстовый файл. Здесь вовсе не требуется, чтобы компьютер «осмысливал» услышанное, а задача перевода речи в текст более или менее решена. Недаром большинство выпускаемых ныне программ «речевого интерфейса» ориентированы именно на ввод речи.  
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

     1.2. Ввод речевых сообщений 

     Традиционно процесс распознавания речи подразделяется на несколько этапов. На первом - производится дискретизация непрерывного речевого сигнала, преобразованного в электрическую форму. Обычно частота дискретизации составляет 10-11 кГц, разрядность- 8 бит, что считается оптимальным для работы со словарями небольшого объема (10-1000 слов) и соответствует качеству передачи речи телефонного канала (ЗГц- 3.4кГц). понятно что увеличение объема активного словаря должно сопровождаться повышением частоты оцифровки н в некоторых случаях - поднятием разрядности.

     На  втором этапе дискретный речевой  сигнал подвергается очистке от шумов  и преобразуется в более компактную форму. Сжатие производится посредством вычисления через каждые 10 мс некоторого набора числовых параметров (обычно не более  16) с минимальными потерями информации, описывающей данный речевой сигнал. Состав набора зависит от особенностей  реализации системы. Начиная с 70-х годов наиболее популярным методом (практически стандартом) построения сжатого параметрического описания стало линейно - предикативное кодирование (ЛПК), в основе которого лежит достаточно совершенная линейная модель голосового тракта. На втором месте по популярности находится, вероятно, спектральное описание, полученное с  помощью дискретного преобразования Фурье.

     Очень хорошие результаты, однако, могут быть достигнуты и при использовании других методов, часто менее требовательных к вычислительным ресурсам, например клипирования. В этом случае регистрируется количество изменений знака амплитуды речевого сигнала и временные интервалы между ними. Получаемая в результате последовательность значений, представляющих собой оценку длительностей периодов сохранения знака амплитудой, несмотря на кажущуюся примитивность метода, достаточно полно представляет различия между произносимыми звуками. На таком методе предобработки основана, в частности, система распознавания речи, разработанная в конце 80-х в НИИ счетного машиностроения (Москва).

     Временной (10 мс) интервал вычисления был определен  и обоснован экспериментально еще на заре развития технологии автоматического распознавания речи. На этом интервале дискретный случайный процесс, представляющий оцифрованный речевой сигнал считается стационарным, то есть на таком временном интервале параметры голосового тракта значительно не изменяются.

     Следующий этап- распознавание. Хранимые в памяти компьютера эталоны произношения по очереди сравниваются с текущим участком последовательности десяти миллисекундных векторов, описывающих входной речевой сигнал. В зависимости от степени совпадения выбирается лучший вариант и формируется гипотеза о содержании высказывания. Здесь мы сталкиваемся с очень существенной проблемой - необходимостью нормализации сигнала по времени. Темп речи, длительность произношения отдельных слов и звуков даже для одного диктора варьируется в очень широких пределах. Таким образом, возможны значительные расхождения между отдельными участками хранимого эталона и теоретически совпадающим с ним входным сигналом за счет их временного рассогласования. Достаточно эффективно решать данную проблему позволяет разработанный в 70-х годах алгоритм динамического программирования и его разновидности (алгоритм Витерби). Особенностью таких алгоритмов является возможность динамического сжатия и растяжения сигнала по временной оси непосредственно в процессе сравнения с эталоном. С начала 80-х все более широкое применение находят Марковские модели, позволяющие на основе многоуровневого вероятностного подхода к описанию сигнала производить временную нормализацию и прогнозирование продолжений, что ускоряет процесс перебора эталонов и повышает надежность распознавания.  

     В основе действия любых систем ввода  речевых сообщений лежит принцип  распознавания образов. Система выделяет из поступающего речевого сигнала набор некоторых признаков, составляющих его “описание”, затем сравнивает полученное описание с эталонными, хранящимися в памяти системы ввода, т.е. вычисляет меры сходства. Если значение меры сходства превышает некоторый установленный уровень, то система “распознает” сигнал, присваивая ему значение соответствующего эталона. Помимо распознавания элементарных составляющих речевых сигналов, система должна интерпретировать речевые сообщения, т.е. находить соответствующие им орфографические текстовые последовательности, интерпретировать и выполнять команды, запоминать и заносить в память данные и т.п.

     Базовым фонологическим элементом для большинства  систем распознавания и интерпретирования речевых сообщений является слово; произнесенным словом может быть однозначно поставлен в соответствии их орфографическое представление.

     В связи с этим все системы ввода  речи принято делить по следующим критериям:

  • способности распознавать слитную речь или отдельно произносимые слова;
  • объему словаря распознаваемых слов (словари существующих систем содержат до 500 слов);
  • ориентированности на одного говорящего или на произвольное число говорящих.

     Большинство современных систем и устройств  ввода речи предназначены для  персональных и управляющих микро ЭВМ, следовательно, одним из основных требований, предъявляемых к таким системам ввода, является их низкая стоимость, которая достигается за счет ограничения словаря отдельно произносимых слов и упрощения алгоритмов обработки при ориентации системы на одного говорящего.

     Обобщенная  структурная схема такой системы  речевого ввода:

     

     Акустический  речевой сигнал воспринимается микрофоном (М) и в виде аналогового электрического сигнала передается на высокочастотный фильтр (ФВЧ и АЦП). Цифровые отсчеты с выхода АЦП направляютя в препроцессор (ПП). Задача ПП состоит в том, чтобы уменьшить объем (а следовательно и скорость) передаваемых данных при сохранении существенной для распознавания речевых информации. В зависимости от принятого набора признаков, составляющих описание сигнала, ПП может представлять собой спектроанализатор, детектор форматных частот, анализатор ЛПК и т.п. Полученные в результате предварительной обработки сокращенное описание речевого сигнала передается п процессор выделения признаков (ПВП) и затем в систему принятия решений, включающую в себя блок классификатора (БК), память эталонных описаний (ПЭО) и блок настройки (БН). Система принятия решений работает в двух режимах – ввода и обучения.

     В режиме ввода описание входного речевого сигнала подается в БК, который вычисляет меры сходства этого описания с эталонами, хранящимися в ПЗУ. В результате вычисления мер сходства для всей совокупности эталонов может быть найдена максимальная мера и принято решение о соответствии входного сигнала одному из эталонов. Входному речевому сигналу приписывается имя – идентификатор этого эталона. Затем найденный идентификатор передается прикладной программе или в центральную ЭВМ через блок сопряжения УС.

     В режиме обучения описания входных речевых сигналов подаются в блок настройки. В этот же блок обычно с помощью клавиатуры Кл заносится имя – идентификатор речевого сигнала. БН находит “усредненное” описание для несколько раз повторенных слов или словосочетаний одним говорящим, затем приписывает это “усредненное” описание идентификатору, т.е. формирует эталон.

     Все системы ввода речевых сигналов, как и системы распознавания  образов вообще, принято характеризовать вероятностью правильного распознавания, вероятностью (частотой) отказов от распознавания, вероятностью (частотой) ошибок при распознавании. Численные значения этих характеристик зависят от объема словаря и используемых алгоритмов распознавания. Для словарей объемом 200-300 слов и словосочетаний вероятность правильного распознавания составляет 95-98 % .

     В системах речевого ввода для повышения  достоверности обычно предусматривают визуальную обратную связь. На рис. 3 эта связь показана в виде индикатора И, на экран которого выдается символьное представление произнесенного слова; непосредственный ввод этого представления в ЭВМ осуществляется только после подтверждения правильности распознавания, осуществляемого нажатием клавиши. При неправильном распознавании может быть подана устная команда отмены и ввод слова повторяется. Несмотря но то, что такая визуальная обратная связь лишает систему речевого ввода многих преимуществ, высокая достоверность ввода оправдывает ее применение во многих областях, в частности при подготовки данных. Рассматриваемая система обеспечивает более высокую скорость ввода по сравнению со скоростью ввода с клавиатуры.

      1.3. Многообразие видов
 

      Существующие  системы распознавания речи можно классифицировать по разным признакам.

    По  назначению:

  1. командные системы
  2. системы диктовки текста.

    По  потребительским качествам:

  1. диктороориентированные (тренируемые на конкретного диктора)
  2. дикторонезависимые (рискую предложить термин «омнивойс»)
  3. распознающие отдельные слова
  4. распознающие слитную речь.

      По механизмам функционирования:

  1. простейшие (корреляционные) детекторы
  2. экспертные системы с различным способом формирования и обработки базы знаний
  3. вероятностно-сетевые модели принятия решения, в том числе нейронные сети.

      Довольно  трудно выбрать удобный показатель качества работы системы распознавания речи. Наиболее просто такой показатель качества вводится для командных систем. При тестировании в случайном порядке произносятся все возможные команды достаточно большое число раз. Подсчитывается количество правильно распознанных команд и делится на общее количество произнесенных команд. В результате получается оценка вероятности правильного распознавания команды в заданной при эксперименте акустической обстановке. Для систем диктовки похожий показатель качества может вычисляться при диктовке некоторого тестового текста. Очевидно, что это не всегда удобный показатель качества. В действительности мы сталкиваемся с самыми различными акустическими обстановками. Но как быть со сменой дикторов и сопутствующей ей тренировкой системы?

      В качестве примера разрешите взять  на рассмотрение вариант простейшей командной системы распознавания речи. Функционирование системы основано на гипотезе о том, что спектрально-временные характеристики команд-слов для отдельно взятого диктора изменяются слабо. Акустическая модель такой системы представляет собой преобразователь из речевого сигналов спектрально-временную матрицу и может служить типичным примером изобретательского подхода. В самом простом случае команда локализуется во времени по паузам в речевом сигнале. Лингвистический блок способен обнаружить ограниченное число команд плюс еще одну, которая означает все остальные неизвестные системе слова. Как правило, лингвистическая модель строится как алгоритм поиска максимума функционала от входного образца и образцов всего «словарного запаса» системы. Часто это обычный двумерный коррелятор. Хотя выбор размерности пространства описания и его метрики может широко варьироваться разработчиком.

      Уже исходя из «конструкции» описанной  системы понятно, что она представляет собой скорее игрушку, нежели полезный инструмент. В настоящее время на рынке представлено множество коммерческих систем распознавания речи с гораздо большими возможностями:

      • Voice Type Dictation , Voice Pilot , ViaVoice от IBM
      • Voice Assist  Creative от Techonology
      • Listen for Windows  от Verbex и многие другие.

  Некоторые из них (например, ViaVoice) способны, как заявляют разработчики, вводить слитную речь.

      Лингвистические блоки современных систем реализуют сложную модель естественного языка. Иногда она основана на математическом аппарате скрытых цепей Маркова, иногда использует последние достижения технологии нейронных сетей либо других ноу-хау. Устройство же акустических блоков подобных систем держится в строгом секрете. По некоторым признакам можно догадаться, что акустический блок некоторых систем пытается моделировать естественный слуховой аппарат.   
 

     1.3. Программные синтезаторы  речи  

     Распознавание речи само по себе не представляет ничего нового.  Системы диктования для отдельных профессий таких, как радиология, известны уже давно. Но они сами по себе очень дороги и требуют дорогих компьютеров. Менее дорогие программы более широкого применения предполагают специфическую манеру речи с паузами после каждого слова.

     Компания Dragon Systems, выпустив NaturallySpeaking, заложила краеугольный камень в истории развития систем распознавания речи - это была первая программа, позволяющая диктовать текст естественным образом. Вскоре IBM предложил ViaVoice, аналогичную программу, стоившую на сотни долларов меньше конкурента.

Информация о работе Голосовой интерфейс