Автор работы: Пользователь скрыл имя, 25 Декабря 2012 в 18:27, доклад
Речевое общение является естественным и удобным для человека. Задача распознавания речи состоит в том, что бы убрать посредника в общении человека и компьютера. Управление машиной голосом в реальном времени, а также ввод информации посредством человеческой речи намного упростит жизнь современного человека. Научить машину понимать без посредника тот язык, на котором говорят между собой люди – задачи распознавания речи.
Распознавание речи
Речевое общение является естественным и удобным для человека. Задача распознавания речи состоит в том, что бы убрать посредника в общении человека и компьютера. Управление машиной голосом в реальном времени, а также ввод информации посредством человеческой речи намного упростит жизнь современного человека. Научить машину понимать без посредника тот язык, на котором говорят между собой люди – задачи распознавания речи.
Ученые и инженеры уже много лет решают проблему речевого общения человека и машины. Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры. Коммерческие программы по распознаванию речи появились в начале девяностых годов.
Все системы распознавания речи можно разделить на два класса:
Изначально на рынке появились системы первого вида. В них звуковой образ команды хранился в виде целостного эталона. Для сравнения неизвестного произнесения и эталона команды использовались методы динамического программирования. Эти системы хорошо работали при распознавании небольших наборов из 10-30 команд и понимали только одного диктора. Для работы с другим диктором эти системы требовали полной перенастройки.
Для того чтобы понимать слитную речь, необходимо было перейти к словарям гораздо больших размеров, от нескольких десятков до сотен тысяч слов. Методы, использовавшиеся в системах первого вида, не подходили для решения этой задачи, так как просто невозможно создать эталоны для такого количества слов.
Кроме этого, существовало желание сделать систему, не зависящую от диктора. Это весьма сложная задача, поскольку у каждого человека индивидуальная манера произнесения: темп речи, тембр голоса, особенности произношения. Такие различия называются вариативностью речи. Чтобы ее учесть, были предложены новые статистические методы, опирающиеся в основном на математические аппараты Скрытых Марковских Моделей (СММ) или Искусственных Нейронных сетей. Вместо создания эталонов для каждого слова, создаются эталоны отдельных звуков, из которых состоят слова, так называемые акустические модели. Акустические модели формируются путём статистической обработки больших речевых баз данных, содержащих записи речи сотен людей.
В существующих системах распознавания речи используются два принципиально разных подхода:
Отметим, что создание систем распознавания речи представляет собой чрезвычайно сложную задачу. Специалисты компании Речевые Технологии обладают многолетним опытом в практическом применении речевых технологий.
Распознавание по образцу
Если у Вас есть современный мобильный телефон, то, скорее всего, одна из систем распознавания речи уже лежит в Вашем кармане. Такая система предназначена для ускоренного выбора абонентов из записной книжки мобильного телефона с помощью голоса.
Как это работает?
При добавлении нового контакта в записную книжку Вам предоставляется возможность ввести голосовую метку, идентифицирующую этот контакт, например, произнести в телефон имя или фамилию абонента. Возможно, придется сделать это два или три раза.
Теперь, чтобы позвонить абоненту, достаточно нажать одну из кнопок, расположенных на корпусе мобильного телефона, и произнести голосовую метку. Номер абонента будет выбран из записной книжки, после чего мобильный телефон попытается установить с абонентом связь.
Помимо мобильного телефона,
существуют и другие устройства с
подобным голосовым управлением, например,
компьютерные клавиатуры. Такие клавиатуры
оборудуются встроенным микрофоном
и позволяют назначить
Технология распознавания фрагментов по заранее записанным образцам применяется и во многих программах, позволяющих подключить голосовое управление к операционной системе Microsoft Windows и ее приложениям. При использовании этих программ Вы сможете запускать приложения, переключаться между ними, выбирать строки из меню и щелкать кнопки диалоговых окон, отдавая голосовые команды и не притрагиваясь руками к клавиатуре или мыши. Возможно, такие программы и не намного ускорят работу с приложениями для обычных людей, но они отчасти помогут инвалидам, неспособным использовать стандартные средства общения с компьютером.
Эта технология работает достаточно хорошо, если телефоном пользуется только один человек, а общее количество голосовых меток не превышает десяток-другой. Если Вы «обучите» свой телефон (или клавиатуру с голосовым интерфейсом) реагировать на Ваш голос, то только Вы и сможете пользоваться речевыми метками. Таким образом, эти системы относятся к классу систем, зависимых от диктора. Впрочем, этот недостаток есть и у многих более совершенных систем распознавания речи, основанных на выделении из речи лексических элементов.
Распознавание лексических элементов
При его реализации из потока речи выделяются отдельные
лексические элементы - фонемы и алофоны, которые потом объединяются в составы и мор-
фемы. Строго говоря, именно этот подход и используется в "настоящих" системах распозна-
вания речи. При создании системы распознавания слитной речи важно не просто разработать
механизм, позволяющий математически описать звуковой сигнал. Разработка подобной сис-
темы включает лингвистический аппарат, позволяющий анализировать распознанные дан-
ные и формировать выводы на основе языковых правил.
Рассмотрим один из возможных подходов к разработке системы распознавания слитной
речи, учитывающей особенности языка и произношения.
На начальных уровнях анализа перед нами стоит задача разбиения высказывания на
элементы первичного анализа. В качестве элемента первичного анализа будем брать фонемы.
Как фонетического алфавита будем использовать набор из 48 фонем: 12 - для гласных звуков
(учитывая, что каждая гласная может быть ударной и безударной) и 36 - для согласных (учи-
тывая, что каждая согласная может быть твердой и мягкой).
Таким образом, получаем алфавит фонем:
• Гласные: а а! е е! о! и и! у у! ы ы! э!.
• Согласные: б, б' в в' г г' д д' ж з з' й к к' л л' м м' н н' п п' р р' с с' т т' ф ф' x x' ц ч ш
щ.