
зависимости от объема словаря и типа ввода – слитная речь или дискретная («диктовка»).
Соответственно и эталоны описываются также .
Емкость памяти словаря эталонов зависит от количества распознаваемых фонем,
слов. Например, для голосового программирования на языке С (65 команд и знаков)
хранение эталонов занимает 3,5 Кбайт, т.к. хранение одной команды занимает 55 байт.
Объем программы распознавания на С получается в 991 строку .
Описание поступившей речевой команды сравнивается с эталоном по типу
ассоциативного поиска методом перебора или на матричном процессоре с описанием всех
эталонов. Вводимой фонеме приписывается имя того эталона , который наиболее близок к
коду описания слухового образа .
Если набор слов или команд ограничен, то распознавание довольно просто можно
обеспечить на принципе персептрона .
Тембры голосов разных операторов часто сильно отличаются.
Машинное описание фонем также будет существенно отличаться от эталонов. Это
приведет в дикторо-зависимых системах к нераспознаванию некоторых фонем (а то и
всех фонем). Поэтому при смене операторов требуется предварительная настройка
системы путем записи новых эталонов с голоса пользователя. Этот прием в
интеллектуальных системах называют обучением. Индивидуальные речевые параметры
конкретного оператора: тембр, скорость произношения слов, фраз (средняя скорость ≈ 200
слов/мин), акцент, дефекты речи.
Другой вариант настройки на голос оператора – индивидуальная подстройка
амплитудно -частотных характеристик (АЧХ ) фильтров анализатора. Это сложная система
частотно -зависимой отрицательной обратной связи , обеспечивающая постоянство
частотного спектра сигнала независимо от индивидуальных свойств голоса оператора.
Наибольший эффект будет, когда тембры голосов близки.
Пока в дикторо-зависимых, т.е . настраиваемых, системах ввода речи удается
получить в 4 раза меньше ошибок распознавания, чем в дикторо-независимых.
При проектировании дикторо-независимых методов и систем распознавания
слитной речи с большим словарем разработчиками в настоящее время последовательно
решаются следующие задачи:
- вначале прогнозируется дикоро-зависимая система распознавания речи с
ограниченным словарем 15000… 20 000 слов.
- Затем разработка адаптивных (настраиваемых на конкретного диктора в процессе
работы ) систем распознавания с большим словарем (более 20 000 слов).
- Наконец, ожидается создание дикоторо-независимых систем распознавания
слитной речи со словарем в 200… 300 слов доя использования в системах речевого
управления.
7.4. Устройства вывода речевой информации. Синтезаторы .
Задача вывода речевой информации сводится к преобразованию машинных кодов
из ПК в колебания звуковой частоты речи. Устройства вывода и аппаратно , и программно
проще устройств анализа . Особенно заметно экономится память при синтезе речи по
фонетическим правилам.
Классификация:
Синтезаторы речевых сигналов
речевых сообщений компиляторы (ограниченный словарь)
универсальные