Будко В.Н. Человек - интерфейс

Подождите немного. Документ загружается.

анализатор распознавание кодирование

Ввод в ПК

машинного кода

фонемы

звуковая

карта

Запись в память

фрагментов речи

Распознавание и

кодирование

фонем

ПК

7. Устройства ввода - вывода речевой информации (УВВ)

УВВ уже можно отнести к интеллектуальным интерфейсам. Основные достоинства

речевого канала общения с ПК:

- общение ведется в двух направлениях;

- ведется не естественном языке и не требует дополнительного обучения;

- канал самый быстрый и экономичный;

- легко совмещается с другими периферийными устройствами;

- аппаратные средства могут быть малогабаритными и дешевыми.

7.1 Модель речи

В общем случае системы речевого общения строятся на базе двух

специализированных речевых процессоров: анализаторов (устройства ввода (УВв) и

синтезаторов – устройства вывода (УВыв)).

Процесс речи, как процесс распознавания слуховых образов, состоит из 3-х этапов:

анализа идентификации и собственно ввода в ПК, рис

Над распознаванием речи работают с 60-х годов. К настоящему времени созданы

УВВ речи в дискретной языковой форме - «диктовка». Но реальные результаты в

распознавании слитной речи пока скромные .

Основные трудности – индивидуальность голоса и слитность речи усложняют

анализ и идентификацию единиц речи: звуков, фонем, слов.

В практике УВВ речи анализируют диапазон звуковых колебаний 50… 5000 Гц ,

разбивая его на поддиапазоны 3-мя фильтрами: 50… 900 Гц , 900… 2200 Гц , 2200… 5000

Гц . Запас полосы частот против стандарта 400… 3000 Гц используется для сохранения

интонации и индивидуальности речи и для увеличения разборчивости речи.

В русском языке 42 фонемы: 6 гласных и 36 согласных. В английском – 20 гласных

(из них 5 дифтонгов)и 24 согласных. Однако в слитном потоке речи, в зависимости от

конкретных условий, фонемы изменяются, т.е . появляются оттенки фонем – аллофоны.

Общее число аллофонов: 480 гласных и 8880 согласных. Акустические характеристики

фонем определяются артикулярными особенностями мест и способов их образования в

речевом аппарате – ротовом и носовом, образующих единую акустическую систему ,

возбуждаемую колебаниями голосовых связок, либо турбулентным шумом.

Распространение звуковых волн в такой системе описывается уравнением

Вебстера:

S(x)

∂

p 1

∂

S(x) ∂x ∂x c

∂t

S(x) – функция пощади сечения звукового тракта вдоль оси распространения волн, р –

давление, с – скорость звука , t – время.

Решение этого уравнения – основная забота теории речеобразования. Интонация и

ударение в слитной речи реализуются тремя характеристиками:

- мелодика – изменение частоты основного тона голоса ;

- ритмика – текущее изменение длительности звуков и пауз;

- энергетика – текущее изменение интенсивности звука .

Существуют три метода анализа речи :

1. Метод предварительной визуализации. Анализируются оптические изображения

губ оператора. По опыту языка общения глухонемых (задача бионики).

2. Анализ колебаний голосовых связок, снимаемых с лорингофона . Пригоден в

условиях сильных помех (кабина самолета , у прокатного стана и т.п.) (задача

бионики).

3. Анализ спектральных характеристик речи: энергетических, частотных, временных

и амплитудных спектров. Применяется для распознавания отдельных слов,

например, команд управления и «диктовок».

Этот метод состоит из нескольких операций.

Вначале – сегментация речи (машинное разбиение речи на фонемы). Для этого речевой

сигнал разбивается на 10-милисекундные дискреты ∆ t. В каждом дискрете оценивается 6

спектральных параметров: 1,2,3-ий параметры – это максимальные значения амплитуд

колебаний в трех поддиапазонах 50… 900 Гц , 900… 2200 Гц , 2200… 5000 Гц , а 4,5,6 –

параметры – это количество переходов через нуль сигналов этих частот, т.е . косвенное

определение частот тех колебаний, которые имеют максимальную амплитуду в каждом из

3-х частотных поддиапазонов.

7.2 Структурная схема анализатора речи

Различают два класса анализаторов: сигналов и сообщений.

В анализаторах сигналов информационный поток сигналов с микрофона (10

бит/с)

сжимается (компрессируется) за счет статистических характеристик речевого сигнала без

обращения к его смысловой функции.

В анализаторах речевых сообщений информационный поток компрессируется за

счет введения операции распознавания смысловых элементов речи: фраз, слов, морфем,

фонем. (морфема – наименьшая единица значения; в языке – слова , части слов: приставки,

суффиксы или их сочетания).

В свою очередь имеем анализаторы с ограниченным словарем и универсальные .

Анализаторы с ограниченным словарем распознают заданное с конкретной целью

некоторое (обычно ~100) количество речевых команд.

Анализатор речевых

сигналов

Нелинейный

корректор

ПК

ПЗУ эталонов

команд

номер

команды

Универсальные анализаторы нацелены на распознавание полного набора

смысловых элементов речи (фонем или морфем), с помощью которых может быть

распознано слово или слитно произнесенное речевое сообщение . Распознавание

осуществляется лингвистическим процессором по правилам, заложенным в базу знаний.

В общем случае речевой процессор начинается с «предпроцессора» - программно -

управляемое устройство спектрального анализа речевого сигнала с последующим

преобразованием данных в цифровую форму .

Структурная схема анализатора 6-ти спектральных параметров звука , рис.

Особенности схемы:

- Усилители охвачены глубокой отрицательной обратной связью для автоматическое

регулировки усиления амплитуды сигнала .

- В УВВ служебного назначения берут АЦП на 8 разрядов – 256 уровней

квантования сигнала , т.е . уровни квантования отличаются друг от друга < 0,5%.

- ПК опрашивает данные на выходе анализатора через 0,1 мс, т.е . с частотой выше

возможной максимальной частоты основного тона .

- ПК программно измеряет сходство параметров соседних дискретов речи, а затем и

сегментов. При большом сходстве дискреты объединяются. Если же изменение

параметров слишком велико , сегменты разбиваются. Так определяются границы

фонем.

- Количество полосовых фильтров определяет достоверность распознавания

команды, слова – поэтому зависит от объема словаря в ПЗУ или памяти ПК.

7.3 Структура устройства ввода речи

Вторая операция этапа анализа речевого сообщения – машинное описание речи с

помощью тех же спектральных параметров. Фонемы, слоги , слова описываются в

текст

акустический

процессор

лингвистический

процессор

ПК

База знаний

пик

ПФ

150… 900 Гц

ПФ

900… 2200 Гц

ПФ

2200… 5000Гц

пор. у

АЦП

счетчик

пор. у

АЦП

счетчик

пор. у

АЦП

счетчик

ПК

пик

зависимости от объема словаря и типа ввода – слитная речь или дискретная («диктовка»).

Соответственно и эталоны описываются также .

Емкость памяти словаря эталонов зависит от количества распознаваемых фонем,

слов. Например, для голосового программирования на языке С (65 команд и знаков)

хранение эталонов занимает 3,5 Кбайт, т.к. хранение одной команды занимает 55 байт.

Объем программы распознавания на С получается в 991 строку .

Описание поступившей речевой команды сравнивается с эталоном по типу

ассоциативного поиска методом перебора или на матричном процессоре с описанием всех

эталонов. Вводимой фонеме приписывается имя того эталона , который наиболее близок к

коду описания слухового образа .

Если набор слов или команд ограничен, то распознавание довольно просто можно

обеспечить на принципе персептрона .

Тембры голосов разных операторов часто сильно отличаются.

Машинное описание фонем также будет существенно отличаться от эталонов. Это

приведет в дикторо-зависимых системах к нераспознаванию некоторых фонем (а то и

всех фонем). Поэтому при смене операторов требуется предварительная настройка

системы путем записи новых эталонов с голоса пользователя. Этот прием в

интеллектуальных системах называют обучением. Индивидуальные речевые параметры

конкретного оператора: тембр, скорость произношения слов, фраз (средняя скорость ≈ 200

слов/мин), акцент, дефекты речи.

Другой вариант настройки на голос оператора – индивидуальная подстройка

амплитудно -частотных характеристик (АЧХ ) фильтров анализатора. Это сложная система

частотно -зависимой отрицательной обратной связи , обеспечивающая постоянство

частотного спектра сигнала независимо от индивидуальных свойств голоса оператора.

Наибольший эффект будет, когда тембры голосов близки.

Пока в дикторо-зависимых, т.е . настраиваемых, системах ввода речи удается

получить в 4 раза меньше ошибок распознавания, чем в дикторо-независимых.

При проектировании дикторо-независимых методов и систем распознавания

слитной речи с большим словарем разработчиками в настоящее время последовательно

решаются следующие задачи:

- вначале прогнозируется дикоро-зависимая система распознавания речи с

ограниченным словарем 15000… 20 000 слов.

- Затем разработка адаптивных (настраиваемых на конкретного диктора в процессе

работы ) систем распознавания с большим словарем (более 20 000 слов).

- Наконец, ожидается создание дикоторо-независимых систем распознавания

слитной речи со словарем в 200… 300 слов доя использования в системах речевого

управления.

7.4. Устройства вывода речевой информации. Синтезаторы .

Задача вывода речевой информации сводится к преобразованию машинных кодов

из ПК в колебания звуковой частоты речи. Устройства вывода и аппаратно , и программно

проще устройств анализа . Особенно заметно экономится память при синтезе речи по

фонетическим правилам.

Классификация:

Синтезаторы речевых сигналов

речевых сообщений компиляторы (ограниченный словарь)

универсальные

Блок-схемы:

1) с ограниченным словарем

2) универсальный

В компиляторах любое сложное речевое сообщение получается просто

соединением (компиляцией) элементов речи (фонем, аллофонов, слогов, слов). Это –

метод синтеза по образцам (по образам).

Элементы речи заранее начитываются диктором. Эти сигналы оцифровываются,

кодируются, компрессируются и записываются в ПЗУ.

В процессе выбора закодированные речевые элементы считываются из ПЗУ в

заданной последовательности и одновременно восстанавливается речевой сигнал, рис.

Вместо генераторов лучше применять цифровые полосовые фильтры.

При использовании в качестве элементов речи отдельных словоформ,

подставляемых в определенные места стандартных фраз, компиляционный метод

позволяет получить удовлетворительный по качеству синтез речи.

Пока попытки добиться высококачественного синтеза фонем или аллофонов еще

мало успешны, т.к. все эти элементы тесно связаны между собой внутри фразы. В слитной

речи не существует аналогов этих элементов, произнесенных изолированно . И наоборот,

речь из изолированно произнесенных элементов звучит ненатурально .

Поэтому подготовка словаря для компиляторов – самостоятельная сложная проблема.

номер

сообщения

ПК

компилятор

синтезатор

ПЗУ словарь

либо все это в ПК

текст

ПК

Лингвистический

процессор

синтезатор

база знаний

маш. код

(фонемы… .

слова )

дешифратор

генератор f

=50 Гц

генератор f

=5 кГц

смесит

ель

Пример структуры компилятора.

Фильтр и ЦАП управляются от ЗУ, куда заранее из памяти образцов заносится

выбранное устройством управления описание сообщения как последовательности кадров.

Каждый кадр содержит параметры: громкости , частоты основного тока , длительности

синтезируемого звука и др .

Кадры опрашиваются с интервалом дискретизации времени 20 мс.

Модулируя основной тон по таблице музыкальных нот, можно синтезировать

пение .

В универсальных синтезаторах стремятся получить функциональную модель

речеобразования, адекватную реально существующим языковым и акустическим

особенностям. Речь формируется по правилам фонетики языка (фонетический метод).

На входе такой модели – орфографический или фонемный текст произвольного

содержания. На выходе – звучащая речь. По существу - это кибернетическая

функциональная модель чтения текста человеком. В базе знаний синтезатора хранится как

информация об элементарных единицах речи (эталоны фонем, аллофонов и интонем), так

и алгоритмы правил их модификации в зависимости от конкретного контекста звуковой

реализации. Процесс применения этих правил реализуется лингвистическим процессором.

Достоинства универсальных синтезаторов: малый расход памяти на один элемент

речи и неограниченность словаря синтезируемых сообщений. Расплата – аппаратная

сложность и трудность получения высоко качества слитной речи.

Сравним методы синтеза по объему необходимой памяти на примере слова «алло»,

длящегося 0,3 с и резерва памяти N=48 Кбайт.

Скорость чтения из ПЗУ Объем памяти

слова «алло»

n, байт

v = n/0,3 байт/с бит/с

Время звучания,

Т=N/v

Формирование речи

1800 6000 48 000 8 с Прямая запись/чтение речи

6000 отсчетов/с по 1 байту

∆ f=3 кГц

СИНТЕЗАТОР

устройство

управления

выборкой и

синхронизацией

память

образцов

ЗУ кадров

коммутатор

генератор f

основного тока

генератор

шума

переключате

ль

Многозвенн

ый цифровой

управляемы

ЦАП

от ПК

осн

выбор

188(187,5) 625 5 000 48 000/625=1 мин

17 с

∆-код 5000 бит/с

∆ f=1,2 кГц

188 625 5 000 1 мин 17 с Компиляция по словам

45 150 320 с= 5 мин 20 с Компиляция по слогам

100

8 мин

4 13,3 1 ч 4 мин

По фонетическим правилам

проще

сложнее

Известен высококачественный аппарат-синтезатор («ящик» 10×45×30 см) к ПК,

дающий близкую к естественной речь различного темпа и оттенка по тексту

неограниченного словаря.

8 Нейронные сети

8.1 Введение

В пионерской работе Мак-Каллок и Питс (1943 г СШ А ) предложили идею,

использовать сеть из простейших искусственных нейтронов для распознавания

изображений. Первая практически применявшаяся сеть из искусственных нейтронов

создана Ф . Розенблатом (1957г, СШ А ). Его сеть продемонстрировала удивительные

возможности распознавания символов.

Понятие «распознавание образов» охватывает широкую область важных задач

обработки информации – от распознавания речи и классификации рукописных символов

до медицинской диагностики и обнаружения неисправностей в технике . С этими

проблемами человек справляется (с разной степенью усилий). Однако формализовать эти

проблемы до такой степени , чтобы переложить решение такой задачи на компьютер,

удаётся далеко не всегда . Нейронные сети позволяют создать прочный теоретический

фундамент для решения таких задач.

Для того чтобы система распознания могла правильно классифицировать вектора

образов, которые до этого не попадали в её поле зрения, она должна обладать свойствами

обобщения, реагируя на характерные признаки и обращая внимания на помехи и

возможные искажения. С этой проблемой успешно справляются нейронные сети .

Искусственной нейронной сети присущи такие свойства человеческого мозга , как

обучение на примерах и обобщение на основе предыдущего опыта . Они могут

саморазвиваться и делать больше, чем повторение программ заложенных в них

программистом.

Наиболее простая односложная и легко обучаемая нейронная сеть исторически

называется персептроном. Персептроны применялись для предсказания погоды , анализа

электрокардиограмм и в системах технического зрения. Но скоро оптимизм улетучился,

когда оказалось, что персептроны не могут осилить ряд простых задач. Минский М . Л.

(1971 г)строго математически доказал, что персептрон нельзя обучить выполнять

функцию XOR(исключающее или ). Разочарованные специалисты прекратили работы с

персептронами более чем на 20 лет. После длительного перерыва был теоретический

фундамент многослойных нейронных сетей и работы были перенесены в более гибкую

среду компьютерного моделирования.

К началу 90-х годов теория и практика искусственных нейронных сетей и работы над

созданием нейрокомпьютеров стали нарастать лавинообразно . Оказалось, что

возможности многочисленных нейронных сетей несоизмеримо превышают возможности

однослойных персептронов. Область их применения в наше время необычайно широка .

8.2 Биологический нейрон и его формальное моделирование

Основные элементы нервной системы нейрона (в мозгу человека около 10

нейронов)

делятся на три группы по назначению.

1) Рецепторы – осуществляют предварительную обработку и кодирование

информации, поступающей в организм от внешней среды.

2) Ассоциативные нейроны – перерабатывающие информацию в центральной

нервной системе , поступающую от рецепторных нейронов.

3) Эффекторные нейроны – передающие информацию от центральной нервной

системы к мышцам.

Нейрон – это специализированная клетка (рис 8.1)

Она состоит из сомы(тела ) (С), оболочки , которая называется мембраной, дендритов

(Д), аксона(А ), и бляшек (Б), которые называются синапсами.

Аксон - выходной отросток нейрона,

разветвляется на большее количество

волокон которые подходят к дендритам

других нейронов и заканчиваются

синоптическими бляшками (утолщениями).

По ним импульс, выработанный нейроном и

передаётся во вне (другим нейронам).

Синапсы могут быть и на теле нейрона ,

кроме того к ним могут подходить и волокна

и волокна по которым передаётся импульсы

от того же нейрона, т.е . может существовать

обратная связь. Электрические импульсы

поступающие на синапсы вызывают

сложный динамический процесс в теле нейрона изменяя потенциал мембраны во времени.

В момент достижения некоторой величины (порога нейрона ) нейрон вырабатывает

импульс, который уходит по аксону , а потенциал мембраны резко падает, нейрон как бы

разряжается. Следующий импульс будет сформирован только после некоторой паузы,

которая не может быть меньше некоторой минимальной величины, называемой

абсолютной рефрактерностью нейрона . Следовательно , максимальная частота импульса

нейрона ограничена . Заметим, что все нейроны вырабатывают импульс одного знака . Но

одни синапсы (возбуждающие ) повышают потенциал мембраны нейрона , а другие

синапсы (тормозящие ) понижают потенциал мембраны.

Итак биологическая нейронная сеть является однополярной асинхронной импульсной

сетью с частотной модуляцией. Формальный нейрон, как модель биологического ,

отличается значительными упрощениями. Структура формального нейрона Мак-Каллока

и Питтса показана на рис. 8.2

Входные сигналы Х могут иметь любую физическую природу (размерность ) величины

с которыми и работает формальна модель нейрона . Состояние входов {X

}

умножаются на весовые коэффициенты и складываются в суммирующем элементе :

∑

WXnet

ВХОД 1

ВХОД i

ВХОД

Входные

сигналы

Рецепторное

поле

Массив весовых

коэффициентов

Суммирующий

элемент

Пороговый

элемент

Выход

net

f(net)

Рис 8.2

Выходная величина есть функция от net.

Этот нейрон уже является простейшим персептроном. Выходная величина «Y»

получается вычитанием из net порогового значения V (Называемого также «смещением»)

Считаем, что выходной сигнал «Y» может изменяться только в дискретные моменты

времени t кратные τ. Причем эти моменты одни и те же для всех нейронов сети , т.е . сеть

работает синхронно . Входные сигналы могут быть как двоичные так и непрерывные

VWXVnetnetfY

−=−==

∑

)(

Дискретность времени в этой формуле подразумевается по умолчанию т.е . выход «Y»

изменяется спустя τ после изменения входа Х .

К особому классу относят нейроны с двоичным выходом информации. В этом случае в

понятие «Пороговый элемент» вкладывается несколько иной смысл. По-прежнему

вычитается V из

∑

WX , но теперь элемент выдаёт Y=0, если эта разность меньше

нуля и Y=1, если больше нуля.











≥

∑

VWXесли

далее для удобства рисунков, учитывая, что элементы нейрона

составляют единое целое и поля входов и выходов нейронной сети не учитываются при

подсчёте количества слоев нейронов, будем изображать структуру нейрона , так, как

показано на рис.

Y- сигнал активности выхода нейрона

Y=f(net)

∑

WXnet

-правило комбинации входных сигналов

В векторном представлении, например :

[]













321

XXXnet

при X

=0,7; X

=0,1;X

=0,3

=-7,3,W

=3,1,W

=0,5 получим

[]

25,0

5,0

1,3

3,0

*3,01,07,0 =













−

net

f(net)

Будко В.Н. Человек - интерфейс - компьютер

Подождите немного. Документ загружается.