176
переменными. Суперкомпьютеру Cray потребовалось бы более 100 лет, чтобы
обработать информацию всех 10 млн. ячеек глаза. Поэтому для решения таких задач
на компьютерах разработано несколько алгоритмов. Ряд их опирается на сравнение
знаков с эталонным набором штрихов из памяти. При использовании других
алгоритмов анализируется каждый вновь появившийся штрих и прогнозируется
знак, получаемый из анализируемых штрихов. Эти методы распознавания
называют, соответственно, сегментным анализом и сегментным синтезом. Первый
метод используется в пакетах Windows For Pens (
Microsoft)
и Каллиграфер
(
ПараГраф
), второй - в PaperLike Interface (
IBM
). В программном обеспечении
GridPad первого коммерческого компьютера с рукописным вводом Grid
сочетаются оба метода. Пакет TextBridge фирмы
Xerox Imagin Systems
выполняет
автоматическое сегментирование данных (личных номеров, почтовых кодов),
позволяя воспринимать составной текст независимо от расположения колонок,
иллюстраций, заголовков в материале. Система Криминал (
ИПИ РАН
) по текстам
милицейских протоколов строит фактографические базы данных происшествий. А
карманный компьютер Newton
(Apple)
снабжен объектно-ориентированной
системой рукописного ввода, способной читать заметки, сделанные от руки, и
автоматически заносить информацию в дневник деловых встреч.
Распознавание речи
Давнюю историю имеют попытки «научить» компьютер распознавать
устную речь. Еще в 1 952 г. IBM продемонстрировала большую ЭВМ,
распознававшую произнесенные числа от 1 до 10. Позднее появились такие
системы, как HiperVoice швейцарской фирмы
Ascom Tech
, Sphinx из университета
Карнеги-Меллона, Tangora (
IBM
), наконец, DragonDictate (
Dragon Systems
),
позволяющая пользователю голосом запускать Word и печатать под диктовку,
выделяя необходимые слова и выравнивая абзацы. 6-8 часов требуется такой
системе, чтобы настроиться на голос конкретного человека, после чего она работает
со скоростью до 60 слов в минуту в темпе опытной машинистки. К аналогичным
показателям приблизились SoundSystem
(Microsoft)
и VoiceType (
IBM
), Voice Pilot.
Программа Voice Mouse (
Interactive Products
) сохраняет надежность распознавания
в зашумленных помещениях.
Следует отметить, что для современных систем распознавания словарь
объемом в 2000 слов, которым мы обходимся в повседневной речи, считается
большим, а 60000 сверхбольшим. Так, система ViaVoice (
IBM
) преобразует слитную
речь в документ Word со скоростью 140 слов в минуту (человек нормально
произносит 120 – 300 слов в минуту). Словарь ее содержит 64000 лексических
единиц, точность распознавания стремится к 95% при настройке путем
предварительной диктовки 256 фраз. ViaVoice относится к классу “горизонтальных”
систем распознавания, имеющих расширяемый словарь, в отличие от
“вертикальных” программ, у которых высокое качество достигается за счет
ограничения словарного запаса. Эффективные “голосовые интерфейсы” выпускают
российские фирмы МедиаЛингва, ABBYY, Dragon Systems. Механизм