64
тие достаточно широкое и часто включающее в себя несколько взаимо-
связанных более мелких операций. К обработке могут относиться такие
операции как проведение расчётов, выборка, поиск, объединение, слия-
ние, сортировка, фильтрация и т.д. Важно помнить, что обработка
представляет систематическое выполнение операций над данными, про-
цесс преобразования, вычисления, анализа и синтеза любых форм дан-
ных, информации и знаний посредством систематического выполнения
операций над ними. При определении такой операции как «обработка»,
также её составляющие: «обработку данных», «обработку информации»,
«обработку знаний».
Обработка данных представляет процесс управления данными
(числа и символы) и преобразования их в информацию. Обработка ин-
формации означает переработку информации определённого типа (тек-
стовый, звуковой, графический и др.) и преобразования её в информа-
цию другого определённого типа. Например, принято различать обра-
ботку текстовой информации, обработку изображений (графики, фото,
видео и мультипликация), обработку звуковой информации (речь, музы-
ка, другие звуковые сигналы). Использование новейших технологий
обеспечивает их комплексное представление.
В качестве примера рассмотрим процесс (технологию) перевода
бумажного документа в электронный. Простейшим случаем такой тех-
нологии будет ввод текста с клавиатуры компьютера, например, в тек-
стовом редакторе Word. Другим, более прогрессивным, методом являет-
ся сканирование документа на бумажном носителе с последующим рас-
познаванием текста и сохранением, например, в том же в текстовом ре-
дакторе Word. Рассмотрим эти процессы.
На первом этапе перевода документа в электронную форму произ-
водится его сканирование, позволяющее получить электронную копию
документа в виде изображения. Этот процесс получения аутентичных
изображений бумажных документов называется имиджингом (англ. «im-
aging»). Имиджинг – начальный этап любой системы ввода документов
и на нём выполняются задачи сканирования, обработки изображения и
контроля качества.
Часть функций обработки изображений реализуется программно-
аппаратно. Улучшение изображения включает программное выравнива-
ние, конвертирование с улучшением качества, удаление шумовых и фо-
новых элементов, улучшение качества передачи текста и т.д.
Дальнейшие действия связаны с распознаванием текста в полу-
ченном изображении. Технологии распознавания написанных от руки и
печатных символов обозначаются термином ICR (Intelligent Character
Recognition). Задачи распознавания при вводе форм не обязательно свя-
заны с распознаванием текста. При вводе форм может потребоваться
распознавание различных меток и знаков, для которого тоже существует
свой термин: OMR (Optical Mark Recognition). Наиболее важной техно-
логией на стадии распознавания документов является технология OCR