Информационныетехнологии
272
ют при электронной обработке. Поэтому выполняется опера-
ция чистки изображения. Кроме того, зачастую документы
имеют фон, одноцветный или разноцветный (например,
на ценных бумагах), который необходимо снять посредством
фильтрации и выделения.
В контексте обработки документы делятся на две группы –
просто документы и формы. Формы, в отличие от просто до-
кументов, содержат
массу избыточной, с точки зрения элек-
тронной обработки, информации. К ней относятся пикто-
граммы, графление, подписи и т.д. Также возникают трудно-
сти, когда элементы букв пересекаются с элементами форм.
В этих случаях выполняют операцию подготовки документа
к распознаванию. Элементы форм удаляют так, чтобы не по-
страдал текст.
Для выполнения операции
распознавание разработано
большое число систем распознавания, которые можно разде-
лить на два класса: системы оптического распознавания OCR,
которые работают только с полиграфическим текстом, и
интеллектуальные системы распознавания ICR, работающие
с рукописным текстом. Системы ICR распознают также
штрих-коды, специальные метки. Системы распознавания от-
носятся к транзакционным OLTP-системам. В последнее время
системы массового
ввода печатных документов получили на-
звание OCR-систем.
Для каждого документа, прошедшего систему массового
ввода, создается задание. Задания содержат их статус, пара-
метры, маршрут движения документа (workflow). Изменение
статуса задания означает переход к выполнению следующей
операции: задание выбрано на исполнение, ожидает, получе-
но адресатом, прочитано, активно, завершено и др. Совокуп-
ность операций обработки
задания оформляется как транзак-
ция к серверу баз данных.
Параметры задания задают роль сотрудника, его пол-
номочия и права, срок исполнения документа, штрафные
санкции в случае нарушения срока исполнения, бизнес-
процессы (деловые операции и информационные потоки),
выполняемые в ходе делового процесса и т.д.