Глава 8. Проектирование процессов получения первичной информации,
создания и ведения информационной базы
129
тоды проверки данных (например, можно проверить, имеется ли распознанная информа-
ция в базе данных, и если нет, то пометить поле как некорректное).
Если данные после распознавания помечены как некорректные, то они автоматиче-
ски направляются на ручное редактирование. Во время редактирования оператор видит
реальное изображение нераспознанного поля и имеет возможность откорректировать его.
После ввода оператором новых данных снова применяются правила проверки данных, т.е.
на всех этапах ввода, как автоматического, так и ручного, осуществляется проверка дан-
ных в соответствии с правилами, определенными пользователем. Большие требования в
данном случае предъявляются к методам проверки вводимых данных. Для повышения на-
дежности данных используются дополнительные механизмы, такие как применение сло-
варей и таблиц, определяемых пользователем. Как правило, системы включают специаль-
ные встроенные средства для определения специальных процедур проверки для каждого
поля документа.
Ввод данных, содержащихся в документе, в информационную базу является за-
ключительной операцией. При этом может быть сохранено изображение документа.
В отличие от обычной системы распознавания (OCR), система ввода стандартных
форм использует формальное описание исходной формы документа или бланка. Это по-
зволяет автоматически помещать распознанную информацию в поля базы данных без уча-
стия оператора. Строгое соблюдение стандарта внешнего вида формы существенно по-
вышает точность распознавания полей документа.
Основной фактор при оценке эффективности систем распознавания заключается в
стоимости исправления ошибок при распознавании, а в не точности и скорости системы.
В некоторых случаях затраты на исправление ошибок при распознавании могут перекрыть
все плюсы автоматизации и сделать ручной ввод по изображению более эффективным.
При разработке и использовании такой системы проектировщику требуется выпол-
нить также большой объем работ по интеграции этой системы ввода в действующую или
разрабатываемую информационную систему. На производительность системы очень боль-
шое влияние оказывают используемая технология ввода, ее настройка на текущую задачу и
вид документов. Здесь нужно учитывать состав оборудования, программное обеспечение и
совместимость формата распознанной информации с уже существующими системами.
Существует множество компаний, которые предлагают решения или компоненты
систем обработки форм. Решение о внедрении системы обработки форм, а также выбор
того или иного приложения должны производиться с учетом, в первую очередь следую-
щих требований:
-
тип обрабатываемых документов и вид содержащихся в них данных;
-
точность распознавания;
-
наличие эффективной системы редактирования;
-
настраиваемость системы на требования конкретного заказчика и способность
изменяться согласно меняющимся внешним условиям без программирования;
-
наличие поддержки сканеров различных типов, а также разного рода плат обра-
ботки изображений документов;
-
наличие редактора форм, настраивающего систему на новые формы или измене-
ния старой формы, на которую система была предварительно ориентирована;
-
наличие редактора схем обработки документов, открытого интерфейса подключе-
ния различных модулей распознавания (в зависимости от типа формы можно, для повы-
шения качества распознавания, подключать тот или иной модуль, который наиболее под-
ходит для данного типа формы);