ной страницы при передаче распознанного документа во внешние
приложения (такие, как MS Word и Adobe Acrobat).
Итак, нажимаем кнопку Распознать, при этом различные час-
ти нашего изображения, содержащие текст, таблицы или рисун-
ки, оказались обведены рамками разных цветов и обозначены
цифрами в углу каждой рамки. Цвет служит для обозначения типа
блока — в стандартных настройках зеленый цвет для текста, крас-
ный для рисунков и синий для таблиц. Цветовое кодирование
можно при желании изменить.
Блоки — это заключенные в рамки участки изображения. Бло-
ки выделяют для того, чтобы указать программе, какие участки
отсканированной страницы надо распознавать и в каком поряд-
ке. Также по ним воспроизводится исходное оформление стра-
ницы.
При обработке изображений выделяются блоки следующих ти-
пов: зона распознавания, текст, таблица, картинка и штрих-код
(только в версии Office).
Обычно автоматический анализ макета страницы работает до-
статочно корректно, однако иногда приходится подправлять
FineReader. Чаще всего это бывает необходимо, если нужно рас-
познать только часть текста, расположенного на странице, или
включить в конечный документ не все рисунки. Иногда прихо-
дится редактировать макет табличных блоков, поскольку неко-
торые таблицы оказываются слишком сложными по своей струк-
туре.
Еще одной причиной, заставляющей пользователя редактиро-
вать макет, являются рисунки оригинала, содержащие текст, на-
пример графики с подписями осей. В таких случаях FineReader
отдает предпочтение тексту и выделяет подписи как текстовый
блок, оставляя сам график без внимания или же выделяя как ри-
сунок какую-либо его часть. Естественным решением этой про-
блемы будет выделение всего графика как рисунка без распозна-
вания подписей.
Более специфическим случаем ручного редактирования макета
являются сложные математические или химические формулы. Внут-
ренний формат текста в FineReader очень близок к формату RTF,
поэтому он не умеет корректно работать с текстом, расположен-
ным не в строчку (исключение составляют надстрочные символы
и буквицы). При работе с документами, содержащими такие фор-
мулы, их приходится выделять как рисунки.
Ну, и совсем отдельно стоят случаи плохого оригинала.
FineReader испытывает естественные трудности при выделении
некачественного макета на некачественных изображениях, содер-
жащих много посторонних элементов. В частности, FineReader не
любит комментарии, написанные от руки на полях оригинала,
поскольку ухитряется углядеть там знакомые символы, выделить
212
и
х как текстовый блок и распознать, чем нарушает общую струк-
туру основного текста. Многие подобные ошибки могут быть ис-
правлены именно на этапе работы с макетом, поскольку сделать
это проще, чем впоследствии редактировать готовый текст.
Изменять размеры или форму существующих блоков можно,
потянув мышью за их границы. Изменить тип блока позволяет
«всплывающее» меню, появляющееся после щелчка мышью по
пиктограмме в углу блока, обозначающего его тип.
Для более сложного редактирования макета используются па-
нели инструментов, расположенные слева от окна изображения.
Они позволяют нарисовать новые блоки заданного типа, добавить
или удалить часть блока, хотя удалить блок можно также с клави-
атуры нажатием на клавишу [Del] после его выделения.
Итак, при автоматическом анализе макета страниц оригиналь-
ные изображения достаточно корректно разбиваются на блоки.
Неточности, которые программа все-таки допускает, можно лег-
ко отредактировать с помощью панели инструментов.
9.8. РАСПОЗНАВАНИЕ ТЕКСТА
После создания макета и его редактирования можно присту-
пить к распознаванию. Задача распознавания состоит в том, что-
бы преобразовать отсканированное изображение в текст, сохра-
нив при этом оформление страницы. И первое, на что следует
обратить внимание — язык распознавания, ведь FineReader под-
держивает более сотни языков.
Язык, на котором будет проводиться распознавание, выбира-
ется на основной панели инструментов.
Это интересно
Если исходный текст документа многоязычный, то можно ука-
зать несколько языков одновременно, однако следует принять во
внимание, что увеличение числа включенных языков замедляет
процесс распознавания.
Помимо языка оригинала, модуль распознавания учитывает и
тип печати, который по умолчанию определяется автоматически,
но при необходимости может быть установлен и вручную.
При распознавании текстов, напечатанных на матричном прин-
тере в черновом режиме или на пишущей машинке, можно до-
биться более высокого качества распознавания, установив пра-
вильный тип печати. Выделяются два специфических типа печати:
матричный принтер и пишущая машинка (Сервис/Опции/Тип пе-
чати). Символы, напечатанные на матричном принтере, состоят
из отдельных точек, иногда хорошо различимых даже на глаз, а
213