
издания (название города), издательств или издающих организаций,
серий;
• создание лингвистических словарей требуемого языка для контроля
орфографии.
Все справочники и словари постоянно уточняются и пополняются в процес-
се работы. Использование всех перечисленных дополнительных настроек поз-
волило увеличить количество удовлетворительно распознанных карточек до
80 процентов.
В настоящее время на российском рынке наиболее известны такие прог-
раммы распознавания, как CuneiForm и FineReader. Их тестирование показало,
что они существенно отличаются друг от друга и имеют те или иные недостат-
ки. Так, например, они не позволяют производить автоматизированное после-
довательное пакетное распознавание, в ходе распознавания допускают само-
произвольную смену кодировки символов — «пересортицу», что особенно
характерно
для
случаев, когда
в
одном документе встречаются слова
и
знаки на
различных языках. Проведя анализ качества распознавания, фирма стала ис-
пользовать FineReader, которая, несмотря на наличие некоторых недостатков,
являлась наиболее предпочтительной на момент начала работы. Вышедшая в
2000 году 5-я версия FineReader имеет улучшенную точность распознавания (в
1,5—2 раза по сравнению с предыдущей), увеличенный список «знакомых»
языков (увеличен в 3 раза и доведен до 176), и расширенный список языков,
для которых возможна проверка орфографии (их стало 30). Программистами
фирмы
•«
Гипер» были устранены некоторые из перечисленных недостатков
программы FineReader. Так, в ПТК «Маэстро» стало возможным автоматизиро-
ванное последовательное пакетное распознавание. Например, при обработке
CD-ROM, содержащего, как правило, более 40 тыс. графических файлов в раз-
личных директориях и даже расположенных на различных компьютерах, отпала
необходимость в дополнительной команде о переходе к следующей папке (па-
кету) после обработки предыдущей. «Маэстро» делает это автоматически.
Как уже отмечалось, ГАК ВГБИЛ содержит 1 567 735 карточек, которые
накапливались десятилетиями. Карточки имеют различные способы оформле-
ния (рукописные, ксерокопированные, напечатанные на машинках и принте-
рах, типографские), что не позволяло произвести универсальную для всех
случаев настройку сканирования. В результате качество получаемых сканиро-
ванных изображений для некоторых карточек стало еще одной из существен-
ных проблем в процессе дальнейшего распознавания.
На качестве распознавания сказываются старение карточек, последствия
их использования, в результате чего появляются пятна, пометки, дополнения,
вносимые, как правило, от руки. Все перечисленные факторы создают допол-
нительные трудности при распознавании. В результате в распознанном тексте
появляются дополнительные знаки (мусор), требующие определенных мер по
их
удалению.
В ходе анализа различных вариантов и ситуаций была разработана техно-
логия, позволяющая частично или полностью предотвратить появление в рас-
познанном тексте «лишних» символов. Для наиболее сложных случаев в П"
93