нимает сотни килобайт памяти, а то и несколько мегабайт. Да и кому нужен та-
кой «рисунок» из не очень четких букв? Поэтому важное значение имеет реше-
ние проблемы оптического распознавания текста OCR (Optical Character Recig-
nition) и представления отсканированного текста в виде обычного текстового
файла, занимающего на диске скромное место — несколько килобайт на стра-
ницу.
Распознавание текстов — задача весьма непростая. Тексты могут быть
самого разного качества и стиля: машинописные; напечатанные лазерными,
струйными и игольчатыми принтерами; типографские, разных мыслимых и не-
мыслимых шрифтов. Шрифты могут иметь самый различный размер и отдель-
ные дефекты, а тексты могут изобиловать разнообразными иллюстрациями.
Хотя программы OCR подходят к распознаванию даже рукописных тек-
стов, широко распространенные программы рассчитаны на распознавание пе-
чатных текстов — типографских и отпечатанных принтерами.
Есть множество OCR программ, но в основном они предназначены для
распознавания англоязычных и широко распространенных европейских языков.
Для нас, россиян, интерес представляют только те программы, которые под-
держивают русский язык. Наибольшую известность получили программы Fine-
Reader и CunieForm, созданные российскими фирмами и получившие призна-
ние даже на Западе. Обе программы неплохо справляются с распознаванием от-
сканированных печатных текстов, и работа с ними почти идентична.
Почему программа FineReader российской фирмы «БИТ» бурно развива-
ется и получила большую известность у нас и за рубежом? Дело в том, что в
ней используется новый принцип распознавания символов, получивший назва-
ние фонтанного преобразования. Он впервые был предложен студентами
МФТИ сравнительно недавно — в 1992 г. Принцип базируется на предположе-
нии, что есть некие вековые и интуитивные законы построения букв, цифр и
вообще символов, коими человечество пользуется на протяжении тысячелетий.
Не вдаваясь в тонкости, отметим лишь, что знаки текстов трактуются
как совокупность неких объектов (например, пятен или шаров), нанизанных на
некие нити, образующие каркас символов. Вполне возможно, что этот принцип