отказа от его определенных характеристик, например, замены цветного изображения
на черно-белое.
Важным является обеспечение поисковых возможностей электронной
библиотеки. С этой целью применяются как универсальные системы управления
базами данных типа Oracle, так и специализированное программное обеспечение, к
наиболее популярным видам которого относятся сегодня программы D-Space и
GreenStone, бесплатно представленные в сети Интернет.
Для иллюстрации использования технического и программного обеспечения
при сканировании документов рассмотрим технологию, изложенную в статье
А. Каштаньера "Оцифровка газет в РНБ: настоящее и будущее
".
Для оцифровки газет в Отделе газет Российской национальной библиотеки
используется специализированный газетный сканер Zeutschel OS7000 формата А1 с
обслуживающим его компьютером, минимально необходимым набором программного
обеспечения, струйным принтером, пишущим приводом компакт-дисков с локальной
сетью. Цифровые копии комплектов всех изданий записываются на CD-R и остаются
на хранение в отделе. Параметры исполнения проектов по оцифровке газет
выбираются такие, чтобы получался законченный продукт, удобный для автономного
использования вне РНБ даже неквалифицированным пользователем, на любом, даже
старом компьютере, без ограничения операционной системы, программного
обеспечения и в отсутствие поддержки кириллицы. Для этого используются широко
распространенные форматы графических файлов (TIFF 8 и 1 bit, JPEG),
распространенные форматы компрессии с потерей и без потери качества, стандартное
разрешение сканирования 300 spi (выборок на дюйм), транслитерация имен файлов в
латиницу и стандартные процедуры записи компакт-дисков. Сканирование
производится постранично (одна страница – один файл) кроме случаев размещения
иллюстраций или непрерывного текста на газетном развороте. Документ
выравнивается по тексту, а не по границам бумажного листа. Затем страницы
обрезаются, файлы переименовываются, конвертируются, при необходимости, в
другой формат или сжимаются. Обязательным этапом является окончательный
контроль изображений для выявления технических ошибок и сверка набора файлов с
оригиналом. Все эти операции могут производиться параллельно. При записи на
компакт-диски файлы организуются в годовые комплекты. Каждый из дисков проекта
содержит описание всего проекта, файл контрольных сумм (CRC) формата SFV-
страниц, находящихся на диске, и дефектную ведомость, в которой отражаются
отсутствующие или поврежденные страницы, ошибки в нумерации, пагинации,
особенности оригинального экземпляра и т.д.. Первый диск набора содержит также
библиографическое описание оригинала издания в виде графической копии описания
из генерального алфавитного каталога с полной спецификацией номеров в виде
графической копии регистрационных карточек–сеток. Для дореволюционных газет
дается описание из электронного служебного каталога также с полной
спецификацией. Заказчик может получить свои графические файлы на дискетах,
дисках CD-R/RW, по электронной почте или в виде бумажной копии (распечатки).
Файлы хранятся в течение 1 месяца. Специальные виды обработки графики
(ресемплинг, гамма-коррекция и т.п.) не производятся. Распознавание текста (OCR)
также не производится из-за отсутствия соответствующего программного
обеспечения.
Для оцифровки большого объема документации используется
профессиональное оборудование. Работа на простых планшетных сканерах может
затянуться и не всегда обеспечивает надлежащее качество. К профессиональному
57