Документальные БД делятся на три главных типа: библиографические, пол-
нодокументальные и реферативные. В свою очередь, эти типы БД могут вклю-
чать в себя или обращаться к широкому кругу материалов, таких как: журналь-
ные статьи, книги, аудиовизуальные материалы, корреспонденция, заметки,
просто записанная информация. В то время как сферы применения информации
и её состав широко варьируются, существуют общие для всех документальных
БД характеристики, которые позволяют отделить документальные БД от других
типов БД.
Большая часть информации в документальных БД состоит из буквенных ха-
рактеристик. Такие поля, как "автор", "реферат", "ссылка" содержат в основном
слова, а не цифры. Даже те поля, которые включают цифры (например, номера
страниц) воспринимают цифровую информацию как символьную, а не как циф-
ры, используемые при вычислениях.
Использование текстовой информации отличает такие БД от большинства
БД для применения в различных информационных службах. Хотя некоторые
вычислительные функции также необходимы в программном обеспечении,
созданном для документальных БД, однако мощность информационно-
поискового программного обеспечения определяется способностью опериро-
вать строками символов и предлагаемыми специальными поисковыми функ-
циями, работающими с грамматическими структурами.
Документальные БД обычно более объёмны и занимают больше места, чем
БД других типов. БД, которые обращаются к определённому текстовому масси-
ву литературы или обеспечивают доступ к полным текстам документов, имеют
тенденцию расти из-за того, что новые записи добавляются в массив, а старые
продолжают играть важную роль для исследователей.
Анализ особенностей документальных ИС.
Документальные ИС имеют ряд особенностей, которые необходимо учиты-
вать при физической реализации ИС в программных средах.
Характеристики полей.
Записи в документальных БД обычно имеют несколько полей, но текстовая
информация, содержащаяся в каждом поле, может иметь различную длину. На-
пример, поле "название" в библиографической БД может включать в себя от
всего нескольких до нескольких сотен символов. Аналогично параграфы в пол-
нотекстовой БД могут поддерживать от одного предложения до нескольких со-
тен слов. Использование программного обеспечения, которое может работать
только с полями фиксированной длины, оборачивается в таком случае потерей
свободной памяти на жёстком диске, так как при этом определяется и фиксиру-
ется максимальная длина поля для работы с информацией большого объёма.
Многие пакеты прикладных программ с фиксированной длиной полей име-
ют верхнюю границу длины поля (часто – 255 символов, иногда – короче). Это-
го верхнего ограничения часто недостаточно для вмещения всей информации,
которую необходимо ввести в поле.
Длина и содержание каждого поля обычно широко варьируются от записи к
записи, а одни и те же поля представлены в каждой из записей. Поля нужны для
стандартного библиографического описания и не подвержены сильным изме-