
89
т.е. форма поискового интерфейса должна согласовываться со структурой
хранения и форматом выдачи документов.
И, как в случае уровневых схем теории баз данных, внешние пред-
ставления должны определять семантику информационных объектов –
свойства, атрибуты и характер последующего использования, а внутренние
– типы данных и способы их идентификации.
Реально базы данных полнотекстовых документов не могут быть не
гетерогенными, причем, в отличие от фактографических, полнотекстовым
базам свойственна еще и разнородность физических представлений: доку-
менты, в силу разных причин, скорее всего, будут храниться в том форма-
те, в каком они были получены. То есть, «разнородность» надо рассматри-
вать в следующих аспектах:
1. Разнородность может проявляться как на уровне семантики (спо-
собов интерпретации величин), так и на структурно-форматном уровне
(различных наборов и типов полей, образующих документ);
2. Разнородность может быть свойственна всем документам БД или
отдельным. Т.е. «типизация» может быть определена либо для некоторого
идентифицируемого подмножества документов, либо своя структура
должна быть определена для каждого документа (например, с хранением
схемы вместе с содержанием документа);
3. Для реализации разнородных БД может использоваться деклара-
тивный или процедурный способ определения структуры документа.
3.6.1. Преобразование представлений
Представление данных во многом определяет способы доступа к
ним, возможности по преобразованию данных в другой формат с мини-
мальными потерями содержания, а также оказывает значительное влия-
ние на способы поиска и передачи данных. Логико-семантическая мо-
дель документальной информации должна учесть как «физический» ас-
пект (многоуровневую вложенность разнородных компонентов), так и
логику (семантику) использования информации - поиск документов по
их вербальным и структурно-графическим компонентам, а также обес-
печение навигации по документу.
Для полнотекстовых баз данных, для которых характерна разно-
родность как на уровне семантики, так и на физическом уровне согласо-
ванность представлений может быть обеспечена связыванием информа-
ционной и метаинформационной компонент.
В основу реализации процессов «декомпозиции-синтеза» данных
30
положена трехуровневая система следующих базовых информационных
компонент:
- элемент данных – величина, представляющая в машинной форме
логическую (семантически значимую) единицу информации. Обычно
30
Сюда относятся и «стандартные» операции разбора и загрузки документа как взаимосвязанной со-
вокупности элементов данных, а также выборка и верстка функционально ориентированных доку-
ментов, как совокупности семантически упорядоченных полей.