Глава 7 Документальные информационные системы 165
» с использованием морфологических словарей;
* с использованием основных лексических словарей;
» с использованием морфологического анализа с усечением слов.
Возможны системы индексирования без морфологического анализа.
Процесс свободного индексирования состоит в следующем. Инде-
ксатор выписывает слова или словосочетания, которые, по его мнению,
отражают содержание текста. Он может брать слова, отсутствующие в
тексте, но важные, с его точки зрения, для выражения смысла текста.
Отобранный список слов является поисковым образом документа. Это
СИ с ручным индексированием.
Процесс полусвободного индексирования аналогичен вышеописан-
ному, но слова для ПОД берутся только из словаря.
При жестком индексировании слова берутся только из текста.
Поначалу индексирование осуществлялось специально подготов-
ленными специалистами-экспертами в предметной области, которые
могли осуществлять глубокий анализ смыслового содержания доку-
мента и относить его (индексировать) к тем или иным классам, руб-
рикам, ключевым терминам. В этом случае были высоки накладные
расходы, поскольку требовалось наличие в штате высококвалифици-
рованных специалистов-индексаторов. Кроме того, процесс индекси-
рования в некоторой мере был субъективным. Поэтому возникла за-
дача автоматизации индексирования документов.
Существуют два подхода к автоматическому индексированию. Пер-
вый основан на использовании словаря ключевых слов и применяется
в системах на основе ИПТ. Индексирование в таких системах осуще-
ствляется путем последовательного автоматического поиска в тексте
документа ключевых терминов. Строится индекс, представляющий
поисковое пространство документов. Возможны два типа такого ин-
декса — прямой и инвертированный (рис. 7.4) [14].
Прямой тип индекса строится по схеме «документ—термины». По-
исковое пространство в этом случае представлено в виде матрицы раз-
мерностью nxm. Строки этой матрицы представляют поисковые обра-
зы документов.
Инвертированный тип индекса строится по обратной схеме — «тер-
мин—документы». Поисковое пространство соответственно представ-
лено аналогичной матрицей, только в транспонированной форме. По-
исковыми образами документов в этом случае являются столбцы
матрицы.