
106
- для повышения эффективности поиска поисковый аппарат
должен включать развитые возможности как собственно поиска (ис-
пользование контекстного расстояния, учет грамматических характери-
стик текстов и т. п.), так и отображения информации (форматы выдачи,
удобные средства листания и пр.);
-
полезно включение в состав лингвистического обеспечения ИС
не только традиционных тезаурусов и рубрикаторов, но и дополнитель-
ных структур, являющихся результатом статистической обработки сло-
варей БД.
Таким образом, для повышения эффективности поисковых про-
цессов ИПС должна обеспечивать различные поисковые стратегии, по-
зволяющие не только постоянно модифицировать исходный запрос, но и
получать результаты, основываясь на статистической значимости лекси-
ки релевантных документов и на критериях, позволяющих искать «по-
хожие» документы.
Далее будет рассмотрена совокупность моделей механизмов ин-
формационного поиска, в которых в качестве запроса используются как
множества дескрипторов, так и множества документов (соответственно,
модель механизма поиска по совпадению терминов, модели механизмов
поиска по сходству), а также логические конструкции, построенные над
этими множествами (модель механизма поиска по логическому выраже-
нию, модель механизма поиска с использованием контекстных опера-
ций, модель механизма поиска документов-аналогов).
Каждый из механизмов поиска предназначен для определенных
типов БД, находится в соответствии с требованиями запросов и обладает
уникальными достоинствами. В ИПС же особенно важно обеспечить
возможность использования различных механизмов поиска (а также их
комбинаций) для реализации всех типов поисковых задач.
4.3.1. Матрица «термин-документ»
В соответствии с [Попов1996] используем понятие универсального
словаря
D (прообразом которого может быть, например, тезаурус, руб-
рикатор, УДК), содержащего множество лексических единиц всего по-
тока документов. Таким образом,
Dl
i
⊂ для всех i,
где
l
i
– совокупность лексических единиц некоторого документа
(сообщения), который является элементом некоторого потока
L:
{}
Ll,l,...l,...lL
ni
∈=
1
Аналогично универсальному словарю вводится понятие универ-
сального потока (массива)
L
0
(прообразы - поисковый массив ИПС, от-
раслевой справочно-информационный фонд, массив библиотеки), под-
множеством которого являются все документы: