
6.
Документальные
информационные системы
уже набирает практически полный набор словоформ, присущих
конкретной предметной области, и вероятность появления в
новом документе слова, которого еще не было в словаре систе-
мы, резко падает.
Как уже отмечалось, повышению эффективности поиска
способствует морфологический разбор документов и запросов.
Помимо существенного уменьшения объема словаря и, соот-
ветственно, индекса системы, морфологический разбор повы-
шает и эффективность поиска, так как не реагирует на несуще-
ственные с точки зрения смыслового содержания грамматичес-
кие различия искомого текста документов и запросов. Если
вернуться опять-таки к примеру с запросом «экспорт редкозе-
мельные элементы», то система с морфологическим разбором
отберет не только те документы, в которых встречается бук-
вальное сочетание словоформ «экспорт», «редкоземельные»,
«элементы», но и такие фразы, как «К вопросу об экспорте ред-
коземельными
элемент^шм»,
«Проблемы экспорта редкоземель-
ных элементов» и т. п.
Морфологический разбор в принципе дает возможность
пользователю формировать запросы на естественном языке.
Система при обработке запроса удаляет из него все «стоп-сло-
ва», остальные словоформы нормализует и, оставляя пользова-
теля в полной иллюзии о том, что она действительно его «по-
нимает», выполняет таким образом выхолощенный запрос.
Некоторое время тому назад наблюдалось сильное увлечение
таким подходом, от которого, к счастью, вскоре
разработ1Шки
полнотекстовых ИПС отошли. Использование якобы естествен-
ного языка запросов на самом деле не позволяет применять ло-
гические операторы и другие развитые возможности, связан-
ные с координатным анализом местонахождения и контекстно-
го окружения искомых слов, терминов, сочетаний и т. д.
Еще одной важной характеристикой поиска документов по
индексу, в том числе с учетом логических операций посткоор-
динации и морфологического разбора, является то, что такой
поиск основывается на упрощенном детерминированном под-
ходе. Иначе говоря, критерием поиска является вхождение или