
6.3.
Полпотскстовыс
11Е1формаино11110-поисковыс
системы
невхождение того или иного дескриптора-словоформы запро-
са в поисковый образ документа без учета общей «похожести»
ПОД и ПОЗ. Масса остальных дескрипторов поискового обра-
за документа не рассматривается. Поэтому в развитых полно-
текстовых ИПС реализуются более тонкие и сложные алгорит-
мы поиска, основанные на сравнении ПОД и ПОЗ в целом по
тем или иным критериям похожести, близости.
Такой подход позволяет предоставлять пользователям бо-
лее эффективные возможности выражения своих информаци-
онных потребностей без их явной формализации и структури-
зации по словоформам. В частности, пользователь может по-
ставить ИПС задачу поиска документов,
«.похожих»
по
содержанию на какой-либо другой (известный ему релевант-
ный, точнее пертинентный) документ или фрагмент докумен-
та. В этом случае не только ПОД, но и ПОЗ представляют со-
бой полномасштабные двоичные векторы, часть дескрипторов
которых будет совпадать, а часть не совпадать, и возникнет не-
обходимость в использовании более тонких критериев опреде-
ления близости документов и запроса. Кроме того, становится
возможным определение количественных мер (показателей)
близости, т. е. релевантности документов и запросов.
6.3.3. Методы количественной оценки
релевантности документов
Количественные показатели
релевантгюсти
— процент со-
ответствия содержимого документа запросу, ранжирование (са-
мый релевантный документ, менее релевантный, еще менее ре-
левантный) и т. п., позволяют существенно увеличить конеч-
ную эффективность использования документальной системы,
предоставляя пользователю возможность после отбора доку-
ментов сразу сосредоточиваться на наиболее важных из них.
Определение количественных показателей релевантности
документов в полнотекстовых ИПС основывается на тех или
иных подходах по вычислению мер близости двоичных векто-
ров документов и запросов.
Документ
О^
представляется в системе двоичным вектором:
271