68
Часть
IL
Компоненты программного обеспечения
Web
одной базой данных (например, содержащей ссылки на группы новостей или свод-
ки показателей стоимости акций), либо поиск осуществляется по всему индексиро-
ванному содержимому Web. Многие пользователи тратят значительное время на
поиск. Одной из причин этого является отсутствие хорошего единого предметного
указателя для Web. К наиболее популярным сайтам относится Yahool, который
индексирует сайты, но не содержимое всех страниц. Другими словами, для целей
индексирования отбираются только основные страницы сайтов. Поисковые сайты,
такие как AltaVista и Google, индексируют отдельные страницы в составе Web-
сайтов. Таким образом, сайты, подобные Yahool, могут использоваться для поиска
общей информации по теме, не вдаваясь в подробности, тогда как AltaVista и
Google более результативны для поиска отдельных документов.
Список возвращенных документов (или указателей на документы) называется
результирующим множеством. Поисковые системы различаются по уровню слож-
ности. Большинство поисковых систем предоставляет простые функции поиска,
с помощью которых в предметном указателе ищется одно или несколько ключевых
слов и возвращаются указатели на документы, в которых найдено
любое
вхождение
ключевого слова. Наличие нескольких ключевых слов интерпретируется как требо-
вание выполнения логического оператора or (или). Поисковая система Google
[Goo] предоставляет пользователям простой интерфейс. Искомые термины объеди-
няются с помощью логического оператора and (и), при этом возвращаются ссылки
только на документы, содержащие все ключевые слова. Усовершенствованная вер-
сия поисковой системы AltaVista [Alt] и ее вариант Raging [Rag] имеют более
сложный интерфейс: пользователи могут использовать любую комбинацию опера-
торов and (и), or (или), not (не) и near
(около).
Оператор not (не) представляет со-
бой унарное отрицание, и документы, содержащие искомый термин, исключаются
из результирующего множества. Оператор near (около) используется для задания
расстояния между ключевыми словами в документе Путем сочетаний различных
операторов можно получить результирующее множество, соответствующее требо-
ваниям пользователя и содержащее умеренное число документов.
Двумя основными показателями поисковых систем, выработанными в результа-
те многолетних исследований, являются полнота (recall) и точность (precision).
Полнота оценивает широту охвата искомого множества, т.е. объем результирующе-
го множества как функция от размера списка документов, в которых встречаются
искомые ключевые слова. Если объем результирующего множества большой, поль-
зователи могут быть уверены, что они получили полный ответ. К сожалению, при-
нимая во внимание неоднозначность естественного языка, большинство «ответов»
в результирующем множестве могут не устраивать пользователя.
Предположим, например, что пользователь хочет узнать имя создателя храма
Парфенон в Греции. Строка поиска «создатель Парфенона» может вернуть множе-
ство страниц, относящихся к издательской компании «Парфенон», к греческим
ресторанам под названием «Парфенон», а также к различным архитекторам. Пока-
зателем качества ответа является
точность —
уместность документов в данном ре-
зультирующем множестве. Часто полнота и точность являются взаимоисключаю-
щими: возврат меньшего числа документов может увеличить точность, но полнота
при этом уменьшится. Аналогично, более широкое результирующее множество
в целом снижает точность. Противоречие между точностью и полнотой во многом
остается неразрешимым, и многие поисковые системы тратят массу усилий, пыта-
ясь повысить релевантность, возвращая, тем не менее, результирующее множество
достаточно большого объема. Сложность запросов на естественном языке и отсут-
ствие универсальных методов их обработки приводит к низкому качеству резуль-