
Поиск в индексе веб-страниц
Программы для поиска в веб позволяют пользователям проводить поиск в своих индексах с
помощью тех методов обработки информации, которые были описаны в главе 10. Индексы
организованы так, чтобы можно было эффективно выполнять поиск сразу по большому числу
запросов. Поскольку индексные записи низкого качества, а пользователи, скорее всего, слабо
подготовлены, поисковые программы следуют стратегии, согласно которой идентифицируются
все записи, которые хотя бы приблизительно подходят под запрос и выводят их на экран,
ранжируя тем или иным способом.
Большинство пользователей этих программ, скорее всего, находят их весьма полезными, но
отметят ряд проблем. Алгоритмы ранжирования дают мало информации о том, на каком
основании принимается решение о расположении записей в списке. В результате наивысший
ранг может быть присвоен странице с минимальной ценностью для пользователя, а
действительно полезные страницы будут далеко внизу списка. Программы индексирования с
трудом распознают дубликаты, хотя и пытаются группировать похожие записи. А поскольку
похожие записи обычно имеют сходный ранг, программы выводят длинные списки
практически идентичной информации. Любопытный подход к ранжированию предложен в
поисковой системе Google, которая подсчитывает гиперссылки. Google особенно эффективна
при поиске вводных или обзорных материалов по конкретной теме.
Роботы исследуют веб постоянно и - вероятно - могут найти практически все. Однако
важные материалы могут дожидаться индексирования месяцами после их появления в веб. С
другой стороны, нельзя назвать правильным возвращение к материалам, если много индексных
записей указывают на них, как на больше не существующие или перенесенные на другое место.
Врезка 11.1
Ранжирование страниц и система Google
Анализ цитирования (citation analysis) представляет собой инструмент, который часто
используется в науке. Статьи, которые ссылаются друг на друга, очевидно, близки по тематике,
а наиболее часто цитируемые статьи, вероятно, более важны, чем те, на которые не ссылались
никогда. Lawrence Page, Sergey Brin и их коллеги из Стэнфордского университета использовали
эту концепцию для веб, взяв за основу ранжирования страниц число гиперссылок. Они создали
экспериментальную программу поиска, известную как Google.
В качестве примера, рассмотрим поиск по запросу "Stanford University" в различных
программах поиска в веб. В Стэнфорде существует более 200 000 веб-страниц. Большая часть
поисковых программ не может отделить действительно информативные и полезные страницы -
от представляющих весьма относительный интерес. Все программы найдут огромное число
страниц, отвечающих этому запросу, но в большинстве случаев ранжирование результатов
будет неадекватным и сайты, которые большинство людей сочтут важнейшими, окажутся не в
начале списка.
Когда запрос выполняется в Google, список первых 10 записей следующий:
Stanford University Homepage (www.stanford.edu/)
Stanford University Medical Center (www-med.stanford.edu/)
Stanford University Libraries & Information Resources (www-sul.stanford.edu/)
Stanford Law School (www-leland.stanford.edu/group/law/)
Stanford Graduate School of Business (www-gsb.stanford.edu/)
Stanford University School of Earth Sciences (pangea.stanford.edu/)
SUL: Copyright & Fair Use (fairuse.stanford.edu/)
Computer Graphics at Stanford University (www-graphics.stanford.edu/)
SUMMIT (Stanford University) Home Page (summit.stanford.edu/)
Stanford Medical Informatics (camis.stanford.edu/)
Большинство людей согласиться, очевидно, что это хороший список.
Основной метод, которым пользуется Google, прост: более высокий ранг присваивается
странице, на которую существует большее количество гиперссылок, а ссылки с таких страниц
"весят" больше, чем ссылки с других. Поскольку множество страниц в мире содержит ссылки