няют выбор действительно полезных ресурсов.
Ранжирование заключается в создании специального порядка представле-
ния результирующего списка, при котором наиболее «полезные» (с точки зре-
ния поисковой системы) ссылки приводятся в вершине списка, а наименее по-
лезные — в его конце. Понимание критерия «полезности» для клиента той или
иной ссылки может быть самым разнообразным. Именно поэтому разные поис-
ковые системы, даже работающие с одинаковыми базами ресурсов, выдают
разные результаты поиска.
Прежде всего, при ранжировании учитывается количество появлений
ключевых слов в Web-документе. Принцип «чем больше, тем лучше» достаточ-
но очевиден, но не слишком корректен. На самом деле хорошо, когда искомое
слово появляется достаточно часто в начале документа, в его первых 5-10 абза-
цах, а прочие части документа учитываются меньше. Очень хорошо, когда клю-
чевые слова встречаются в заголовках документа и в подрисуночных подписях.
Интеллектуальные системы могут проверять также наличие сопутствую-
щих слов. Так, например, по результатам анализа содержимого множества Web-
страниц, выполненного еще на этапе индексации, может быть установлено, что
словам электронная коммерция очень часто сопутствуют слова цифровая под-
пись и платежные системы. Если поисковая система об этом знает, то, получив
от клиента запрос на поиск по словам электронная коммерция, она в вершине
списка расположит те Web-страницы, на которых также встречаются упомина-
ния о цифровой подписи и о платежных системах.
Всюду, где можно, автоматические системы стремятся полагаться на «че-
ловеческий фактор». Автоматической системе сделать это непросто, но специ-
альные технологии имеются. Так, например, еще на этапе индексации высокий
рейтинг могут получать те страницы, на которые имеется больше ссылок с дру-
гих Web-страниц. Поскольку гиперссылки создают люди, а не машины, то этот
факт можно использовать в качестве субъективной оценки более высокой «по-
лезности» тех документов, которые чаще цитируются.
В рамках этой книги мы не можем охватить все те приемы, которые ис-
пользуют поисковые системы на этапе формирования результирующего списка,
но роль этого этапа трудно переоценить. Попробуйте работу с несколькими по-
исковыми системами и посмотрите, как у них обстоит дело с фильтрацией и
ранжированием результатов. Вы, наверное, заметите, что тщательная фильтра-
ция и разумное ранжирование воспринимаются потребителем как показатель
качества работы системы.
Основные проблемы современных поисковых указателей
Большинство крупнейших поисковых указателей мира в настоящее время
находятся в кризисном состоянии. У общего кризиса поисковых систем есть
ряд объективных причин. Все они связаны с объективными противоречиями,
возникающими в ходе развития World Wide Web. В разных странах эти кри-
зисные явления проявляются по-разному. Забегая вперед, скажем, что для рос-
сийских поисковых систем эти проблемы пока незаметны.
Основным противоречием, определяющим кризисную ситуацию в поис-