называемых 5МЛ7?Г-технологий автоматической каталогизации.
Существует множество теоретических изысканий в области 5МЛ/?Г-
технологий, но наиболее перспективной является модель векторного
информационного пространства. Представим себе эксперта в какой-то области,
например в юриспруденции. Если ему поставить задачу, то, наверное, он
сможет составить словари, характерные для таких областей, как Авторское
право, Гражданское право, Уголовное право и т. п. Проанализировав множество
документов, относящихся к этим научным областям, он сможет не только
указать характерные термины и понятия, но и дать им весовые оценки. Так,
например, достаточно очевидно, что слово «договор» имеет больший вес в
документах гражданского права, чем уголовного. Комбинируя термины и
весовые коэффициенты, можно строить многомерные системы координат, в
которых различные области знания описывались бы разными многомерными
векторами.
Автоматически получив новую Web-страницу, поисковая система может
построить для нее математический вектор, основанный на формальном анализе
содержания. А сравнивая этот вектор с уже рассчитанными векторами для
различных областей знания, система может без участия человека
предположить, к какой категории, теме и разделу относится тот или иной
документ.
При таком подходе не обязательно хранить копии всех известных Web-
страниц, как не надо хранить и их поисковые указатели. Вполне достаточно для
каждого Web-документа хранить лишь его £/Ж,-адрес и число,
соответствующее вектору. В настоящее время конкретные алгоритмы 5МЛ/?Г-
технологий не публикуются, поскольку представляют ноу-хау, но мы можем
предположить, что они уже работают, например в поисковых системах
реального времени, таких, как Alexa (www.alexa.com).
Поисковые системы реального времени. Это новое направление в
технологиях поиска информации мы рассмотрим на примере поисковой
службы Alexa (www.alexa.com). Для работы с этой службой пользователь
должен подключиться к ее центральному серверу, получить оттуда и
установить на своем компьютере клиентскую программу. Эта программа
подключается к броузеру и работает как дополнительная панель в окне
Microsoft Internet Explorer или Netscape Navigator.
При каждом запуске броузера клиентская программа устанавливает
соединение со своим центральным сервером и далее работает с ним в паре. Она
передает серверу копии всех Web-страниц, которые посещает пользователь, то
есть выполняет те же функции, что и автоматический червь, копирующий Web-
ресурсы на сервер традиционной поисковой системы. Однако при этом есть два
существенных различия:
• во-первых, человек в ходе навигации в WWW руководствуется не теми
принципами, что автоматическая программа, поэтому сервер получает копии не
всех Web-ресурсов, а только тех, что заинтересовали кого-то из его клиентов;
• во-вторых, понятно, что когда поставкой Web-ресурсов занимаются
несколько миллионов постоянных клиентов, то индексация Web-пространства