- 93 -
чевые слова и связанные с ними адреса страниц, а уже в этих базах данных
проводится поиск. Таким образом, поисковые машины состоят из программ,
собирающих информацию для базы данных, собственно базы, и программ
для поиска в этой базе данных.
Индексируют информацию так называемые роботы (сrawlers, spiders и
пр.) - специальные программы, которые ‘
ползают’ по сети, просматривают
файлы и создают индексы, причем весь процесс происходит автоматически
(разработчик WEB-сайта может ограничивать деятельность роботов с помо-
щью файла ROBOTS.TXT). Полнотекстовые поисковые машины индекси-
руют каждое слово на WEB-странице (исключая лишь некоторые зарезерви-
рованные слова), абстрактные поисковые машины создают некий экстракт
каждой страницы.
Кроме этого, существуют и
так называемые мета-системы, представ-
ляющие собой интерфейсы для одновременного поиска с помощью несколь-
ких поисковых машин. Так же многие поисковые системы содержат не толь-
ко интерфейс для работы с индексом, но и каталоги.
К наиболее известным поисковым системам относятся AltaVista (разра-
ботка фирмы DEC, рис.7.13), Яndex (CompTek International), RAMBLER
(Stack Ltd., ориентирована на
русскоязычный InterNet, рис.7.14), каталог
YAHOO, синтез каталога и поисковой машины Lycos и др. Всего в Сети
имеется около 600 систем поиска (см. www.beaucoup.com/engines.html),
доступ к некоторым наиболее известным поисковым системам возможен по
адресу pilger.mgapi.edu/right_7.htm#lab_4).
При просмотре сайтов как раз и происходит накопление ключевых слов.
Многие поисковые системы учитывают информацию из тега <meta
name=keywords content=...> (заполняемого
разработчиком WEB-страницы)
при создании массива ключевых слов. Поисковая машина RAMBLER, на-
пример, игнорирует содержимое этого тега и осуществляет сканирование
HTML-текста в поисках ключевых слов с учетом расположения и частоты их
встречаемости, разработчики RAMBLER’а считают, что такой подход по-
вышает релевантность (уровень соответствия между текстом запроса и до-
кумента, к которому
этот запрос направлен) при поиске по ключевым сло-
вам.
Таким образом, поисковые системы постоянно накапливают информа-
цию о ресурсах сети InterNet и используют ее при запросах на поиск.
Применяются следующие модели индексирования и поиска - векторная
модель информационного потока, основанная на теории нечетких множеств
модель, вероятностная модель. Используются следующие типы информаци-
онно
поисковых языков (ИПЯ) - традиционные ИПЯ, системы взвешивания
терминов, ИПЯ типа ‘Like this’. В качестве способов коррекции результатов
поиска применяются методы фильтрации, коррекции по релевантности, кла-
стеризации. Используются следующие механизмы улучшения запроса - про-