43
Поисковые системы
На сегодняшний день насчитывается около 1 900 000 серверов в Интернет. Каждую
секунду в Сети появляются новые материалы, какая-то их часть по разным причинам
удаляется с серверов, другая - меняет адресацию. По оценкам, средний срок нахождения
информации по конкретному адресу - полгода. Это постоянное обновление с
одновременным ростом объема информационного массива делает крайне сложным доступ
к большинству документов, представленных в Интернет.
Таким образом, сведения, представляющие огромную ценность часто остаются
невостребованными пользователями по единственной причине огромной трудоемкости их
поиска. Ситуация в данном случае очень напоминает известную задачу поиска иголки в
стоге сена. Важность проблемы информационного поиска в Интернет породила целую
отрасль, задача которой заключается именно в том, чтобы помочь пользователю в его
навигации в киберпространстве.
В силу огромных размеров Сети, в большинстве случаев пользователь даже
приблизительно не знает, где искать те или иные данные, поэтому сложившейся к
настоящему моменту практикой поиска в Интернет остается обращение к специальным
поисковым серверам.
Поисковый сервер - это специализированный компьютер, который непрерывно
автоматически исследует ресурсы Сети, составляет каталоги, описания.
Все поисковые машины, предназначенные для сети Интернет, имеют более или
менее схожие принципы работы. Компактные копии документов, известных серверам
поисковых систем, хранятся на локально на поисковом сервере. Для хранения таких
огромных массивов информации здесь применяется технология хранилищ данных.
Каждая из поисковая машина опрашивает свой банк данных по ключевым словам или
фразам, которые Вы указываете при определении сценария поиска. Различие состоит
лишь в объёме просматриваемой информации и алгоритме поиска, плюс, в наличии
дополнительных сервисов (например, встроенных тематических каталогов или рейтинга
индексируемых страниц). Невероятно распространено заблуждение, что во время поиска
по Вашему запросу поисковая машина обходит миллионы известных ей адресов и сверяет
соответствие ключевых слов содержимому "свежих" гипертекстов. Не так! Поиск ведется
в базе локальной машины, а в ответ на Ваш запрос выдаются подходящие адреса во всех