Симонович С.В. (ред.) Информатика для юристов и экономистов

Подождите немного. Документ загружается.

содержательная часть поискового указателя. Каждая система использует

собственную поисковую программу и хранит в тайне алгоритм ее работы от

конкурентов.

Индексация базы данных. Собранная база данных сетевых Web-ресурсов

— это хорошая, но не достаточная основа для функционирования поисковой

системы.

С ее ломощыо уже можно обслуживать запросы клиентов, но нельзя

делать это быстро. Поиск ключевых слов, введенных пользователем, в

обширной базе — это весьма продолжительная операция. Нежелательно

задерживать клиента более чем на доли секунды, поэтому собранные базы

данных проходят предварительную обработку, называемую индексацией. На

этапе индексации создаются специализированные документы — поисковые

указатели.

С простейшим указателем вы знакомы по работе с учебными пособиями.

Нередко в конце книг приводится предметный указатель, с помощью которого

можно по термину быстро найти страницу книги, на которой этот термин

раскрывается. Аналогично устроены и поисковые указатели. Простейший тип

поискового указателя называется обратным файлом. Это просто словарь, в

который входят все слова, встреченные при просмотре Web-ресурсов. Против

каждого слова приводится список ссылок, указывающих на местоположение

соответствующих ресурсов в базе данных.

При получении списков ключевых слов от пользователя просмотр

поискового указателя происходит очень быстро, так как он предварительно

отсортирован по алфавиту. В результате клиент достаточно быстро получает

список ссылок с интересующими его Web-ресурсами.

Рафинирование результирующего списка. Это третий этап работы, в

ходе которого осуществляется взаимодействие с пользователем. На этом этапе

создается список ссылок, который будет передан пользователю в качестве

результирующего. Пользовательское представление о качестве работы

поисковой системы напрямую зависит от технологий, использованных на этом

этапе.

Рафинирование результирующего списка заключается в фильтрации и

ранжировании результатов поиска. Под фильтрацией понимается отсев ссылок,

которые выдавать пользователю нецелесообразно. Прежде всего проверяется

наличие дубликатов. Если система в одном списке выдает множество ссылок,

ведущих к одному и тому же Web-ресурсу, это говорит о том, что ее средства

добросовестно отработали два первых этапа, но ничего не сделали на третьем

этапе. Дублирующиеся ссылки перегружают результирующий список и

затрудняют выбор действительно полезных ресурсов.

Ранжирование заключается в создании специального порядка

представления результирующего списка, при котором наиболее «полезные» (с

точки зрения поисковой системы) ссылки приводятся в вершине списка, а

наименее полезные — в его конце. Понимание критерия «полезности» для

клиента той или иной ссылки может быть самым разнообразным. Именно

поэтому разные поисковые системы, даже работающие с одинаковыми базами

261

ресурсов, выдают разные результаты поиска.

Прежде всего, при ранжировании учитывается количество появлений

ключевых слов в Web-документе. Принцип «чем больше, тем лучше»

достаточно очевиден, но не слишком корректен. На самом деле хорошо, когда

искомое слово появляется достаточно часто в начале документа, в его первых 5-

10 абзацах, а прочие части документа учитываются меньше. Очень хорошо,

когда ключевые слова встречаются в заголовках документа и в подрисуночных

подписях.

Интеллектуальные системы могут проверять также наличие

сопутствующих слов. Так, например, по результатам анализа содержимого

множества Web-страниц, выполненного еще на этапе индексации, может быть

установлено, что словам электронная коммерция очень часто сопутствуют

слова цифровая подпись и платежные системы. Если поисковая система об этом

знает, то, получив от клиента запрос на поиск по словам электронная

коммерция, она в вершине списка расположит те Web-страницы, на которых

также встречаются упоминания о цифровой подписи и о платежных системах.

Всюду, где можно, автоматические системы стремятся полагаться на

«человеческий фактор». Автоматической системе сделать это непросто, но

специальные технологии имеются. Так, например, еще на этапе индексации

высокий рейтинг могут получать те страницы, на которые имеется больше

ссылок с других Web-страниц. Поскольку гиперссылки создают люди, а не

машины, то этот факт можно использовать в качестве субъективной оценки

более высокой «полезности» тех документов, которые чаще цитируются.

В рамках этой книги мы не можем охватить все те приемы, которые

используют поисковые системы на этапе формирования результирующего

списка, но роль этого этапа трудно переоценить. Попробуйте работу с

несколькими поисковыми системами и посмотрите, как у них обстоит дело с

фильтрацией и ранжированием результатов. Вы, наверное, заметите, что

тщательная фильтрация и разумное ранжирование воспринимаются

потребителем как показатель качества работы системы.

Основные проблемы современных поисковых указателей

Большинство крупнейших поисковых указателей мира в настоящее время

находятся в кризисном состоянии. У общего кризиса поисковых систем есть

ряд объективных причин. Все они связаны с объективными противоречиями,

возникающими в ходе развития World Wide Web. В разных странах эти

кризисные явления проявляются по-разному. Забегая вперед, скажем, что для

российских поисковых систем эти проблемы пока незаметны.

Основным противоречием, определяющим кризисную ситуацию в

поисковых системах, является несоответствие динамики развития

информационного пространства Web и самих поисковых систем. На ранних

этапах, когда поисковые системы еще только формировались в виде

лабораторных проектов, коэффициент охвата Web-ресурсов достигал 50%. В

1994 г. количество Web-ресурсов составляло немногим более 100 млн Web-

страниц, из которых десятки миллионов были проиндексированы.

262

К 1999 г. коэффициент охвата упал примерно до 30%, а в 2000 г. не

превышает 20%, причем с каждым днем он продолжает падать. Пространство

Web развивается усилиями десятков миллионов людей, и несколько поисковых

систем просто не успевают его индексировать.

Второе противоречие — чисто экономическое. На рубеже 1997-1998 гг.

развитие информационного пространства Web достигло таких масштабов, что

для его индексации потребовалось привлекать намного более мощные

аппаратные, программные и кадровые ресурсы, чем ранее. В этот же период

интересы крупных инвесторов начали обращаться к информационным службам

Интернета. В результате произошло акционирование ряда поисковых систем.

Это повлияло на характер их работы, поскольку администрации поисковых

систем были вынуждены сосредоточиться не столько на индексации бурно

растущего Web-пространства, сколько на обеспечении интересов акционеров.

Ряд крупных поисковых систем начали после 1997 г. искусственно тормозить

индексацию Web-ресурсов и сосредоточились на коммерческой стороне

деятельности. По сути, многие из популярных в прошлом поисковых систем

превратились сегодня в удобные и красивые Web-порталы, но с задачами

научного поиска справляются неудовлетворительно.

По мере роста WWW наметились и противоречия, связанные с

интересами клиентов. Их уже не устраивают исчерпывающие списки

гиперссылок, ведущих к нужным Web-ресурсам. Когда поисковая система

выдает слишком много ссылок, воспользоваться ими столь же трудно, как когда

она выдает их слишком мало. Клиенту нужно столько ссылок, сколько он в

состоянии охватить, причем ему желательны «самые лучшие» ссылки. Это

также притормозило в последние два года работы по индексации Web.

Некоторые поисковые системы вообще прекратили заниматься сбором

информации и ее анализом. Вместо этого они переадресуют запросы клиентов

другим поисковым системам, хорошо оснащенным технически, а сами

сосредотачиваются только на третьем этапе — фильтрации и ранжировании

полученных результатов. Так, например, многие поисковые системы опираются

на поисковую систему Inktomi (www.inktomi.com), которая выполняет

поисковые операции по заказу других поисковых систем.

Выше мы сказали, что кризисные явления пока не затронули

отечественные поисковые системы. Это действительно так, и связано с тем, что

российские поисковые системы используют технологии 2000 г., работая с

информационным пространством всего лишь в несколько десятков миллионов

Web-страниц, что примерно соответствует ситуации 1993 г. для стран Запада.

Это дает российским поисковым системам хорошее преимущество и запас в

несколько лет, прежде чем они столкнутся с кризисными явлениями.

Новейшие поисковые технологии

Автоматическая каталогизация. Противоречие между размерами

исследованного и неисследованного Web-пространства для поисковых

каталогов еще острее, чем для поисковых указателей. Тем не менее, здесь есть

перспективные направления развития. Они основаны на внедрении так

263

называемых 5МЛ7?Г-технологий автоматической каталогизации.

Существует множество теоретических изысканий в области 5МЛ/?Г-

технологий, но наиболее перспективной является модель векторного

информационного пространства. Представим себе эксперта в какой-то области,

например в юриспруденции. Если ему поставить задачу, то, наверное, он

сможет составить словари, характерные для таких областей, как Авторское

право, Гражданское право, Уголовное право и т. п. Проанализировав множество

документов, относящихся к этим научным областям, он сможет не только

указать характерные термины и понятия, но и дать им весовые оценки. Так,

например, достаточно очевидно, что слово «договор» имеет больший вес в

документах гражданского права, чем уголовного. Комбинируя термины и

весовые коэффициенты, можно строить многомерные системы координат, в

которых различные области знания описывались бы разными многомерными

векторами.

Автоматически получив новую Web-страницу, поисковая система может

построить для нее математический вектор, основанный на формальном анализе

содержания. А сравнивая этот вектор с уже рассчитанными векторами для

различных областей знания, система может без участия человека

предположить, к какой категории, теме и разделу относится тот или иной

документ.

При таком подходе не обязательно хранить копии всех известных Web-

страниц, как не надо хранить и их поисковые указатели. Вполне достаточно для

каждого Web-документа хранить лишь его £/Ж,-адрес и число,

соответствующее вектору. В настоящее время конкретные алгоритмы 5МЛ/?Г-

технологий не публикуются, поскольку представляют ноу-хау, но мы можем

предположить, что они уже работают, например в поисковых системах

реального времени, таких, как Alexa (www.alexa.com).

Поисковые системы реального времени. Это новое направление в

технологиях поиска информации мы рассмотрим на примере поисковой

службы Alexa (www.alexa.com). Для работы с этой службой пользователь

должен подключиться к ее центральному серверу, получить оттуда и

установить на своем компьютере клиентскую программу. Эта программа

подключается к броузеру и работает как дополнительная панель в окне

Microsoft Internet Explorer или Netscape Navigator.

При каждом запуске броузера клиентская программа устанавливает

соединение со своим центральным сервером и далее работает с ним в паре. Она

передает серверу копии всех Web-страниц, которые посещает пользователь, то

есть выполняет те же функции, что и автоматический червь, копирующий Web-

ресурсы на сервер традиционной поисковой системы. Однако при этом есть два

существенных различия:

• во-первых, человек в ходе навигации в WWW руководствуется не теми

принципами, что автоматическая программа, поэтому сервер получает копии не

всех Web-ресурсов, а только тех, что заинтересовали кого-то из его клиентов;

• во-вторых, понятно, что когда поставкой Web-ресурсов занимаются

несколько миллионов постоянных клиентов, то индексация Web-пространства

264

происходит намного быстрее.

В свою очередь, пользователь тоже имеет важное преимущество. На

какой бы Web-странице он ни находился, система всегда готова предложить

ему список других Web-страниц, имеющих близкое по тематике содержание.

Она готовит этот список на основании предшествующего опыта, полученного в

работе с другими людьми.

Так можно получить рекомендации, которые было бы очень трудно (а

зачастую и невозможно) разыскать в WWW традиционными поисковыми

средствами. Работа с поисковой системой реального времени превращает

обычную навигацию по Web-ресурсам в увлекательное интерактивное

исследование (рис. 7.8).

Рис. 7.8. При просмотре Web-страницы Центра электронной

коммерции Alexa предлагает ссылки на другие Web-страницы,

тоже посвященные электронной коммерции

Рекомендации по приемам эффективного поиска

Для проведения реферативного поиска, когда тема задана достаточно

широко, рекомендуется пользоваться поисковыми каталогами, такими, как

Yahoo! (www.yahoo.com) или «Атрус» (atrus.aport.ru). Это позволит быстро

установить местоположение основных первоисточников. При ознакомлении с

первоисточниками следует прежде всего, уделять внимание понятийной базе.

Знание основных понятий и терминов позволит перейти к углубленному поиску

в поисковых указателях с использованием ключевых слов, наиболее точно

характеризующих тему.

265

При наличии первичных сведений по теме поиска, документы можно

разыскивать в поисковых указателях. При этом следует различать приемы

простого, расширенного, контекстного и специального поиска.

Под простым поиском понимается поиск Web-ресурсов по одному или

нескольким ключевым словам. Недостаток простого поиска заключается в том,

что обычно он выдает слишком много документов, среди которых трудно

выбрать наиболее подходящие.

При использовании расширенного поиска ключевые слова связывают

между собой операторами логических отношений. Расширенный поиск

применяют в тех случаях, когда приемы простого поиска дают слишком много

результатов. С помощью логических отношений поисковое задание формируют

так, чтобы более точно детализировать задание и ограничить область отбора,

например по дате публикации или по типу данных.

Контекстный поиск — это поиск по точной фразе. Он удобен для

реферативного поиска информации, но доступен далеко не во всех поисковых

системах. Прежде всего, чтобы обеспечивать такую возможность, система

должна работать не только с индексированными файлами, но и с

полноценными образами Web-страниц. Эта операция достаточно медленная, и

ее выполняют не все поисковые системы.

Специальный поиск применяют при розыске Web-страниц, содержащих

ссылки на заданные адреса URL, а также содержащих заданные данные в

служебных полях, например в поле заголовка.

Рекомендации по использованию поисковых систем

Для проведения научных поисков, в частности по темам, относящимся к

праву и экономике, рекомендуется пользоваться поисковой системой Northern

Light (www.northernlight.com). Эта система имеет один из лучших

коэффициентов охвата Web-пространства, и ее администрация прилагает

специальные усилия для поддержания актуальности своих указателей. Кроме

того, система удачно сочетает свойства поискового указателя и каталога. По

наиболее популярным темам в ней можно найти специальные разделы

каталожного типа — они называются Special Editions и подготавливаются

вручную. Дополнительно система предоставляет платные услуги по поставке

актуальных научных документов..Они находятся в разделе Special Collection.

Самым большим поисковым указателем обладает поисковая система Fast

Search (www.alltheweb.com). К моменту написания данной книги он охватывает

более 400 млн. уникальных Web-страниц и очень быстро развивается. Всего за

один год после запуска эта поисковая система вышла на первое место в мире по

объему проиндексированного пространства, и, как предполагается, в течение

2001 г. первой достигнет психологического рубежа одного миллиарда

уникальных Web-страниц.

Исторически одной из наиболее популярных считается поисковая

система Alta Vista (www.altavista.com), однако начиная с 1997 г. она отстает в

динамике развития и все более ориентируется на коммерческие решения. Тем

не менее, она по-прежнему считается одной из лучших для операций

266

контекстного поиска, хотя в последние дни система Fast Search тоже начала

предоставлять услуги контекстного поиска.

В России в настоящее время действуют три примерно одинаковых по

мощности поисковых указателя: «Апорт 2000» (www.aport.ru), «Рэмблер»

(www.rambler.ru) и Yandex (www.yandex.ru). Все они обладают примерно

одинаковым «знанием» о ресурсах российского сектора WWW и работают

достаточно быстро. Систему «Апорт 2000» удобно использовать в операциях

простого поиска — ее отличает особо внимательный подход к фильтрации и

ранжированию результатов. В этой системе приняты специальные меры по

устранению дубликатов, удалению неактуальных ссылок и наглядному

представлению результатов поиска. Система «Рэмблер» по своей сути является

не только поисковой, но и выполняет функции удобного Web-портала. Систему

«Яndех» удобно использовать при формировании сложных поисковых заданий,

поскольку она обладает наиболее гибким языком для расширенного поиска.

ПРАКТИЧЕСКОЕ ЗАНЯТИЕ

Упражнение 7.1. Настройка начальной страницы

броузера Microsoft Internet Explorer

10 мин

1.Запустите программу Internet Explorer (Пуск > Программы > Internet

Explorer).

2.Если сразу после запуска программа пытается загрузить какую-то Web-

страницу, прервите загрузку щелчком на кнопке Стоп. По записи в строке

Адрес установите URL-адрес страницы, которую броузер использовал в

качестве начальной.

3.Дайте команду Сервис > Свойства обозревателя. В открывшемся

диалоговом окне Свойства обозревателя откройте вкладку Общие.

4.На панели Домашняя страница разыщите поле Адрес. По записи в этом

поле установите URL-адрес страницы, которую броузер должен использовать в

качестве начальной.

5.Щелкните на кнопке С пустой. Убедитесь, что в поле адреса начальной

страницы появилась запись about: blank. Это говорит о том, что при

последующих запусках программа не будет автоматически загружать никакую

Web-страницу в качестве начальной.

6.Щелкните на кнопке Применить, после чего закройте диалоговое окно

Свойства обозревателя щелчком на кнопке ОК.

7.Закройте окно программы.

8.Повторно запустите программу, как указано в п. 1.

9.Убедитесь, что после запуска программы не загружается никакая

начальная страница, а в поле Адрес записано выражение aboutblank.

10. Закройте окно программы.

267

Мы научились настраивать броузер таким образом, чтобы он не выполнял загрузку начальной страницы при

запуске. Это полезно, чтобы внешние загрузки не мешали нам заниматься другими настройками программы.

Если в будущем понадобится задать начальную страницу, это можно будет сделать соответствующими

настройками в диалоговом окне Сервис > Свойства обозревателя > Общие.

Упражнение 7.2. Настройка рабочего окна броузера

Microsoft Internet Explorer

20 мин

В состоянии поставки броузер Microsoft Internet Explorer 5.0 рассчитан на

работу с экраном, имеющим разрешение 1024x768 точек. Настройки панелей

управления программы таковы, что если видеоподсистема компьютера имеет

меньшее разрешение, то не все элементы управления могут отображаться в

пределах рабочего окна. В этом упражнении мы научимся настраивать рабочее

окно программы таким образом, чтобы с ним было удобно работать на

компьютерах, имеющих экранное разрешение 800x600 и даже 640x480 точек.

1.Запустите программу Internet Explorer (Пуск > Программы > Internet

Explorer).

2.Дайте команду Вид > Панели инструментов. В раскрывающемся меню

убедитесь, что флажками отмечены только пункты Обычные кнопки и

Адресная строка. Если отмечены другие пункты, сбросьте соответствующие

флажки.

3.Дайте команду Вид > Панели инструментов > Настройка. Откроется

диалоговое окно Настройка панели инструментов (рис. 7.9).

Рис. 7.9. Средства настройки панели инструментов Internet Explorer

4.В раскрывающемся списке Текст кнопки выберите пункт Без подписей

к кнопкам. Это не помешает узнать назначение любой кнопки, поскольку при

наведении на нее появляется всплывающая подсказка.

5.В раскрывающемся списке Размер значка выберите пункт Мелкие

268

значки.

6.Сравните два списка: Имеющиеся кнопки и Панель инструментов. В

списке Имеющиеся кнопки приведен список командных кнопок, которые

можно отобразить на панели инструментов. В списке Панель инструментов

приведен список кнопок, которые должны отображаться. Изменение состава

кнопок выполняют с помощью командных кнопок Удалить и Добавить.

7.Удалите все «лишние» кнопки с панели инструментов, оставив только

кнопки, связанные с навигацией в World Wide Web. Этих кнопок пять: Назад,

Вперед, Остановить, Обновить и Журнал.

8.Закройте диалоговое окно Настройка панели инструментов щелчком на

командной кнопке Закрыть.

9.Справа от панели Адрес разыщите кнопку Переход. Щелкните на ней

правой кнопкой мыши и в открывшемся контекстном меню сбросьте флажок у

пункта Кнопка «Переход».

10. Перетащите с помощью мыши (при нажатой левой кнопке) панель

инструментов на правый край строки меню. Перетаскивание выполняется за

рубчик, имеющийся на левом краю панели. В результате окно программы

должно приобрести компактный вид, аналогичный представленному на рис.

7.10.

11. Закройте окно программы Microsoft Internet Explorer

Рис. 7.10. «Компактное» окно Internet Explorer

Мы научились настраивать окно броузера таким образом, чтобы с ним было удобно работать при

низком экранном разрешении. Если понадобится восстановить настройки такими, какими они были

заданы по умолчанию, это можно сделать командой Вид» Панели инструментов > Настройка > Сброс.

Упражнение 7.3. Настройка системы безопасности

программы Microsoft Internet Explorer 5.0

20 мин

269

1.Запустите программу Internet Explorer (Пуск > Программы > Internet

Explorer). Если при запуске программы происходит автоматическая загрузка

какой-либо Web-страницы, примите меры, как указано в упражнении 7.1.

2.Дайте команду Сервис > Свойства обозревателя — откроется

диалоговое окно Свойства обозревателя. В этом окне выберите вкладку

Дополнительно (рис. 7.11).

Рис. 7.11. Настройка системы безопасности броузера Internet Explorer

3.Ha вкладке Дополнительно сбросьте флажок Задействовать профиль —

тогда программа не будет передавать сведения о личности пользователя по

запросам удаленных серверов.

4.Там же сбросьте флажок Автоматически проверять обновления Internet

Explorer, чтобы программа самостоятельно не обращалась к «своему» серверу

без ведома пользователя.

5.Сбросьте флажок Использовать автозаполнение для веб-адресов.

Функция автозаполнения позволяет посторонним лицам выяснять, куда

обращался владелец системы.

6.Сбросьте флажок Разрешить счетчик попаданий на страницы. Этот

счетчик связан с ведением на компьютере пользователя «журнала посещений»,

270