Симонович С.В. (ред.) Информатика для юристов и экономистов

Подождите немного. Документ загружается.

Предполагается, что он должен выдавать необходимое предупреждение и в слу-

чае, если его услугами пользуются несовершеннолетние лица, воздерживаться

как от простановки, так и от чтения ранее поставленных маркеров. Такой под-

ход безусловно содействовал бы прекращению негласного сбора информации о

клиентах.

Порядок настройки броузера Microsoft Internet Explorer для отключения

приема маркеров cookie рассмотрен в упражнении 7.3. Другие броузеры имеют

аналогичные средства настройки.

Другие источники персональной информации. Кроме маркеров cookie ис-

точником для сбора сведений о клиентах Сети является информация, легально

поставляемая броузером. Во время связи по протоколу HTTP броузер сообщает

свое название, номер версии, тип операционной системы компьютера клиента и

URL-адрес Web-страницы, которую клиент посещал в последний раз.

Кроме этого, у серверов есть приемы, позволяющие в некоторых случаях

получить адрес электронной почты клиента, хотя эти приемы используют толь-

ко негласно и потому правовой режим их сомнителен.

Еще одним источником персональной информации являются так называе-

мые активные сценарии JavaScript (Java-скрипты). Уязвимости системы защи-

ты, связанные с ними, рассмотрены нами в главе «Информационные техноло-

гии электронной коммерции».

7.4. ПОИСК ИНФОРМАЦИИ В WORLD WIDE WEB

Интернет имеет три функции: коммуникационную, информационную и

управленческую. Разные службы могут обеспечивать разные функции. Хотя в

рамках службы World Wide Web есть сервисы, исполняющие коммуникацион-

ные и управленческие функции, основное назначение этой службы — информа-

ционное. Когда нам нужно разыскать какие-то сведения, мы обращаемся за дан-

ными в первую очередь в информационное пространство Web.

Это пространство отличается гигантскими размерами. На момент написа-

ния данной книги в нем представлено более двух миллиардов Web-документов.

Найти среди них именно то, что нужно, — это особая, отнюдь не простая зада-

ча. Разумеется, можно пользоваться рекомендациями знакомых, коллег по ра-

боте, адресами URL, опубликованными в средствах массовой информации, но

службе WWW совершенно необходимы свои поисковые сервисы, и они суще-

ствуют. Эти сервисы работают бесплатно. Экономическую основу их деятель-

ности обеспечивает высочайший (по сравнению с другими сервисами) коэффи-

циент возврата клиентов, о решающей роли которого для электронной коммер-

ции рассказано в главе «Информационные технологии электронной

коммерции».

Поисковая система представляет собой специализированный Web-узел.

Пользователь сообщает поисковой системе данные о содержании искомой Web-

страницы, а система выдает ему список гиперссылок на страницы, соответству-

ющие запросу. Существует несколько моделей, на которых основана работа по-

251

исковых систем, но исторически две модели приобрели наибольшую популяр-

ность — это поисковые каталоги и поисковые указатели.

Поисковые каталоги

Поисковые каталоги устроены по тому же принципу, что и тематические

каталоги крупных библиотек. Обратившись к поисковому каталогу, мы нахо-

дим на его основной странице сокращенный список крупных тематических ка-

тегорий, например таких, как Экономика и предпринимательство (Business &

Economy), как показано на примере поискового каталога Yahoo! (рис. 7.6).

Каждая запись в списке категорий — это гиперссылка. Щелчок на ней

открывает следующую страницу поискового каталога, на котором данная тема

представлена подробнее, например по предметам: Предпринимательское право,

Защита прав потребителей, Экономические показатели и индикаторы рынка,

Реклама и маркетинг, Электронная коммерция и мн. др. Щелчок на названии

темы (например Электронная коммерция) открывает страницу со списком раз-

делов (Электронные платежные системы, Интернет-магазины, Налогообложе-

ние предприятий электронной коммерции, Программное обеспечение и т. д.).

Продолжая погружение в тему, можно дойти до списка конкретных Web-стра-

ниц и выбрать себе тот ресурс, который лучше подходит для решения задачи.

Рис. 7.6. Основная страница поискового каталога Yahoo!

Работа с поисковыми каталогами интуитивно проста. В них поиск инфор-

252

мации практически всегда завершается более или менее плодотворно. Однако

за этой простотой скрывается высочайшая сложность создания и ведения ката-

лога. Поисковые каталоги создаются вручную. Высококвалифицированные ре-

дакторы лично просматривают информационное пространство WWW, отбира-

ют то, что по их мнению представляет общественный интерес, и заносят адреса

в каталог. Крупнейшим поисковым каталогом мира является каталог Yahoo!

(www.yahoo.com). Его обслуживают порядка 150 редакторов, но и при этом об-

щий объем каталогизированных Web-ресурсов составляет чуть более миллиона

Web-страниц, то есть менее десятой доли процента от всех ресурсов WWW.

Несмотря на столь низкий коэффициент охвата, поисковые каталоги

пользуются огромной популярностью. Их принято использовать для первично-

го, реферативного поиска информации по заданной теме. Если для пользовате-

ля тема является совершенно новой и неисследованной, то он вряд ли нуждает-

ся в расширенных результатах поиска. Прежде всего ему нужны указатели на

классические, наиболее содержательные ресурсы, а именно это и обеспечивают

поисковые каталоги. Человеческий фактор, связанный с тем, что над составле-

нием каталога работают люди, а не программы, обеспечивает качественный от-

бор наиболее важных ресурсов по каждой из тем.

Количество поисковых каталогов в мире сравнительно невелико. Это свя-

зано с высокой трудоемкостью их содержания и обслуживания, а также с недо-

статком квалифицированных кадров редакторов. Крупнейший поисковый ката-

лог мира мы уже назвали, а крупнейший поисковый каталог России — «Атрус»

(atrus.aport.ru)

Поисковые указатели

Основной проблемой поисковых каталогов является чрезвычайно низкий

коэффициент Охвата ресурсов WWW. И хотя для реферативного поиска это не

выглядит критичным, все-таки существуют потребности в поиске актуальной,

уникальной, специальной информации, которая не охвачена и не может быть

охвачена поисковыми каталогами.

Чтобы многократно увеличить коэффициент охвата ресурсов Web, из

процесса наполнения базы данных поисковой системы необходимо исключить

человеческий фактор — работа должна быть автоматизирована. Разумеется,

при этом значительно падает качество ссылок, предоставляемых системой по

результатам поиска, но одновременно увеличивается их количество. Автомати-

ческую каталогизацию Web-ресурсов и удовлетворение запросов клиентов вы-

полняют так называемые - поисковые указатели.

Основной принцип работы поискового указателя заключается в поиске

Web-ресурсов по ключевым словам. Пользователь описывает искомый ресурс с

помощью ключевых слов, после чего дает задание на поиск. Поисковая система

анализирует данные, хранящиеся в своей базе, и выдает список Web-страниц,

соответствующих запросу. Вместе с гиперссылками выдаются краткие сведения

о найденных ресурсах, на основании которых пользователь может выбрать

нужные ему ресурсы (рис. 7.7).

Сегодня в мире существует около 10 тысяч поисковых указателей. Вер-

253

шину списка занимают около двух десятков зарубежных систем: AltaVista

(www.atavista.com), Excite (www.excite.com), Fast Search (www.alltheweb.com),

Go/Infoseek (www.go.com), GoTo (www.goto.com), Google (www.google.com),

HotBot (hotbot.lycos.com), Inktomi (www.inktomi.com), Lycos (www.lycos.com),

Netscape Search (search.netscape.com), Northern Light (www.northernlight.com),

WebCrawler (www.webcrawler.com) и другие. В России также имеется несколь-

ко поисковых указателей, из которых наиболее крупными и популярными яв-

ляются следующие: «Апорт 2000» (www.aport.ru), «Yandex» (www.yandex.ru) и

«Рэмблер» (www.rambler.ru).

Разные поисковые указатели могут использовать разные информацион-

ные технологии для обработки запросов пользователей. Чтобы эффективно вы-

полнять поиск . информации в WWW, надо представлять достоинства и недо-

статки каждой из систем и хотя бы в общих чертах понимать принципы их ра-

боты.

Рис. 7.7. За сотую долю секунды поисковый указатель Fast Search

отобрал более миллиона Web-страниц, посвященных

электронной коммерции

Три этапа работы поискового указателя. Работу поискового указателя

можно условно разделить на три этапа. Из них два этапа являются подготови-

тельными — они незаметны для клиента, и лишь на третьем этапе происходит

взаимодействие с пользователем, но от каждого из этапов зависят функцио-

нальные свойства поисковой системы и эффективность работы с ней.

Сбор первичной базы данных. На первом этапе поисковая система зани-

мается сканированием информационного пространства World Wide Web. Для

этого используют специальные агентские программы — черви. Не следует пу-

254

тать агентов поисковых систем с разновидностью сетевых компьютерных виру-

сов, тоже именуемых червями. Черви поисковых систем совершенно безобидны

для серверов и клиентов WWW. По своей сути это очень эффективные малораз-

мерные броузеры. Им не надо выполнять функции просмотра и воспроизведе-

ния содержимого — их задача состоит только в том, чтобы автоматически ра-

зыскивать в Сети Web-ресурсы, следуя по гиперссылкам, и, убедившись, что

этот ресурс системе еще не известен, копировать его в свою базу данных. Так

же происходит и обновление ранее принятых документов, но измененных за

время после предыдущего копирования.

От эффективности работы поискового червя во многом зависит содержа-

тельная часть поискового указателя. Каждая система использует собственную

поисковую программу и хранит в тайне алгоритм ее работы от конкурентов.

Индексация базы данных. Собранная база данных сетевых Web-ресурсов

— это хорошая, но не достаточная основа для функционирования поисковой

системы.

С ее ломощыо уже можно обслуживать запросы клиентов, но нельзя де-

лать это быстро. Поиск ключевых слов, введенных пользователем, в обширной

базе — это весьма продолжительная операция. Нежелательно задерживать кли-

ента более чем на доли секунды, поэтому собранные базы данных проходят

предварительную обработку, называемую индексацией. На этапе индексации

создаются специализированные документы — поисковые указатели.

С простейшим указателем вы знакомы по работе с учебными пособиями.

Нередко в конце книг приводится предметный указатель, с помощью которого

можно по термину быстро найти страницу книги, на которой этот термин рас-

крывается. Аналогично устроены и поисковые указатели. Простейший тип по-

искового указателя называется обратным файлом. Это просто словарь, в кото-

рый входят все слова, встреченные при просмотре Web-ресурсов. Против каж-

дого слова приводится список ссылок, указывающих на местоположение соот-

ветствующих ресурсов в базе данных.

При получении списков ключевых слов от пользователя просмотр поис-

кового указателя происходит очень быстро, так как он предварительно отсорти-

рован по алфавиту. В результате клиент достаточно быстро получает список

ссылок с интересующими его Web-ресурсами.

Рафинирование результирующего списка. Это третий этап работы, в

ходе которого осуществляется взаимодействие с пользователем. На этом этапе

создается список ссылок, который будет передан пользователю в качестве ре-

зультирующего. Пользовательское представление о качестве работы поисковой

системы напрямую зависит от технологий, использованных на этом этапе.

Рафинирование результирующего списка заключается в фильтрации и

ранжировании результатов поиска. Под фильтрацией понимается отсев ссылок,

которые выдавать пользователю нецелесообразно. Прежде всего проверяется

наличие дубликатов. Если система в одном списке выдает множество ссылок,

ведущих к одному и тому же Web-ресурсу, это говорит о том, что ее средства

добросовестно отработали два первых этапа, но ничего не сделали на третьем

этапе. Дублирующиеся ссылки перегружают результирующий список и затруд-

255

няют выбор действительно полезных ресурсов.

Ранжирование заключается в создании специального порядка представле-

ния результирующего списка, при котором наиболее «полезные» (с точки зре-

ния поисковой системы) ссылки приводятся в вершине списка, а наименее по-

лезные — в его конце. Понимание критерия «полезности» для клиента той или

иной ссылки может быть самым разнообразным. Именно поэтому разные поис-

ковые системы, даже работающие с одинаковыми базами ресурсов, выдают

разные результаты поиска.

Прежде всего, при ранжировании учитывается количество появлений

ключевых слов в Web-документе. Принцип «чем больше, тем лучше» достаточ-

но очевиден, но не слишком корректен. На самом деле хорошо, когда искомое

слово появляется достаточно часто в начале документа, в его первых 5-10 абза-

цах, а прочие части документа учитываются меньше. Очень хорошо, когда клю-

чевые слова встречаются в заголовках документа и в подрисуночных подписях.

Интеллектуальные системы могут проверять также наличие сопутствую-

щих слов. Так, например, по результатам анализа содержимого множества Web-

страниц, выполненного еще на этапе индексации, может быть установлено, что

словам электронная коммерция очень часто сопутствуют слова цифровая под-

пись и платежные системы. Если поисковая система об этом знает, то, получив

от клиента запрос на поиск по словам электронная коммерция, она в вершине

списка расположит те Web-страницы, на которых также встречаются упомина-

ния о цифровой подписи и о платежных системах.

Всюду, где можно, автоматические системы стремятся полагаться на «че-

ловеческий фактор». Автоматической системе сделать это непросто, но специ-

альные технологии имеются. Так, например, еще на этапе индексации высокий

рейтинг могут получать те страницы, на которые имеется больше ссылок с дру-

гих Web-страниц. Поскольку гиперссылки создают люди, а не машины, то этот

факт можно использовать в качестве субъективной оценки более высокой «по-

лезности» тех документов, которые чаще цитируются.

В рамках этой книги мы не можем охватить все те приемы, которые ис-

пользуют поисковые системы на этапе формирования результирующего списка,

но роль этого этапа трудно переоценить. Попробуйте работу с несколькими по-

исковыми системами и посмотрите, как у них обстоит дело с фильтрацией и

ранжированием результатов. Вы, наверное, заметите, что тщательная фильтра-

ция и разумное ранжирование воспринимаются потребителем как показатель

качества работы системы.

Основные проблемы современных поисковых указателей

Большинство крупнейших поисковых указателей мира в настоящее время

находятся в кризисном состоянии. У общего кризиса поисковых систем есть

ряд объективных причин. Все они связаны с объективными противоречиями,

возникающими в ходе развития World Wide Web. В разных странах эти кри-

зисные явления проявляются по-разному. Забегая вперед, скажем, что для рос-

сийских поисковых систем эти проблемы пока незаметны.

Основным противоречием, определяющим кризисную ситуацию в поис-

256

ковых системах, является несоответствие динамики развития информационного

пространства Web и самих поисковых систем. На ранних этапах, когда поис-

ковые системы еще только формировались в виде лабораторных проектов, ко-

эффициент охвата Web-ресурсов достигал 50%. В 1994 г. количество Web-ре-

сурсов составляло немногим более 100 млн Web-страниц, из которых десятки

миллионов были проиндексированы.

К 1999 г. коэффициент охвата упал примерно до 30%, а в 2000 г. не пре-

вышает 20%, причем с каждым днем он продолжает падать. Пространство Web

развивается усилиями десятков миллионов людей, и несколько поисковых си-

стем просто не успевают его индексировать.

Второе противоречие — чисто экономическое. На рубеже 1997-1998 гг.

развитие информационного пространства Web достигло таких масштабов, что

для его индексации потребовалось привлекать намного более мощные аппарат-

ные, программные и кадровые ресурсы, чем ранее. В этот же период интересы

крупных инвесторов начали обращаться к информационным службам Интерне-

та. В результате произошло акционирование ряда поисковых систем. Это по-

влияло на характер их работы, поскольку администрации поисковых систем

были вынуждены сосредоточиться не столько на индексации бурно растущего

Web-пространства, сколько на обеспечении интересов акционеров. Ряд круп-

ных поисковых систем начали после 1997 г. искусственно тормозить индекса-

цию Web-ресурсов и сосредоточились на коммерческой стороне деятельности.

По сути, многие из популярных в прошлом поисковых систем превратились

сегодня в удобные и красивые Web-порталы, но с задачами научного поиска

справляются неудовлетворительно.

По мере роста WWW наметились и противоречия, связанные с интереса-

ми клиентов. Их уже не устраивают исчерпывающие списки гиперссылок, веду-

щих к нужным Web-ресурсам. Когда поисковая система выдает слишком много

ссылок, воспользоваться ими столь же трудно, как когда она выдает их слиш-

ком мало. Клиенту нужно столько ссылок, сколько он в состоянии охватить,

причем ему желательны «самые лучшие» ссылки. Это также притормозило в

последние два года работы по индексации Web. Некоторые поисковые системы

вообще прекратили заниматься сбором информации и ее анализом. Вместо это-

го они переадресуют запросы клиентов другим поисковым системам, хорошо

оснащенным технически, а сами сосредотачиваются только на третьем этапе —

фильтрации и ранжировании полученных результатов. Так, например, многие

поисковые системы опираются на поисковую систему Inktomi (www.inktomi.-

com), которая выполняет поисковые операции по заказу других поисковых си-

стем.

Выше мы сказали, что кризисные явления пока не затронули отечествен-

ные поисковые системы. Это действительно так, и связано с тем, что россий-

ские поисковые системы используют технологии 2000 г., работая с информаци-

онным пространством всего лишь в несколько десятков миллионов Web-стра-

ниц, что примерно соответствует ситуации 1993 г. для стран Запада. Это дает

российским поисковым системам хорошее преимущество и запас в несколько

лет, прежде чем они столкнутся с кризисными явлениями.

257

Новейшие поисковые технологии

Автоматическая каталогизация. Противоречие между размерами ис-

следованного и неисследованного Web-пространства для поисковых каталогов

еще острее, чем для поисковых указателей. Тем не менее, здесь есть перспек-

тивные направления развития. Они основаны на внедрении так называемых

5МЛ7?Г-технологий автоматической каталогизации.

Существует множество теоретических изысканий в области 5МЛ/?Г-тех-

нологий, но наиболее перспективной является модель векторного информаци-

онного пространства. Представим себе эксперта в какой-то области, например в

юриспруденции. Если ему поставить задачу, то, наверное, он сможет составить

словари, характерные для таких областей, как Авторское право, Гражданское

право, Уголовное право и т. п. Проанализировав множество документов, отно-

сящихся к этим научным областям, он сможет не только указать характерные

термины и понятия, но и дать им весовые оценки. Так, например, достаточно

очевидно, что слово «договор» имеет больший вес в документах гражданского

права, чем уголовного. Комбинируя термины и весовые коэффициенты, можно

строить многомерные системы координат, в которых различные области знания

описывались бы разными многомерными векторами.

Автоматически получив новую Web-страницу, поисковая система может

построить для нее математический вектор, основанный на формальном анализе

содержания. А сравнивая этот вектор с уже рассчитанными векторами для раз-

личных областей знания, система может без участия человека предположить, к

какой категории, теме и разделу относится тот или иной документ.

При таком подходе не обязательно хранить копии всех известных Web-

страниц, как не надо хранить и их поисковые указатели. Вполне достаточно для

каждого Web-документа хранить лишь его £/Ж,-адрес и число, соответствую-

щее вектору. В настоящее время конкретные алгоритмы 5МЛ/?Г-технологий не

публикуются, поскольку представляют ноу-хау, но мы можем предположить,

что они уже работают, например в поисковых системах реального времени, та-

ких, как Alexa (www.alexa.com).

Поисковые системы реального времени. Это новое направление в техно-

логиях поиска информации мы рассмотрим на примере поисковой службы Al-

exa (www.alexa.com). Для работы с этой службой пользователь должен подклю-

читься к ее центральному серверу, получить оттуда и установить на своем

компьютере клиентскую программу. Эта программа подключается к броузеру и

работает как дополнительная панель в окне Microsoft Internet Explorer или Nets-

cape Navigator.

При каждом запуске броузера клиентская программа устанавливает со-

единение со своим центральным сервером и далее работает с ним в паре. Она

передает серверу копии всех Web-страниц, которые посещает пользователь, то

есть выполняет те же функции, что и автоматический червь, копирующий Web-

ресурсы на сервер традиционной поисковой системы. Однако при этом есть два

существенных различия:

• во-первых, человек в ходе навигации в WWW руководствуется не теми

258

принципами, что автоматическая программа, поэтому сервер получает копии не

всех Web-ресурсов, а только тех, что заинтересовали кого-то из его клиентов;

• во-вторых, понятно, что когда поставкой Web-ресурсов занимаются

несколько миллионов постоянных клиентов, то индексация Web-пространства

происходит намного быстрее.

В свою очередь, пользователь тоже имеет важное преимущество. На ка-

кой бы Web-странице он ни находился, система всегда готова предложить ему

список других Web-страниц, имеющих близкое по тематике содержание. Она

готовит этот список на основании предшествующего опыта, полученного в ра-

боте с другими людьми.

Так можно получить рекомендации, которые было бы очень трудно (а за-

частую и невозможно) разыскать в WWW традиционными поисковыми сред-

ствами. Работа с поисковой системой реального времени превращает обычную

навигацию по Web-ресурсам в увлекательное интерактивное исследование (рис.

7.8).

Рис. 7.8. При просмотре Web-страницы Центра электронной

коммерции Alexa предлагает ссылки на другие Web-страницы,

тоже посвященные электронной коммерции

Рекомендации по приемам эффективного поиска

Для проведения реферативного поиска, когда тема задана достаточно ши-

роко, рекомендуется пользоваться поисковыми каталогами, такими, как Yahoo!

(www.yahoo.com) или «Атрус» (atrus.aport.ru). Это позволит быстро установить

местоположение основных первоисточников. При ознакомлении с первоисточ-

259

никами следует прежде всего, уделять внимание понятийной базе. Знание

основных понятий и терминов позволит перейти к углубленному поиску в по-

исковых указателях с использованием ключевых слов, наиболее точно характе-

ризующих тему.

При наличии первичных сведений по теме поиска, документы можно ра-

зыскивать в поисковых указателях. При этом следует различать приемы просто-

го, расширенного, контекстного и специального поиска.

Под простым поиском понимается поиск Web-ресурсов по одному или

нескольким ключевым словам. Недостаток простого поиска заключается в том,

что обычно он выдает слишком много документов, среди которых трудно вы-

брать наиболее подходящие.

При использовании расширенного поиска ключевые слова связывают

между собой операторами логических отношений. Расширенный поиск приме-

няют в тех случаях, когда приемы простого поиска дают слишком много ре-

зультатов. С помощью логических отношений поисковое задание формируют

так, чтобы более точно детализировать задание и ограничить область отбора,

например по дате публикации или по типу данных.

Контекстный поиск — это поиск по точной фразе. Он удобен для рефера-

тивного поиска информации, но доступен далеко не во всех поисковых систе-

мах. Прежде всего, чтобы обеспечивать такую возможность, система должна

работать не только с индексированными файлами, но и с полноценными обра-

зами Web-страниц. Эта операция достаточно медленная, и ее выполняют не все

поисковые системы.

Специальный поиск применяют при розыске Web-страниц, содержащих

ссылки на заданные адреса URL, а также содержащих заданные данные в слу-

жебных полях, например в поле заголовка.

Рекомендации по использованию поисковых систем

Для проведения научных поисков, в частности по темам, относящимся к

праву и экономике, рекомендуется пользоваться поисковой системой Northern

Light (www.northernlight.com). Эта система имеет один из лучших коэффициен-

тов охвата Web-пространства, и ее администрация прилагает специальные уси-

лия для поддержания актуальности своих указателей. Кроме того, система

удачно сочетает свойства поискового указателя и каталога. По наиболее попу-

лярным темам в ней можно найти специальные разделы каталожного типа —

они называются Special Editions и подготавливаются вручную. Дополнительно

система предоставляет платные услуги по поставке актуальных научных доку-

ментов..Они находятся в разделе Special Collection.

Самым большим поисковым указателем обладает поисковая система Fast

Search (www.alltheweb.com). К моменту написания данной книги он охватывает

более 400 млн. уникальных Web-страниц и очень быстро развивается. Всего за

один год после запуска эта поисковая система вышла на первое место в мире по

объему проиндексированного пространства, и, как предполагается, в течение

2001 г. первой достигнет психологического рубежа одного миллиарда уникаль-

ных Web-страниц.

260