Морзе Н.В., Ухань П.С., Вознюк А.Н., Козачук А.В. Пособие для дистанционного обучения

Подождите немного. Документ загружается.

I*EARN-99

111

Предположим, база данных

имеет 8 документов (Д1, Д2, Е, Д8),

в которых содержатся 12 терминов.

Если термин входит в документ, в

соответствующей клеточке ставится

единица, в противном случае —

ноль (в реальной системе все

сложнее: помимо прочего,

учитываются еще и весовые

коэффициенты терминов).

Составим, например, такой

запрос: корабли в бутылках.

Система обработает запрос: удалит

стоп-слова и, возможно, проведет

морфологический анализ. Останется два термина: корабль и бутылка. Система будет искать

все документы, где встречается хотя бы один из терминов. Посмотрим на матрицу. Указанные

в запросе термины есть в документах: Д1, Д2, Д4, Д7, Д8. Они и будут выданы в ответ на

запрос. Однако нетрудно заметить, что документы Д4 и Д7 не удовлетворяют нашим чаяниям

— они из области виноделия и никакого отношения к постройке моделей кораблей в бутылках

не имеют. Впрочем, система все сделала правильно, ведь, с ее точки зрения, термины корабль

и бутылка равноценны.

Пространственно-векторное представление базы данных

Пространственно-векторная модель позволяет получить результат, хорошо

согласующийся с запросом. Причем документ может оказаться полезным, даже не имея 100%

соответствия. В найденном документе может вовсе не оказаться одного или нескольких слов

запроса, но при этом его смысл будет запросу соответствовать. Как достигается такой

результат?

Все документы базы данных размещаются в воображаемом пространстве (это может

быть многомерное пространство, представить

которое весьма трудно). Координаты каждого

документа зависят от структуры терминов, в нем

содержащихся (от весовых коэффициентов,

положения внутри документа, от расстояния

между терминами и т. п.). В результате окажется,

что документы с похожим набором терминов

разместятся в пространстве ближе друг к другу.

Предположим, мы хотим найти документы,

касающиеся постройки моделей кораблей в

бутылках. Составим запрос, например, такой:

корабли в бутылках. Получив его, поисковая

система удалит лишние слова, выделит термины

и вычислит вектор запроса в пространстве

документов (стрелочка на рисунке). Установив

некоторый диапазон соответствия, система

выдаст документы, попавшие в заштрихованную область на рисунке 4. Эта область

непременно захватит документы, повествующие о необычных увлечениях — хобби,

классическом судомоделизме и т.п. В них может вовсе не оказаться некоторых слов запроса,

однако документы останутся достаточно релевантными. Термины, относящиеся к вину, будут

группироваться в другой точке пространства, и запрос их не затронет. Как видите,

"уравниловку" терминов удалось преодолеть. В пространственно-векторной модели термины

взаимодействуют друг с другом, что повышает релевантность документов. Понятно, что

пространственно-векторная модель лучше воспринимает запросы, составленные на

естественном языке, чем матричная.

Построение индекса

Структура веб-страницы, описываемая при помощи речи HTML, включает в себя,

кроме заглавия страницы (title) и собственно текста (text), которые несут основную

информационную нагрузку, еще несколько полей, невидимых при просмотре документа в

браузере, но информация о которых может быть важной для пользователя. Это комментарии

1 2345678

Алкоголизм 0 1 001 000

Бутылка 1 1 0 1 001 0

Вино 0 1 0 1 001 0

Корабль 1 0000001

Модель 1 00001 0 1

Море 0 11001 00

Парус 001 001 0 1

Пиво 00011000

Судомоделизм 001 00000

Урожай 000110 1 0

Хобби 001 00001

I*EARN-99

112

автора к веб-странице (comment), тексты линков на другие файлы (anchor) и собственно сами

линки (link), графика (и alt-таги (комментарии) к встроенным изображениям), программы на

языках Java, Javascript и VBScript. Линки со страницы могут указывать не только на другую

веб-страницу или графический файл, а, собственно говоря, на произвольный объект, в

информации о чем пользователь также может быть заинтересован. Кроме того, языком HTML

предусмотрено использование специальных полей в документе что создаются для лучшей

индексации страницы поисковой системой, так называемых META-тагов. Для описания

характера и содержания размещенной на странице информации используются таги

Description (описание), например: “Официальная веб-страница Верховной Рады Украины", и

Keywords (ключевые слова), например: “Верховная рада, Парламент, законодательство,

законы, политика". В основном тексте веб-страницы рекомендуется использование

специальных тагов для выделения заглавий (header), допускается использование заглавий

шести уровней. Также важной для пользователя может оказаться информация о дате

последнего обновления страницы, и тому подобное. Те части и атрибуты гипертекстового

документа, которые учитываются при составлении индекса, назовем областью индексации.

Кроме файлов веб-страниц возможно индексирование текстовых файлов (с расширением. txt),

на которые есть линк со страницы. Файлы этого типа могут непосредственно переглядываться

в браузере и тому на них возможный непосредственный переход со страницы результатов

запроса к поисковой системе.

При индексации страницы спайдер может учитывать все слова в области индексации,

за исключением так называемых стоп-слов (слов, которые наиболее часто употребляются:

союзов, предлогов, и тому подобное

тогда такая система называется полнотекстовыми (full-

text), или, ради уменьшения объема построенного индекса, учитываются только слова,

которые выдаются поисковому механизму более важными за другие, например чаще

употребимые, или те, которые стоят в предложении на ключевом месте, создается как будто

“экстракт" страницы. Системы второго типа можно назвать абстрактными (abstract). Все

поисковые системы что рассматриваются в данной статье есть полнотекстовыми и

поддерживают стопы-слова.

Еще одна особенность построения индекса связана с большим количеством

разнообразных кодировок, в которых может быть созданный веб-документ. Если символы

латинского алфавиту в любой кодовой таблице стоят на одних и тех же местах, то для

кириллицы существует пять (важных для Internet) кодировок четыре кодовых страницы для

PC и кодовая страница систем Macintosh. И тому результатами поиска по запросу украинским

или русским языками будут только страницы в той кодировке, в которой ставился запрос,

страницы в других кодировках найдены не будут. При поиске с помощью любого западного

поисковика следует помнить об этой проблеме и, при необходимости, делать несколько

запросов в различных кодировках. Поисковые системы Апорт!, Rambler, Яndex и Мета

корректно обрабатывают эту проблему, осуществляя автоматическое перекодирование

запроса.

Рассмотрим области индексации различных систем. Конечно URL страницы и

собственно текст индексируются в любом случае.

Alta Vista HotBot Excite Rambler Апорт! Яndex InfoRes МЕТА

Заглавие страницы (title)

zzzzzzz z

alt-таги

zz{zzz

н/д

коментарии (comment)

{z{{z

н/дн/д

мета-таг description

z z {{{

н/дн/д

{

мета-таг keywords

zz{{z

н/дн/д

встроенные программы

z z {{{{{ {

линки на внешние файли

(link)

zzzzz{

н/д

текст линка (anchor)

zzzzzzz z

дата обовления

информации

zz{zzz{ z

*.txt

{{{zzz{ z

I*EARN-99

113

Область индексации поисковых систем.

Текст в специальных полях может учитываться в общем индексе, но в большинстве

поисковых машин индекс этих полей состоит отдельно, и поиск можно проводить как по

основному тексту документу, так и по каждому полю отдельно, что будет рассмотрено в речи

запросов.

Язык запросов.

Рассмотрим язык запросов поисковых систем. Хотя на всех поисковых системах

существует возможность ставить простой запрос (simple query), в котором используются

только ключевые слова, что их вынужден содержать найденный документ, или вообще, как,

например, на AltaVista или Яndex, запрос можно давать на естественном языке,

использование развитого запроса (advanced query), с логичными операторами, позволяет

значительно увеличить соответствие поиска или ставить специфические запросы.

Все операторы, которые используются при построении запросов на тех или других

поисковых сайтах, можно разбить на несколько групп.



Классические логичные операторы. И, ИЛИ, НЕ

и “( )" (скобки), которые задают порядок

действия операторов. Поддерживаются всеми поисковыми машинами. Их

использование особых комментариев не требует. К этой группе можно отнести также

операторы * и? , первый с которых используется для замены произвольного количества

букв слове, а второй для одной. Их использование значительно снижает

чувствительность поиска,

по

этой причине некоторые поисковые машины их не

поддерживают.



Поиск фразы. Когда необходимо провести поиск не просто за несколькими ключевыми

словами, а за словами, которые должны употребляться разом и в определенном

порядке, эти слова записываются в двойных кавычках “ ".



Операторы области поиска. За умалчиванием поиск проводится по всем полям

гипертекстового документу, которые учитываются при его индексации спайдером. А

использование операторов области поиска позволяет ограничить поиск только

основным текстом документу, или его заглавием, полями комментариев, мета-

дескрипторами, alt-тагами графических файлов, линками с веб-страницы, и тому

подобное.

Текст (text)

все то, что непосредственно видно при просмотре страницы

в браузере.

Заглавие страницы (title)

заглавие веб-страницы, которое

отображается в заглавии окна броузера.

Заглавия (header)

заглавия, которые выделяются в основном тексте

страницы с помощью тагов <Н>.

ALT-таги

комментарии к встроенным изображениям.

MЕТА-таги

поля, которые кратко описывают содержимое страницы.

Комментарии (comment)

комментарии веб-мастера к HTML-коду

страницы.

Текст линку (anchor)

текст, который описывает гиперлинк (собственно,

то, которое видит пользователь).

Линк (link)

“подводная" часть гиперлинку, которая указывает на другую

веб страницу или файл.

Адрес страницы (URL)

полный путь к странице, включая имя серверу,

каталогу и имя файлу.

Встроенные программы

поиск страниц со встроенными JAVA-аплетами

или VB- и Java-скриптами.

I*EARN-99

114



Операторы расстояния между словами. Позволяют точно указать допустимое

максимальное расстояние между двумя ключевыми словами и их порядок следования в

тексте. Возможно использование только на повнотекстових пошуковиках. При

индексации страницы каждое слово получает порядковый номер, и расстоянием между

словами есть разница их порядковых номеров. В речи запросов некоторых поисковых

систем возможно также ограничение количества предложений, или количества абзацов,

в пределах которых должны встречаться ключевые слова. Например, следует найти

документы, связанные с Парламентом Украины. По запросу “

парламент

AND

украины

кроме документов что нужные, будут найденные, в частности, документы, в которых

идет речь о действиях русского

парламента

относительно экономического партнерства

Украиной

, которые будут лишними, ведь это не та связь между ключевыми словами,

что нам нужный. А запрос вида “парламент NEAR украины" ограничивает расстояние

между этими словами в тексте, отсекшим появление нерелевантных документов.



Оператор размещения. В языках запросов большинства поисковых систем существует

возможность ограничить поиск конкретным веб-узлом (host) или даже определенным

каталогом (folder), например “url = www.

socosvita.kiev.ua & образование"

провести

поиск страниц, которые содержат слово “образование

" на

сервере

Alta Vista

HotBot

Excite Rambler Апорт!

Яndex

InfoRes МЕТА

слово1

AND

слово2

AND &

слово1

AND

слово2

AND &

слово1

AND

слово2

слово1

AND

слово2

AND &

слово1

AND

слово2

AND & И +

слово1 слово2

пропуск &

слово1

AND

слово2

AND & И + пропуск

слово1

AND

слово2

AND & И +

АБО

слово1

слово2

OR |

слово1

слово2

OR |

слово1

слово2

слово1

слово2

OR |

слово1

слово2

OR | ИЛИ

слово1, слово2

, |

слово1

слово2

OR | ИЛИ , ;

слово1

слово2

OR | ИЛИ

НІ

слово1

AND NOT

слово2

AND NOT & !

слово1

AND NOT

слово2

AND NOT & !

слово1

AND NOT

слово2

слово1

NOT

слово2

NOT !

слово1

NOT

слово2

NOT -

слово1 ~ слово2

слово1

NOT

слово2

NOT - НЕ !

слово1

NOT

слово2

NOT -

()

( )



( )( )( )( )( )( )

* ?

* * ? * ? * ?



* ?

Пошук фрази - ""

VVV VV V

TEXT

text:

слово



$Essence: слово

text=слово

text= x= текст= т=



text=слово

text= x= текст= т=

TITLE

title:

слово

title:

word



$Title: слово

title=слово

title= t= заг= з=

$Title слово

$Title (выражение)



title=слово

title= t= заг= з=

HEADER



$Header: слово



ALT



alt=слово

alt= a= рис= р=



alt=слово

alt= a= рис= р=

META



keywords=слово

keywords= kw= клсл= кл=



keywords=слово

keywords= kw= клсл= кл=

COMMENT



comment=слово

comment= c= ком= к=



comment=слово

comment= c= ком= к=

ANCHOR

anchor:

слово



$A слово

$A (вираз)



LINK

link:

word

image:

word

outgoingurlext:

zip



link=word

link= l= ссылка= сс=



link=word

link= l= ссылка= сс=

URL

url:

word



$Url: www.rambler.ru

url=

url:



url=

url:

встроенные программы

applet:

morph



количество слов

слово1 NEAR слово2

NEAR ~



$Near: слово1 слово2

$Random:слово3

слN

(слово1 слово2)

слN(…) сN(…) wN(…) [N,...]

слово1 /N слово2

слово1 /(+N слово2

слово1 /(N M) слово2

слово1 ADJUST слово2

ADJUST ~ ADJ NEAR ОКОЛО

слN

(слово1 слово2)

слN(…) сN(…) wN(…) [N,...]

количество предложени



прN(слово1 слово2)

прN(…) пN(…) sN(…) {N,…}

слово1 /N слово2

слово1 /(+N слово2

слово1 /(N M) слово2



прN(слово1 слово2)

прN(…) пN(…) sN(…) {N,…}

DOMAIN

domain:

.ua

domain:

kiev.ua



url: *.ua

url=*.kiev.ua

url= url:



url=*.kiev.ua

url= url:

HOST

host:

www.socosvita.kiev.ua

domain:

news.kiev.ua



url: www.kiev.ua url=www.socosvita.kiev.ua



url=www.socosvita.kiev.ua

FOLDER

url:www.kiev.ua/folder/



url: www.kiev.ua/folder/ url=www.kiev.ua/folder1/



url=www.kiev.ua/folder1/

Оператор даты

VV V

date=01/01/97-01/02/97

date:01/02/97

дата=-01/02/97

дата:<01/02/97

V

date=01/01/97-01/02/97

date:01/02/97

дата=-01/02/97

дата:<01/02/97

Область действия

специальних (не

логических)

операторов

одно слово,

пропуск после операторов не

нужен

одно слово,

пропуск после операторов не

нужен



все последующие слова,

пропуск нужен

одно слово,

пропуск не нужен,

возможноиспользование

целой фразы, задающейся

скобками ( ) посля

операторов зоны поиска

одно слово,

пропуск не нужен,

возможноиспользование

целой фразы, задающейся

скобками ( ) посля

операторов зоны поиска



одно слово,

пропуск не нужен,

возможноиспользование

целой фразы, задающейся

скобками ( ) посля

операторов зоны поиска

- "близкими" считаются слова, расстояние между которыми не более 10 слов

3 - возможно проводить поиск только по расширением файлов, на которые есть линк со страницы.

4 - возможно использование трех уровней глубины

5 - оператор Essense значит поиск по нескольким первым строкам текста документу

6 - Оператор Random отменяет действие оператора Near.

7 - по умалчиванию область действия логичных операторов - один абзац, дублирование логичных операторов, например && приводит к распространению области действия на весь документ.

8 - считается, что слово=слово*

9 - расстояние между словами на больше двух и учитывается порядок

2 - речь запросов системы HotBot позволяет проводить поиск страниц, которые содержат конкретный элемент веб-страницы, такой как, форма, таблица, фрейм, скрипт (с уточнением речи), ActiveX, апплет, аудио, видео или

графический файл, VRML, Flash или Shockwa

В верхней части пример записан пример использования оператору, в нижней - синонимы оператору, если они существуют. Использование в примере слова "слово" значит, что соответствующий

текст может быть подан любым языком из числа поддерживаемых системой, а и

Операторы размещения

Логічні оператори

Операторы области поиска

Операторы расстояния

I*EARN-99

115

www.socosvita.kiev.ua

инициировать ли поиск по веб-страницам, размещенным в

определенной доменной зоне (domain). com,. ru,. kiev.ua, например “url = *.kiev

.ua &

высшее

образование", и тому подобное



Оператор даты. Существует возможность поиска документов, дата модификации

которых попадает в определенный диапазон.



Также на некоторых серверах поддерживаются операторы веса и повышения

релевантности и операторы, которые связаны с морфологической обработкой запроса.

Каждая поисковая система имеет, так сказывать, свой диалект речи запросов и

синонимы и сокращения основных операторов. Поэтому некоторые операторы на различных

пошуковиках имеют совсем различное содержание, обращаем внимание на оператор “!, “~,

операторы “+” и “-“.

Также использование речи запросов зависит от типа запроса простой или развитый,

например, в системах AltaVista и Excite в простом запросе можно использовать только

операторы повышения релевантности “+" и “-".

Параметры простого поиска.

На некоторых сайтах существует возможность уточнять запрос с учетом результатов

предыдущего запроса. Так, на AltaVista существует опция refine (уточнить), а на сервере

Яndex, наиболее перспективному русскому пошуковику, даже несколько удобных опций:

“Искать в найденном", которая позволяет поиск в следующем запросе ограничить только

документами, найденными за предыдущим запросом, и “Найти похожие документы" (похожая

на refine AltaVista) и “Поиск по указанным образцам", которые позволяют инициировать новый

поиск не заданием запроса, а указав один или несколько документов с уже найденных,

которые наиболее отвечают потребностям пользователя. Аналогичные возможности

дальнейшего поиска предлагают и некоторые другие поисковые системы.

Использование результатов предыдущего запроса.

Морфологические и лингвистические особенности поисковых систем.

Одним из направлений совершенствования поисковых систем за последние годы стало

использование морфологического и лингвистического анализа текста при создании индекса

веб-страниц. К сожалению украиноязычный части Internet этот процесс не коснулся,

существуют решения только для русского и английского языков (хотя на поисковом сервере

МЕТА ведутся работы относительно корректного учета при запросе особенностей украинского

и русского языков и возможной омонимии речи

Также используются системы

интеллектуального разбора и расширения запроса пользователя. В качестве примера Excite

использует патентованную технологию ICE (Intelligent Concept Extraction), которая расширяет

запрос пользователя также синонимами ключевых слов, и запрос “юрист" превратится на

“юрист OR адвокат OR прокурор". Синонимы могут подбираться и для целых выражений,

например “Председатель Верховной Рады" “спикер", и тому подобное. Конечно, работает

данная технология только для запросов английским языком. Лингвистические алгоритмы,

которые учитывают место ключевых слов в тексте страницы и помогают повысить

релевантність результатов запроса (см. ниже), в тома или другом виде используются почти

каждой поисковой системой. Но наиболее полно реализованными (в некоторых поисковых

механизмах) являются алгоритмы морфологического разбора. Причем существует два пути их

использования при создании индекса (Апорт!, Яndex) или при анализе запроса (Rambler).

Alta Vista HotBot Excite Rambler Апорт! Яndex InfoRes МЕТА

Возможное использование

языка запросов

Запрос

естественным

языком

Bcgjkmpjdfybt

технологbb ICE

Запрос

естественным

языком

только один

вариант поиска

Оператор, используемый по

умолчанию

OR AND AND AND AND AND AND AND

Alta Vista HotBot Excite Rambler Апорт! Яndex InfoRes МЕТА

Поиск в найденном

 zz

Поиск по образцу

z z z z 

Поиск по образцу

нескольких документов

z

I*EARN-99

116

В украинском и русском языках количество словоформ для одного слова может

достигать нескольких десятков. Причем во многих случаях это не просто изменение

окончания, которое можно учесть с помощью шаблону * (шаблон закон* включает в себя

слова: законы, законами, законотворчество, законность), а случаи, когда простое

использование шаблону невозможно, или дает нежелательные результаты:



слова, в которых в различных формах меняется основа. Укр.: идти - шел, плохо хуже, я

меня; рос.: человек люди, ребенок дети; англ.: thought think.



слова с исчезающими гласными и изменением порядка букв. Укр.: окно - окон, расти

рос, год - лет; рос.: искать ищу, иск истец.



слова с большим количеством словоформ, для которых даже проверить, учитывает ли

их все шаблон, довольно тяжело.



короткие слова: хор, рок, и тому подобное. При использовании шаблону количество

найденных ненужных документов значительно растет.[ ]

Перечисленные проблемы решаются морфологической обработкой текста веб-

страницы. Перед индексированием все слова, которые существуют в словаре системы,

ставятся в нормальную (начальную) форму и в таком виде заносятся в базу. При постановке

запроса все ключевые слова также ставятся в нормальные форму и уже после этого

направляются поисковой системе. А в системе Rambler используется второй подход: при

индексации слова не нормализирует, они заносятся в базу в той словоформе, в которой они

используются в тексте, но при построении запроса существует возможность расширить его

морфологическим разбором ключевых слов.

Слова, что которые отсутствуют в словаре (неологізми, экзотические слова), в

различных системах обрабатываются по различному система Апорт! заносит слова в базу в

том же виде, в котором они встречаются в тексте; алгоритм морфологически разбору Яndex

умеет корректно обрабатывать и слова, не найденные в словаре, или слова, которые

записаны с ошибками. Для построения парадигмы незнакомого слова используются наиболее

похожие на него слова со словаря и модель, по которой строится парадигма для знакомого

слова. Т.е., выдвигается гипотеза о принадлежности слова к определенному

словообразовательному типу, на описании каких ґрунтується “Грамматический словарь

русского языка" А.А.Залізняка. Может быть выдвинуто несколько гипотез. на основании

которых строятся все возможные словоформы незнакомого слова

Ошибка! Источник ссылки

не найден.

Не всегда даже учет морфологии дает желаемые результаты. Это случаи так

называемых омоформ, т.е. слова, являющийся различными частями речи имеют общие

словоформы в парадигме. Например, в русском языке слово “раздел" это существительное

(“раздел книги") и глагол (“кто-то кого-то раздел"); в украинском языке слово “пар" является

числительным (“несколько пар чего-нибудь") и существительным (“из-под дверей клубився

пар").[2] В таких случаях для определения значения слова используется контекст

отыскивается словосочетание, к которому принадлежит данное слово. или в речи запросов

возможное использование специальных операторов что указывают на нормальную

словоформу. В поисковой машине Яndex за морфологическую и синтаксическую обработку

текста отвечает система Яndex-Dict, которая используется как при построении индекса, так и

разборе запроса пользователя, когда он направляется на естественном языке.

На сервере фирмы CompTek (www.comptek.ru)

автора системы Яndex существует

возможность обработки запроса пользователя системой Яndex-Dict

для

работы с индексом,

который создавался без учета морфологии. Ключевые слова запроса пользователя после

обработки ставятся во все возможные словоформы, а результат передается другому

поисковому серверу. Яndex-Dict умеет корректно обрабатывать целые фразы (что задаются

использованием кавычек “"), выполняя согласование слов. Сейчас существуют интерфейсы к

поисковой системе AltaVista www.

comptek.ru/alta.html, и

к системе Rambler

www.

comptek.ru/ramb.html, которые

работают с учетом русской и английской морфологий и

корректно переводят язык запросов Яndex на язык соответствующей поисковой системы.

Приведем для иллюстрации вышесказанного примеры морфологического разбора слов

и синтаксической обработки выражений словарним сервером Яndex-Dict:

I*EARN-99

117

построение

гипотезы для

слова, которое не

содержится в

словаре:

КОНСЕНСУС

морфология

Гипотезы: 1)СУЩЕСТВИТЕЛЬНОЕ, им, ед, муж, неод

2) СУЩЕСТВИТЕЛЬНОЕ, вин, ед, муж, неод.

Образец:

1) ляпсус;

2) уксус.

Парадигма: 1) консенсус, консенсуса, консенсусам, консенсусах,

2) консенсусе, консенсусов, консенсусом, консенсуса,

консенсусы.[ ]

электронные

NEAR

деньги

морфология

(электронен OR электронна OR электронная OR электроннее OR

электронней OR электронно OR электронного OR электронное OR

электронной OR электронном OR электронному OR электронною OR

электронную OR электронны OR электронные OR электронный OR

электронным OR электронными OR электронных) NEAR (денег OR деньг OR

деньга OR деньгам OR деньгами OR деньгах OR деньге OR деньги OR

деньгой OR деньгою OR деньгу)

электронные

NEAR

деньги

синтаксис и

морфология

((электронные NEAR деньги) OR (электронных NEAR (денег OR деньгах

OR деньг)) OR (электронным NEAR деньгам) OR (электронными NEAR

деньгами) OR (электронная NEAR деньга) OR (электронной NEAR (деньги OR

деньге)) OR (электронную NEAR деньгу) OR (электронной OR электронною)(

NEAR (деньгой OR деньгою))) [1]

разбор слов, ко-

торые не содер-

жатся в словаре:

“для

ваучерного

фьючерса

синтаксис и

морфология

для NEAR (ваучерного NEAR фьючерса)( OR (ваучерных NEAR

фьючерсов) OR (ваучерного OR ваучернейшего)( NEAR фьючерса) OR

(ваучерных OR ваучернейших)( NEAR фьючерсов)) [ ]

Морфологическая обработка запроса.

Языковые особенности поисковых систем.

Еще одна особенность индексации связана с регистром, в котором написаны слова.

Например, система Rambler, при индексации приводит все слова к нижнему регистру, но

большинство систем хранят оригинальное написание слов. При построении запроса да

поисковой системы, индекс которой чувствительный к регистру следует учитывать следующее:

Если ключевое слово написанное малыми литерами, то поиск ведется независимо от регистру

по запросу “парламент" будут найдены документы, которые содержат и “парламент", и

“Парламент", и “ПаРлАмЕнТ", но при использовании в ключевом слове хотя бы одной

прописной регистр учитывается по слову “Парламент" будут найдены только страницы,

которые содержат это слово точно.

Alta Vista HotBot Excite Rambler Апорт! Яndex InfoRes МЕТА

Украинская

V VVVVVV

Русская

V VVVVVV

Англійська

V VVVVVV

при индесировании (і)

разборе запроса (з)



(з)



(з)(і)(і)



(і)

Украинская



Планується

Русская

   VVV V

Англійська

VVVV

Незнакомые слова



н/д

V

Поиск по точной

слово

ме

VV

!слово



Указание нормальной

слово

мы



!слово



!слово

Ограничивание

действия конк

етным



@слово



Регістр

VVV VV V

Языки, поддерживаемые при индексировании

Морфологический разбор

I*EARN-99

118

Кроме того, некоторые серверы предлагают уникальные возможности лингвистической

обработки запроса пользователя. AltaVista позволяет ограничить поиск страницы только

конкретным языком и осуществлять перевод найденных страниц и запроса пользователя. На

сервере Апорт! существуют возможности исправления ошибок в запросе и автоматического

перевода запроса, которые работают для русского и английского языков.

Релевантность результатов поставленному запросу

Использование мощных алгоритмов индексирования и развитого языка запросов

преследует одну цель результаты поиска вынужденные якнайбільше отвечать поставленному

запросу. Чтобы еще больше поднять релевантність найденных документов, поисковыми

машинами используется “искусственный интеллект", который анализирует результаты поиска и

размещает более соответствующие документы на вершине списка результатов. Какими

алгоритмами он при этом пользуется? Во-первых, это лингвистический структурный анализ

текста страницы, во-вторых учет популярности данного ресурса.



Понятно, что различные части веб-страницы, как и любого документу, не являются

равноценными по своей информационной нагрузке. Одни и те же слова, но употребимые

в различных частях документу, имеют различную степень значимости. Так, слово с

заглавия страницы “весит" больше, чем слово из основного текста. Также именно можно

сказать и о словах, которые встречаются в мета-тагах description и keywords и в

заглавиях основного текста страницы.



При использовании в запросе нескольких ключевых слов, в большинстве случаев будет

справедливой зависимость релевантности документу от степени близости этих слов в

тексте.



Слово, которое встречается несколько раз на странице более значимо, чем такое,

которое встречается только раз. В большинстве случаев именно этот фактор является

решающим в определении рейтинга документу



Использованием специальных операторов речи запросов в некоторых поисковых

машинах можно увеличить “вес" слова, и документы, что его содержат будут считаться

более релевантными.



Некоторые поисковые машины, например HotBot, считают более релевантными

документы, которые имеют больший размер.



При выводе списка результатов поисковыми машинами учитывается также количество

внешних линків на страницу: чем больше страниц имеют линки на данную, тем выше ее

расположение в списке; также учитывается присутствие найденной страницы в каталоге,

который поддерживается данной системой (популярность ресурса).



При поиске по датам создания документов, результаты или выводятся в произвольном

порядке, или упорядочиваются именно по датам.

Использование перечисленных выше методов различными поисковыми машинами пода-

но в таблице.

Несколько слов хотелось бы сказать о форме вывода результатов поиска:

Alta Vista HotBot Excite* Rambler** Апорт! Яndex InfoRes МЕТА

Количество ключевых

слов

VVVVVV

н/д

Размещение ключевых слов

TITLE

VVVV   

HEADER

VV

META-таги

keyword



ALT

V

Степень близости

слов в тексте

V V  V

н/д



Операторы "веса"

+слово

-слово

+слово

-слово

+слово

-слово

+слово

-слово***



слово:N

(вираз):N



Учет популярности

ресурса

VVV

н/дн/дн/дн/дн/д

Длинна документа

V

Отслеживается спам

VV

текст тогож

кольору, що й фон

н/д

надлишкове

повторення слів,

текст кольору фону

н/дн/д

* - Excite основное внимание уделяет собственно тексту и заголовкам (header).

** - Rambler также учитывает текст, выделеный <B> та <STRONG> (більш жирний)

*** - Возможно использование нескольких знаков"+" или "-" для повышения значности слов.

I*EARN-99

119

Первое. Результаты поиска в большинстве случаев упорядочиваются в соответствии с

релевантности, но возможны и исключения с этого правила, например, на AltaVista такое

упорядочивание не проводится при использовании расширенного поиска только по логичному

выражению, без применения слов в первой части запроса.

Второе. В Web может существовать несколько копий одного и того же документу, но или

в различных кодировках, или размещенных на различных серверах

Поисковая система может

считать их или различными документами (что есть не довольно корректно) или копией одного

документу и выдавать, соответственно, или несколько линків, или один, с указанием всех

кодировок и списка адресов. Поисковый механизм серверу Яndex, например, при индексации

документу подсчитывает определенное число-идентификатор, которое является запорука

уникальности и хранится в индексной базе. Если это число уже есть в базе, считается, что

документ идентичный проіндексованому раньше, и вместо нового документу в индекс

заносится информация о дублировании в веб-страницы по другому адресу и, возможно в

другой кодировке.[ ] Информация о кодировке страницы получается с анализа заглавию и

выборочного анализа текста, также возможно использование данных тагу

META HTTP-EQUIV=“ContentType" CONTENT=“text/html; charset= windows-1251 ", где последняя

запись декларирует кодировку страницы; для кириллицы возможно использование четырех

кодировок: windows-1251, DOS-866, KOI-8r, ISO.

Определение релевантности документа.

Третье. Указание “меры релевантности". Это может быть количество входжень

ключевых слов в текст документу, или степень соответствия страницы в процентном

соотношении, Яndex, например, каждому найденному документу ставит в соответствие число

от 1 до 10. Возможна также выдача полной статистики запроса, что полезно при дальнейшем

поиске. Удобным является генерирование списка серверов, на которых размещено больше

всего документов с найденных по запросу.

Четвертое. Описание страницы. Им может служить или заглавие страницы, или текст с

мета-тагу description, или несколько первых строк основного текста документу, но наиболее

удобный для пользователя вариант вывод части текста страницы, в котором употребляются

ключевые слова с запроса.

Пятое. Использование повнотекстового индексирования и учета позиции каждого слова

в тексте документу позволяет поисковым системам Яndex и Апорт! и МЕТА предлагать

дополнительные возможности работы с результатами поиска Апорт! но МЕТА позволяют

получить реконструкцию текста найденных документов даже в случае их исчезновения с сети

(но, конечно, без форматирования и встроенных изображений). А на сервере Яndex

предлагается просто уникальная возможность навигации в найденном документе между

входженнями ключевых слов в текст. Эта опция имеет название “разметка документа".

Учет дубликатов документов.

Стратегия поиска, основанная на механизме анализа

текстов

Мы знаем, как система выделяет ключевые слова. Воспользуемся этим знанием, чтобы

сформировать оптимальный запрос. Прежде всего оговорим некоторые исходные

предпосылки. Допустим, мы имеем некий текст-источник и хотим найти в сети Интернет

документы схожего содержания. Откуда возьмется текст-источник? Поскольку сама задача

поиска не могла возникнуть из ничего, где-то непременно должна существовать информация,

возбудившая интерес к проблеме. Может быть, это журнальная статья, книга, веб-страница и

т.п. Именно эту информацию и нужно упорядочить и привести в форму, удобную для анализа.

Если задача существует только у вас в голове, попробуйте написать небольшое сочинение,

изложив свое видение проблемы, — оно и станет текстом-источником. Если бы нам удалось

препарировать текст-источник так же, как это делает поисковая машина, по идее, мы могли бы

получить результаты с максимально высокой релевантностью. Попробуем. Возьмем текст-

источник и проанализируем его.

Alta Vista HotBot Excite Rambler Апорт! Яndex InfoRes МЕТА

Учет разных

кодировок



н/д

zzz z

Отслеживание

копий документов

н/дн/д

zzz z

I*EARN-99

120

Последовательность действий такова:

Подбираем текст-источник. Чем четче описание проблемы в тексте-источнике, тем

качественнее и точнее окажется результат. Размытый и путаный текст-источник выудит из

поисковой системы столь же бестолковые документы.

Удаляем из текста стоп-слова (их можно просто вычеркивать).

Вычисляем частоту вхождения каждого термина. Причем делаем это без учета

морфологии слов. Так, слова ship и ships будут разными терминами. Не нужно учитывать и

регистр, все буквы считаем строчными.

Выписываем на отдельный лист термины в порядке убывания их частоты вхождения

(первыми должны идти те, которые встречаются чаще).

Выбираем диапазон частот. Он должен лежать где-нибудь посередине. Не нужно брать

слишком часто или, наоборот, слишком редко встречающиеся термины. Выбор диапазона

субъективен. Вам следует ориентироваться на конкретный смысл текста. Необходимость

выбирать диапазон вручную не должна смущать, ведь теперь вы выбираете термины не из

текста, а из построенного по определенному закону упорядоченного списка.

Из выбранного диапазона выписываем термины. В большом тексте в диапазоне может

оказаться довольно много слов. Все их применить вряд ли удастся. Достаточно взять 10-20

терминов. Их следует выбирать, руководствуясь, в первую очередь, здравым смыслом. Причем

не стоит ограничиваться только характерными терминами, даже если они кажутся наиболее

удачными. В список должны попасть и общие слова (их лучше выбирать из средней части

диапазона).

Составляем запрос, располагая отобранные слова в порядке их следования в списке

терминов. Запрос должен пониматься машиной как слова, связанные логическим оператором

ИЛИ. Это очень важное требование. Чтобы результат не исказился, следует изучить

особенности синтаксиса запросов конкретной поисковой системы.

Отправляем запрос поисковой системе.

В ответ вы можете получить несколько миллионов ссылок. Но не пугайтесь. Если

поисковая машина ранжирует результаты (а это еще одно необходимое условие), на первых

страницах окажутся практически стопроцентно релевантные документы. Самое любопытное,

что документ — источник запроса (если его аналог существует в Интернете) вовсе не

обязательно будет возглавлять список. Он может оказаться и на задворках.

Разумеется, предлагаемый метод поиска нельзя назвать универсальным. Далеко не все

поисковые машины покажут высокий результат поиска при его применении. Какими же

свойствами должна обладать поисковая система, чтобы применение метода было оправдано?

Множество факторов оказывают влияние на результат. Это и общий объем базы данных, и

механизм индексации, структура данных и так далее, и тому подобное. Но наиболее важными,

на мой взгляд, являются два умения поисковой системы: способность понимать запросы,

составленные на разных языках (для нас — на русском), и мощное ранжирование результатов.

С русским языком все понятно — без него нам в Интернете не интересно. Но почему так важно

ранжирование? Мы договорились вводить запрос с логикой ИЛИ. Это сильно увеличивает

количество возвращаемых поисковой машиной документов. Без ранжирования всякий поиск

теряет смысл. Наилучшие результаты дает ранжирование по схеме: точное соответствие —

все слова запроса — все слова, кроме последнего, — все слова, кроме двух последних, — ... —

все слова, кроме n последних, — первое слово (плюс, разумеется, ранжирование по

количеству терминов в тексте). Алгоритм может быть и более мощным, но даже при такой

последовательности мы можем быть уверены, что, сколько бы документов найдено ни было,

наиболее удачные окажутся впереди.

Наилучшие результаты в поиске по предлагаемому методу продемонстрировала

система AltaVista (www.altavista.com). Хотя на тестовый запрос система выдала более 5

миллионов ссылок, для англоязычного запроса на первых трех страницах все ссылки

оказались абсолютно релевантными! (Причем документ-источник появился только на третьей

странице.). Помимо AltaVista очень хороший результат в поиске на английском языке показал

HotBoot (www.hotbot.com). Более скромные поисковые машины Northern Light, Excite, Infoseek и

другие хотя и выполнили задание, но обилием релевантных ссылок не поразили (возможно,

просто из-за того, что их базы данных не столь велики). Для поиска на английском языке на

первых страницах оказалось 40-60% релевантных ссылок (впрочем, не такой уж плохой

результат).

Чрезмерное увлечение морфологической обработкой слов может лишить поиск

гибкости. На мой взгляд, именно этим грешат некоторые российские поисковые системы. Спору