I*EARN-99
120
Последовательность действий такова:
Подбираем текст-источник. Чем четче описание проблемы в тексте-источнике, тем
качественнее и точнее окажется результат. Размытый и путаный текст-источник выудит из
поисковой системы столь же бестолковые документы.
Удаляем из текста стоп-слова (их можно просто вычеркивать).
Вычисляем частоту вхождения каждого термина. Причем делаем это без учета
морфологии слов. Так, слова ship и ships будут разными терминами. Не нужно учитывать и
регистр, все буквы считаем строчными.
Выписываем на отдельный лист термины в порядке убывания их частоты вхождения
(первыми должны идти те, которые встречаются чаще).
Выбираем диапазон частот. Он должен лежать где-нибудь посередине. Не нужно брать
слишком часто или, наоборот, слишком редко встречающиеся термины. Выбор диапазона
субъективен. Вам следует ориентироваться на конкретный смысл текста. Необходимость
выбирать диапазон вручную не должна смущать, ведь теперь вы выбираете термины не из
текста, а из построенного по определенному закону упорядоченного списка.
Из выбранного диапазона выписываем термины. В большом тексте в диапазоне может
оказаться довольно много слов. Все их применить вряд ли удастся. Достаточно взять 10-20
терминов. Их следует выбирать, руководствуясь, в первую очередь, здравым смыслом. Причем
не стоит ограничиваться только характерными терминами, даже если они кажутся наиболее
удачными. В список должны попасть и общие слова (их лучше выбирать из средней части
диапазона).
Составляем запрос, располагая отобранные слова в порядке их следования в списке
терминов. Запрос должен пониматься машиной как слова, связанные логическим оператором
ИЛИ. Это очень важное требование. Чтобы результат не исказился, следует изучить
особенности синтаксиса запросов конкретной поисковой системы.
Отправляем запрос поисковой системе.
В ответ вы можете получить несколько миллионов ссылок. Но не пугайтесь. Если
поисковая машина ранжирует результаты (а это еще одно необходимое условие), на первых
страницах окажутся практически стопроцентно релевантные документы. Самое любопытное,
что документ — источник запроса (если его аналог существует в Интернете) вовсе не
обязательно будет возглавлять список. Он может оказаться и на задворках.
Разумеется, предлагаемый метод поиска нельзя назвать универсальным. Далеко не все
поисковые машины покажут высокий результат поиска при его применении. Какими же
свойствами должна обладать поисковая система, чтобы применение метода было оправдано?
Множество факторов оказывают влияние на результат. Это и общий объем базы данных, и
механизм индексации, структура данных и так далее, и тому подобное. Но наиболее важными,
на мой взгляд, являются два умения поисковой системы: способность понимать запросы,
составленные на разных языках (для нас — на русском), и мощное ранжирование результатов.
С русским языком все понятно — без него нам в Интернете не интересно. Но почему так важно
ранжирование? Мы договорились вводить запрос с логикой ИЛИ. Это сильно увеличивает
количество возвращаемых поисковой машиной документов. Без ранжирования всякий поиск
теряет смысл. Наилучшие результаты дает ранжирование по схеме: точное соответствие —
все слова запроса — все слова, кроме последнего, — все слова, кроме двух последних, — ... —
все слова, кроме n последних, — первое слово (плюс, разумеется, ранжирование по
количеству терминов в тексте). Алгоритм может быть и более мощным, но даже при такой
последовательности мы можем быть уверены, что, сколько бы документов найдено ни было,
наиболее удачные окажутся впереди.
Наилучшие результаты в поиске по предлагаемому методу продемонстрировала
система AltaVista (www.altavista.com). Хотя на тестовый запрос система выдала более 5
миллионов ссылок, для англоязычного запроса на первых трех страницах все ссылки
оказались абсолютно релевантными! (Причем документ-источник появился только на третьей
странице.). Помимо AltaVista очень хороший результат в поиске на английском языке показал
HotBoot (www.hotbot.com). Более скромные поисковые машины Northern Light, Excite, Infoseek и
другие хотя и выполнили задание, но обилием релевантных ссылок не поразили (возможно,
просто из-за того, что их базы данных не столь велики). Для поиска на английском языке на
первых страницах оказалось 40-60% релевантных ссылок (впрочем, не такой уж плохой
результат).
Чрезмерное увлечение морфологической обработкой слов может лишить поиск
гибкости. На мой взгляд, именно этим грешат некоторые российские поисковые системы. Спору