335
более точно, распознавать присутствие тех или иных образов в составе
данных специального вида. Это позволило построить систему индекса-
ции общего назначения, которую можно применять к основным видам
данных, включая устную речь (голос), сигналы, тексты и изображения.
Был также создан комплекс алгоритмов, самостоятельно адаптирую-
щихся к особенностям обрабатываемой информации и позволяющих
осуществлять нечеткий поиск - поиск образов, составленных из двоич-
ных символов.
В технологии APRP под нечетким поиском понимается возможность
найти достаточно близкое приближение к запрошенному термину или фра-
зе. Нечеткий поиск устраняет для пользователя необходимость знать пра-
вильное написание каждого термина, с которым он работает. Поскольку
APRP работает не с ключевыми словами, а с образами, две-три ошибочные
буквы в слове или фразе не могут существенно изменить базовую картину
текста. Таким образом, автоматически становится исправимой ошибка, как
во входных данных, так и в терминах запроса. APRP всегда в состоянии
найти ближайшее приближение к терминам и фразам, заданным в качестве
объектов поиска. Поясним это на примере.
Даже, если мы напишем в запросе:
ЦЦЦТЕРМАРГМАСАРИТАЭЭЭЭЭЭ,
имея в виду название романа Михаила Булгакова, мы получим
правильный ответ: "Мастер и Маргарита".
Поиск происходит следующим образом:
- Запрос конвертируется в бинарную форму
- Игнорируется шум, т.е. отбрасываются ЦЦЦ и ЭЭЭЭЭЭ
- Проводится нечеткий поиск
Как реально происходит нечеткий поиск? Ранее упоминалось, что
технология APRP оперирует информацией на уровне двоичных кодов, т. е.
каждое слово для нее - это образ, состоящий из нулей и единиц. Например,
слово "пень" для нее представляется двоичным образом 10101111 10100101
10101101 11101100; а слово "печь" имеет двоичный образ 10101111
10100101 11100111 11101100 (каждая буква в слове представляется одним
байтом). Сравним двоичные образы обоих слов:
ПЕНЬ -
10101111 10100101 10101101 11101100
ПЕЧЬ -
10101111 10100101 11100111 11101100
Из 32 позиций каждого двоичного образа не совпадают только ком-
бинации из 6-ти элементов, что составляет лишь около 20% от длины дво-
ичного образа. С точки зрения технологии APRP образы этих слов очень
близки к друг другу, и в качестве результата поиска вам могут быть пред-
ложены документы, содержащие оба слова, а вы укажете, которые из них
вы имели ввиду при поиске. Приведенный пример, однако, не означает, что
вам будет предложен бесконечный список вариантов, в той или иной сте-
пени похожих на ваш запрос.