241
Средства и интерфейсные объекты в поисковых технологиях
Для обеспечения эффективного поискового процесса как направ-
ленной локализации информационного пространства необходимо нали-
чие интерфейсных объектов и средств, поддерживающих персонифици-
рованную предметную идентификацию (в том числе иерархического ти-
па) отдельных информационных объектов и коллекций.
Использование словарных и рубрикационных структур при
подготовке и обработке запроса
В большинстве информационных систем помимо традиционных
частотных словарей применяются различные средства, имеющие лин-
гвистическую природу, например, тематические рубрикаторы, тезауру-
сы, словари неинформативных лексических единиц (СНЛ), словари си-
нонимов (как и тезаурусы, позволяют осуществлять поиск не только по
запрошенному слову, но и по его синонимам), словари словосочетаний
(ССЛ).
Рассмотрим словарные структуры, наиболее часто использующие-
ся при поиске и формировании документальных БД.
1. Словарь отрицаний («стоп-слов») – содержит термины, при-
знанные не информативными для данной предметной области. Исполь-
зование их запрещается для индексирования содержания документов.
Например, термины «исследование», «вопросы», «требования», «про-
блемы» и др.
Словарь стоп-слов может использоваться как при построении час-
тотных словарей, так и при разборе ИПЯ-выражения запроса. Запрещён-
ные термины не заносятся в словарь. Таким образом, неинформативные
термины автоматически исключаются из поискового процесса.
2. Тезаурус представлят семантическую сеть, в которой понятия
связаны регулярными и устойчивыми семантическими отношениями –
иерархическими (например, род – вид, целое – часть), ассоциативными и
отношениями эквивалентности. При этом термин тезауруса представля-
ет слово или словосочетание, соотносящееся с понятием определенной
области знаний, вступающее в системные отношения с другими терми-
нами и образующее вместе с ними замкнутую систему, отличающуюся
высокой информативностью, однозначностью и точностью.
Тезаурус используется, во-первых, при индексировании информа-
ционных массивов; во-вторых, для расширения терминов поисковых за-
просов зафиксированными в тезаурусе близкими по смыслу терминами;
в-третьих, для рубрицирования документов.
3. Словарь синонимов определяет одну или больше синонимичных
категорий для каждого входа словаря. Такие словари широко использу-
ются при индексировании, а также позволяют искать не только по за-
прошенному слову, но и по его синонимам.
4. Морфологический словарь содержит основы слова, приставок,