тально изучим каждый из этих процессов, основы-
ваясь на аппарате математической логики.
1. Индексирование документов. Процесс индекси-
рования заключается в том, чтобы отобразить содер-
жание документа при помощи некоторого множества
индексационных элементов. В развитых ИПС процесс
индексирования служит приписыванию каждому до-
кументу множества дескрипторов (ключевых слов),
отражающих его содержание и составляющих поиско-
вый образ документа. Отбор дескрипторов, описываю-
щих документ, необходимо осуществлять на основе
нескольких установленных критериев, позволяющих
выбирать конкретные или общие дескрипторы, большое
их число или малое и т. д. Кроме того, должна быть
устранена (по возможности) семантическая многознач-
ность, связанная с выбором различных дескрипторов,
описывающих сходные элементы, и одинаковых дес-
крипторов, обозначающих одинаковые элементы. На-
пример, при описании одного документа можно ис-
пользовать дескриптор „автор книги", а при описании
другого — дескриптор „писатель". Ясно, что при поиске
один документ может быть не обнаружен. Для
устранения подобных ситуаций необходимо либо
составить словарь разрешенных дескрипторов, либо
использовать некоторый тезаурус.
Сейчас мы рассмотрим примеры индексирования
документов, основанныа на использовании одномест-
ных и двухместных высказывательных форм и их
множеств истинности.
Пример. Пусть создается ИПС, в которой должны
храниться библиографические данные о произведениях
русских писателей. При этом в систему вводятся
следующие документы (по маре переиздания):
документ 1. Булгаков, „Бег", 1978;
документ 2. Ильф и Петров, „Золотой теленок", 1978;
документ 3. Булгаков, „Мастер и Маргарита"
1979; документ 4. Блок, „Двенадцать", 1980.
Осуществим отбор дескрипторов для мини-ИПС по
следующим принципам; в качестве ключевых слов
выберем фамилии авторов, названия произведений и
годы последнего издания книг. Проанализировав мас-
сив документов Д1 — Д4, приходим к множеству дес-
крипторов, приведенному в таблице 14, где справа
приведены сокращенные обозначения, составленные
из четырех букв или цифр (см. также ниже пример 3).
5 Т-743 65