20
таких моделей является то, что в них отсутствуют блоки морфологического и
синтаксического анализов, что является принципиальным их недостатком, так как не
обеспечивается глубина анализа значений слов, необходимая для точного установления
семантической связности текста.
В этой модели (Уилкс) текст характеризуется следующими сущностями: смыслами
слов, сообщениями, фрагментами текста и семантической совместимостью [128].
Сообщение рассматривается как теоретический конструкт, посредством которого для
каждого слова, входящего во фрагмент текста, может быть выбран один из смыслов слова,
посредством чего снимается многозначность. Слову назначается тот из его многих
смыслов, который образует «сообщение», согласующееся, в конце концов, с
рассматриваемым фрагментом текста. Если слово может подойти к нескольким
сообщениям, то выбирается такое, которое согласуется с рассматриваемым текстом.
Анализ фрагмента текста протекает по следующей схеме. С помощью специальных
слов-маркеров выполняется фрагментация текста, затем словам приписывают из словаря
все их значения. Далее на анализируемый фрагмент текста поочередно накладываются
простые шаблоны, известные системе. С помощью специальных правил расширения
простой образец преобразуется в полный образец путем добавления слов из текста,
которые не вошли в образец. Указанная процедура осложнена тем, что может подойти не
один простой образец. Используя процедуры установления семантической близости
полученных образцов, формируется окончательное представление обрабатываемого текста.
К недостаткам анализа следует отнести то, что анализ текста осуществляется с помощью
словаря шаблонов, которые способны различать только класс событий, а не сами
конкретные события.
Другой подход к способу анализа по образцу представлен в моделях, использующих
табличный метод. Он основан на анализе ключевых слов, встречающихся в предложениях.
Суть табличного метода состоит в идентификации смысла всего предложения на основании
нескольких ключевых слов или их групп. После процесса идентификации слова
предложения заменяются на их каноническую форму - коды. Замена осуществляется с
помощью словаря словоформ. При этом также выделяются некоторые группы слов,
несущие тематическую нагрузку. Далее производится распознавание и замена стандартных
словосочетаний. Данный метод обладает рядом недостатков, преимуществом является его
простота для однозначных естественно-языковых предложений, в которых не требуется
полного понимания смысла предложения (например, запросы к базе данных).
Модели, в которых достаточно глубоко продуманы процедуры морфологического,
синтаксического и проблемного анализов, можно отнести к моделям, основанных на
интегральном подходе описания языка. Это модель «Смысл-текст» и модель контекстного
фрагментирования.
Модель «Смысл-текст» (И.А. Мельчук) представляет собой многоуровневый
транслятор текстов в смыслы и наоборот [7]. Выделяются четыре основных уровня –
фонетический, морфологический, синтаксический и проблемный. Каждый из них, за
исключением проблемного, подразделяется на два других уровня – поверхностный и
глубинный.
Данная модель может быть применима в системах, где необходимо понимание текста
в полном смысле (например, вопросно-ответные системы, системы принятия решений). Но