
Дистрибутивно-статистический анализ текстов
254
по некоторой формуле. Сравниваются результаты применения двух ста-
тистических методов для построения тезауруса – метода, предложенно-
го Кембриджским отделом лингвистических исследований, и метода,
предложенного Шайкевичем. На одном и том же текстовом материале
(тексты патентных формул) проводились расчеты по разным коэффици-
ентам совместной встречаемости и на разных интервалах текста. По
результатам
исследования можно сделать вывод, что для построения
тезауруса метод, предложенный Шайкевичем, оказался более предпоч-
тительным.
Маршакова И.В. Построение информационно-поискового тезауруса
методом дистрибутивно-статистического анализа. // Научно-
техническая информация, сер.2, 1977, №5, с. 11-15.
В статье рассмотрен пример для построения информационно-
поискового тезауруса, выполненного на основе дистрибутивно-
статистического метода, предложенным Шайкевичем. Эксперимент
проводился по текстам рефератов (по тематике “Газовые горелки”) на
основе двух интервалов – минимального (одно слово влево и одно впра-
во от исходного слова) и среднего – (от 50 до 500 слов в тексте). При
проведении эксперимента для получения списка устойчивых словосоче-
таний использовался статистический метод, основанный только на под-
счете совместной встречаемости двух слов
, а для выявления парадигма-
тических связей использовался дистрибутивный метод, основанный
также на учете данных о встречаемости данных слов с другими словами
в заданном интервале текста. По результатам исследования были полу-
чены частотный словарь ключевых слов, список устойчивых словосоче-
таний, статьи информационно-поискового тезауруса, семантические
поля. Примеры результатов исследования также приводятся
в статье и в
приложении. В заключении статьи делается вывод о возможности ис-
пользования дистрибутивно-статистического метода для построения
тезауруса (и, как следствие, использования тезауруса в различных поис-
ковых задачах), а также о целесообразности автоматизации алгоритма
дистрибутивно-статистического метода с помощью ЭВМ.
Пекар В.И. Дистрибутивная модель сочетаемостных ограничений
глаголов. //
Материалы конференции «Диалог-2004. Компьютерная
лингвистика и ее приложения». Под ред.Нариньяни А.С. Москва:
Наука, 2004. - http://www.wlv.ac.uk/~in8113/papers/dialog04_pekar.pdf
В статье рассматривается возможность применения дистрибутивно-
статистического метода для определения сочетаемостных ограничений
глагола. Предлагаемый алгоритм дистрибутивно-статистического мето-
да состоит в выделении из корпуса текстов существительных, наиболее