Научный диалог. — 2016. — № 10 (58). — С. 70—83.
Работа посвящена проблеме классификации текстов на русском языке по
параметру «ложный / правдивый». Отмечается, что человек распознает
ложь в речи на уровне случайной величины, следовательно, крайне
необходимы инструменты, помогающие человеку в распознавании ложной,
то есть намеренно искаженной информации. Указывается, что проблема
распознавания лжи в речи изучается на протяжении длительного
времени, однако в последние 10—15 лет для ее решения стали
использоваться методы корпусной и компьютерной лингвистики.
Подчеркивается, что большинство подобных работ выполняется на
материале английского языка, в то время как русский язык находится
на периферии подобных исследований. Авторами статьи построен
специальный корпус ложных и правдивых нарративов на тему «Как я
провел вчерашний день?» от каждого респондента, N = 173. Тексты
были обработаны при помощи русской версии программы LIWC с
пользовательскими словарями. Представлены результаты разработки
метода, основанного на использовании коэффициента вариации и
анализе характера распределения значений параметров текста.
Предложенный метод позволил классифицировать текст как ложный или
правдивый с точностью 68,3 %. Показано, что модель с разной
точностью классифицирует тексты мужчин и женщин, а значит, в
дальнейшем необходимо строить подобные модели с учетом
характеристик авторов текстов, в том числе гендера.