Литвинова Т.А., Середин П.В., Литвинова О.А., Лиелль Д.Р. Классификация текстов по признаку ложный / правдивый с использованием методов автоматической обработки текстов

Статья

формат pdf
размер 2,92 МБ
добавлен 30 октября 2016 г.

Литвинова Т.А., Середин П.В., Литвинова О.А., Лиелль Д.Р. Классификация текстов по признаку ложный / правдивый с использованием методов автоматической обработки текстов

Научный диалог. — 2016. — № 10 (58). — С. 70—83.

Работа посвящена проблеме классификации текстов на русском языке по параметру «ложный / правдивый». Отмечается, что человек распознает ложь в речи на уровне случайной величины, следовательно, крайне необходимы инструменты, помогающие человеку в распознавании ложной, то есть намеренно искаженной информации. Указывается, что проблема распознавания лжи в речи изучается на протяжении длительного времени, однако в последние 10—15 лет для ее решения стали использоваться методы корпусной и компьютерной лингвистики. Подчеркивается, что большинство подобных работ выполняется на материале английского языка, в то время как русский язык находится на периферии подобных исследований. Авторами статьи построен специальный корпус ложных и правдивых нарративов на тему «Как я провел вчерашний день?» от каждого респондента, N = 173. Тексты были обработаны при помощи русской версии программы LIWC с пользовательскими словарями. Представлены результаты разработки метода, основанного на использовании коэффициента вариации и анализе характера распределения значений параметров текста. Предложенный метод позволил классифицировать текст как ложный или правдивый с точностью 68,3 %. Показано, что модель с разной точностью классифицирует тексты мужчин и женщин, а значит, в дальнейшем необходимо строить подобные модели с учетом характеристик авторов текстов, в том числе гендера.

Похожие разделы