Астапова О.П.
- М.: Факультет Вычислительной математики и кибернетики МГУ, 2012. – 16 с. Целью данной работы было исследование существующих алгоритмов нормализации слов естественных языков и реализация подобного алгоритма для русского языка. Были рассмотрены существующие алгоритмы выделения основы слова и возможные пути синтеза нормальной формы.
Был разработан метод нормализации русских слов, подходящий для обработки как словарных, так и отсутствующих в словаре, в том числе несуществующих, слов. Создан прототип системы нормализации, доказывающий работоспособность данного метода. Содержание:
Постановка задачи.
Обзор существующих решений.
Snowball (стеммер Портера).
Stemka.
Mystem.
Сравнение.
Исследование и построение решения.
Описание практической части.
Обоснование выбранного инструментария.
Общая схема работы.
Архитектура системы.
Характеристики функционирования.
Эффективность.
Производительность.
- М.: Факультет Вычислительной математики и кибернетики МГУ, 2012. – 16 с. Целью данной работы было исследование существующих алгоритмов нормализации слов естественных языков и реализация подобного алгоритма для русского языка. Были рассмотрены существующие алгоритмы выделения основы слова и возможные пути синтеза нормальной формы.
Был разработан метод нормализации русских слов, подходящий для обработки как словарных, так и отсутствующих в словаре, в том числе несуществующих, слов. Создан прототип системы нормализации, доказывающий работоспособность данного метода. Содержание:
Постановка задачи.
Обзор существующих решений.
Snowball (стеммер Портера).
Stemka.
Mystem.
Сравнение.
Исследование и построение решения.
Описание практической части.
Обоснование выбранного инструментария.
Общая схема работы.
Архитектура системы.
Характеристики функционирования.
Эффективность.
Производительность.