Турдаков Д.Ю.
- М.: Институт системного программирования РАН; Факультет Вычислительной математики и кибернетики МГУ, 2012. – 46 слайдов. Математический спецкурс для 3-5 курсов.
Спецкурс предназначен для студентов 3-5 курсов, желающих получить знания и практические навыки в области обработки текстовой информации. Курс знакомит слушателей с основными проблемами компьютерной обработки текстов и современными подходами к их решению. Рассматриваются как фундаментальные понятия и идеи, так и современные исследования в данной области. Особое внимание уделяется применению методов машинного обучения, которые активно развиваются в настоящее время и показывают лучшие результаты.
Актуальность обработки текстовой информации на естественном языке связана с ростом количества документов, доступных для автоматической обработки, потребностью в их анализе и наличием вычислительных ресурсов. Слушатели получат базовые знания в области обработки текстов на естественном языке, понимание проблем, возникающих при разработке систем текстового анализа, и подходов к их решению. Содержание:
N-граммы.
Приложения (определение языка, распознавание речи, распознавание письменного текста, машинный перевод).
Тренировочный и проверочный корпуса (Корпус - собрание текстов, объединенных общим признаком).
Доступные корпуса.
Примеры N-грамм.
Подсчет вероятности N-грамм.
Генератор текста.
Сглаживание.
Сглаживание Лапласа.
Откат (backoff).
Методы оценки качества моделей.
Коэффициент неопределенности.
Задача определения частей речи.
Открытые и закрытые классы.
Части речи.
Алгоритмы:
Основанные на правилах (rule-based).
Основанные на скрытых марковских моделях.
Основанные на трансформации (Brill tagger).
Алгоритм Витерби.
Разделяем тренировочный и проверочный корпуса.
Используем биграммы.
Какие можно встретить трудности.
- М.: Институт системного программирования РАН; Факультет Вычислительной математики и кибернетики МГУ, 2012. – 46 слайдов. Математический спецкурс для 3-5 курсов.
Спецкурс предназначен для студентов 3-5 курсов, желающих получить знания и практические навыки в области обработки текстовой информации. Курс знакомит слушателей с основными проблемами компьютерной обработки текстов и современными подходами к их решению. Рассматриваются как фундаментальные понятия и идеи, так и современные исследования в данной области. Особое внимание уделяется применению методов машинного обучения, которые активно развиваются в настоящее время и показывают лучшие результаты.
Актуальность обработки текстовой информации на естественном языке связана с ростом количества документов, доступных для автоматической обработки, потребностью в их анализе и наличием вычислительных ресурсов. Слушатели получат базовые знания в области обработки текстов на естественном языке, понимание проблем, возникающих при разработке систем текстового анализа, и подходов к их решению. Содержание:
N-граммы.
Приложения (определение языка, распознавание речи, распознавание письменного текста, машинный перевод).
Тренировочный и проверочный корпуса (Корпус - собрание текстов, объединенных общим признаком).
Доступные корпуса.
Примеры N-грамм.
Подсчет вероятности N-грамм.
Генератор текста.
Сглаживание.
Сглаживание Лапласа.
Откат (backoff).
Методы оценки качества моделей.
Коэффициент неопределенности.
Задача определения частей речи.
Открытые и закрытые классы.
Части речи.
Алгоритмы:
Основанные на правилах (rule-based).
Основанные на скрытых марковских моделях.
Основанные на трансформации (Brill tagger).
Алгоритм Витерби.
Разделяем тренировочный и проверочный корпуса.
Используем биграммы.
Какие можно встретить трудности.