Турдаков Д.Ю.
- М.: Институт системного программирования РАН; Факультет Вычислительной математики и кибернетики МГУ, 2012. – 47 слайдов. Математический спецкурс для 3-5 курсов.
Спецкурс предназначен для студентов 3-5 курсов, желающих получить знания и практические навыки в области обработки текстовой информации. Курс знакомит слушателей с основными проблемами компьютерной обработки текстов и современными подходами к их решению. Рассматриваются как фундаментальные понятия и идеи, так и современные исследования в данной области. Особое внимание уделяется применению методов машинного обучения, которые активно развиваются в настоящее время и показывают лучшие результаты.
Актуальность обработки текстовой информации на естественном языке связана с ростом количества документов, доступных для автоматической обработки, потребностью в их анализе и наличием вычислительных ресурсов. Слушатели получат базовые знания в области обработки текстов на естественном языке, понимание проблем, возникающих при разработке систем текстового анализа, и подходов к их решению. Содержание:
Пример синтаксического разбора.
Где может быть полезно знание синтаксиса?
Контекстно свободные грамматики.
Формальное определение.
Согласование.
Откуда взять грамматику?
Эквивалентность грамматик.
Синтаксическая многозначность.
Грамматика зависимостей.
Категориальная грамматика.
Синтаксический разбор.
Восходящий анализ.
Алгоритм CKY.
Распознавание.
Запоминание путей.
Синтаксический разбор.
Группировка.
Группировка на основе правил.
Группировка на основе машинного обучения.
Наивный байесовский классификатор.
- М.: Институт системного программирования РАН; Факультет Вычислительной математики и кибернетики МГУ, 2012. – 47 слайдов. Математический спецкурс для 3-5 курсов.
Спецкурс предназначен для студентов 3-5 курсов, желающих получить знания и практические навыки в области обработки текстовой информации. Курс знакомит слушателей с основными проблемами компьютерной обработки текстов и современными подходами к их решению. Рассматриваются как фундаментальные понятия и идеи, так и современные исследования в данной области. Особое внимание уделяется применению методов машинного обучения, которые активно развиваются в настоящее время и показывают лучшие результаты.
Актуальность обработки текстовой информации на естественном языке связана с ростом количества документов, доступных для автоматической обработки, потребностью в их анализе и наличием вычислительных ресурсов. Слушатели получат базовые знания в области обработки текстов на естественном языке, понимание проблем, возникающих при разработке систем текстового анализа, и подходов к их решению. Содержание:
Пример синтаксического разбора.
Где может быть полезно знание синтаксиса?
Контекстно свободные грамматики.
Формальное определение.
Согласование.
Откуда взять грамматику?
Эквивалентность грамматик.
Синтаксическая многозначность.
Грамматика зависимостей.
Категориальная грамматика.
Синтаксический разбор.
Восходящий анализ.
Алгоритм CKY.
Распознавание.
Запоминание путей.
Синтаксический разбор.
Группировка.
Группировка на основе правил.
Группировка на основе машинного обучения.
Наивный байесовский классификатор.