Турдаков Д.Ю.
- М.: Институт системного программирования РАН; Факультет Вычислительной математики и кибернетики МГУ, 2012. – 33 слайда.
Математический спецкурс для 3-5 курсов.
Спецкурс предназначен для студентов 3-5 курсов, желающих получить знания и практические навыки в области обработки текстовой информации. Курс знакомит слушателей с основными проблемами компьютерной обработки текстов и современными подходами к их решению. Рассматриваются как фундаментальные понятия и идеи, так и современные исследования в данной области. Особое внимание уделяется применению методов машинного обучения, которые активно развиваются в настоящее время и показывают лучшие результаты.
Актуальность обработки текстовой информации на естественном языке связана с ростом количества документов, доступных для автоматической обработки, потребностью в их анализе и наличием вычислительных ресурсов. Слушатели получат базовые знания в области обработки текстов на естественном языке, понимание проблем, возникающих при разработке систем текстового анализа, и подходов к их решению.
Содержание:
Вопросно-ответные системы.
Типы вопросов.
Вопросы о фактах.
Типичная архитектура QA-систем.
Классификация вопроса.
Обработка запроса.
Формулирование запроса.
Определение типа ответа.
Таксономия типов ответов.
Определение типов ответов.
Типичная архитектура QA-систем.
Извлечение фрагментов текста.
Извлечение фрагментов текста (ранжирование).
Типичная архитектура QA-систем.
Обработка ответа.
Два основных класса алгоритмов:
- Основанные на шаблонах.
- Сбор ответа из N-грамм (N-gramm tiling) .
Алгоритмы на основе шаблонов.
Сбор ответа из N-грамм.
Сбор N-грамм.
Фильтрация и сбор ответа.
Автоматическое реферирование.
Типичная архитектура.
Отбор контента:
- Без учителя.
- C учителем.
Упорядочение.
Переконструирование предложения.
- М.: Институт системного программирования РАН; Факультет Вычислительной математики и кибернетики МГУ, 2012. – 33 слайда.
Математический спецкурс для 3-5 курсов.
Спецкурс предназначен для студентов 3-5 курсов, желающих получить знания и практические навыки в области обработки текстовой информации. Курс знакомит слушателей с основными проблемами компьютерной обработки текстов и современными подходами к их решению. Рассматриваются как фундаментальные понятия и идеи, так и современные исследования в данной области. Особое внимание уделяется применению методов машинного обучения, которые активно развиваются в настоящее время и показывают лучшие результаты.
Актуальность обработки текстовой информации на естественном языке связана с ростом количества документов, доступных для автоматической обработки, потребностью в их анализе и наличием вычислительных ресурсов. Слушатели получат базовые знания в области обработки текстов на естественном языке, понимание проблем, возникающих при разработке систем текстового анализа, и подходов к их решению.
Содержание:
Вопросно-ответные системы.
Типы вопросов.
Вопросы о фактах.
Типичная архитектура QA-систем.
Классификация вопроса.
Обработка запроса.
Формулирование запроса.
Определение типа ответа.
Таксономия типов ответов.
Определение типов ответов.
Типичная архитектура QA-систем.
Извлечение фрагментов текста.
Извлечение фрагментов текста (ранжирование).
Типичная архитектура QA-систем.
Обработка ответа.
Два основных класса алгоритмов:
- Основанные на шаблонах.
- Сбор ответа из N-грамм (N-gramm tiling) .
Алгоритмы на основе шаблонов.
Сбор ответа из N-грамм.
Сбор N-грамм.
Фильтрация и сбор ответа.
Автоматическое реферирование.
Типичная архитектура.
Отбор контента:
- Без учителя.
- C учителем.
Упорядочение.
Переконструирование предложения.