Презентация
  • формат pdf
  • размер 4,32 МБ
  • добавлен 10 ноября 2012 г.
Введение в обработку текстов. Лекция 7. Лексическая семантика
Турдаков Д.Ю.
- М.: Институт системного программирования РАН; Факультет Вычислительной математики и кибернетики МГУ, 2012. – 56 слайдов.

Математический спецкурс для 3-5 курсов.
Спецкурс предназначен для студентов 3-5 курсов, желающих получить знания и практические навыки в области обработки текстовой информации. Курс знакомит слушателей с основными проблемами компьютерной обработки текстов и современными подходами к их решению. Рассматриваются как фундаментальные понятия и идеи, так и современные исследования в данной области. Особое внимание уделяется применению методов машинного обучения, которые активно развиваются в настоящее время и показывают лучшие результаты.
Актуальность обработки текстовой информации на естественном языке связана с ростом количества документов, доступных для автоматической обработки, потребностью в их анализе и наличием вычислительных ресурсов. Слушатели получат базовые знания в области обработки текстов на естественном языке, понимание проблем, возникающих при разработке систем текстового анализа, и подходов к их решению.

Содержание:
Возможные взгляды на семантику:
- Лексическая семантика.
- Композиционная семантика.
- Вычислительная семантика.
Основные понятия.
Отношения между словами.
Многозначность на практике.
WordNet.
Формат WordNet.
WordNet: отношения между словами.
Иерархии WordNet.
Как значение определяется в WordNet.
Вычислительная лексическая семантика.
Сложность разрешения лексической многозначности.
Разрешение лексической многозначности (РЛМ).
РЛМ: варианты.
Алгоритмическое решение проблемы.
Признаки для выбора значений:
Признаки должны описывать контекст.
Признаки в словосочетаниях с позициями.
Признаки из множества слов (bag-of-wirds).
Алгоритмы.
Наивный байесовский классификатор.
Обучение наивного байесовского классификатора.
Списки принятия решений.
Обучение списка принятия решений.
Самонастройка (Bootstrapping).
Алгоритм Yarowsky.
Методы основанные на словарях и тезаурусах.
Варианты алгоритма Леска.
Методы оценки.
Семантическая близость.
Семантическая близость слов
Семантическая близость слов и их значений в тезаурусах.
Близость по пути в иерархии.
Вероятность концепции.
Определения.
Информационное содержимое (Informationcontent).
Метод Резника.
Метод Лина.
Расширенный метод Леска.
Резюме: методы, основанные на тезаурусах.
Статистический подход к оценки близости слов.
Векторное представление контекста.
Идея.
Статистический подход к оценки близости слов.
Совместная встречаемость.
Вес ассоциации.
Близость между векторами.
Оценка качества (внутренняя, внешняя).
Современные направления.