• формат pdf
  • размер 1,51 МБ
  • добавлен 08 января 2014 г.
Червоненкис А.Я. Компьютерный анализ данных
М.: Яндекс, 2009. — 260 с. — ISBN 590469601-9.
Лекции Школы анализа данных Яндекса.
Издательство осуществляется при поддержке компании «Яндекс».
Основным достоинством этой книги является весьма доступное изложение сложных статистических методов, которые широко используются в компьютерных программах статистического анализа данных.
Задача восстановления зависимостей. Интерпретация в терминах выбора функции из заданного класса. Интерпретация в терминах выбора модели из заданного класса моделей. Интерпретация в терминах имитации одного автомата другим. Критерии выбора
Определение вероятностной меры. Случайные величины, их функции распределения, моменты. Суммы случайных величин. Закон больших чисел. (Стандартные статистические пакеты: вычисление среднего, дисперсии, ковариации, корреляции и т.д. и погрешности их оценивания)
Закон больших чисел в форме Линдберга. Сравнение с результатом по Чебышеву. Свойства ковариационной матрицы. Плотность распределения вероятностей случайной величины и группы случайных величин. Метод максимального правдоподобия
Линейные преобразования случайных величин. Метод максимального правдоподобия (случай векторного параметра). Метод наименьших квадратов для оценки регрессии (общий подход). Метод наименьших квадратов для поиска наилучшего линейного приближения. (Стандартные процедуры регрессии и максимума правдоподобия)
Задача распознавания образов. Поиск решающего правила, минимизирующего число ошибок или среднее значение функции штрафа на данных обучения, в задачах распознавания образов. Разделение двух нормально распределенных совокупностей. Наивный Байес. Метод ближайшего соседа. (Стандартная процедура распознавания по ближайшему соседу. Процедуры нахождения дискриминантной функции)
Линейные решающие правила. Персептрон. Теорема Новикова. Потенциальные функции. Нейронные сети
Обобщенный портрет. Двойственная задача. Оптимальная разделяющая гиперплоскость. Машина опорных векторов (SVM) — ядра вместо скалярных произведений (скрещение потенциалов с ОП). Прочие отличия. Виды кернелов, параметры
Критика подхода. Примеры, когда он не работает. Проблема равномерной сходимости эмпирического риска к истинному (или частот вероятностям, или средних к математическим ожиданиям). (Примеры задач, когда использование рассмотренных методов не приводит к успеху)
Критерии равномерной сходимости частот к вероятностям. Функция роста. VC-размерность.
Критерии равномерной сходимости средних к мат. ожиданиям. Проблема выбора оптимальной сложности модели
Выбор модели. Байесов подход к проблеме. Общая постановка задачи. Формула Байеса. Байесова стратегия в теории игр. (Простейшие байесовы процедуры)
Регуляризация метода наименьших квадратов на основе байесова подхода. Асимптотика. Случай единичной матрицы. Обусловленность и псевдо-обратные матрицы. Общность единичной матрицы. Оптимальность для квадратичной штрафной функции (процедуры метода наименьших квадратов с регуляризацией)
Обратные задачи и их решение с использованием байесовой стратегии. Постановка задачи. Примеры. Природа некорректности. Решение. Обсуждение. Ограничение по норме
Метод кригинга. Сравнение с методом разложения по базисным функциям. (Стандартные процедуры кригинга)
Гребневая регрессия. Критика байесова подхода. Регуляризация как приближенная реализация байесовой стратегии. Проблема выбора констант регуляризации и системы функций разложения
Структурная минимизация эмпирического риска, общий подход. Прямые средства выбора оптимальной сложности модели. Leaing set, validation set, control set. Скользящий контроль (cross validation). Конформные предикторы
Структурная минимизация эмпирического риска на базе оценок равномерной сходимости. Общий подход
Применение структурной минимизации к задачам восстановления действительных функций. Относительные оценки равномерной близости средних к математическим ожиданиям. Их применение к структурной минимизации риска
Комбинированный подход: максимум правдоподобия — Байес
Применение метода максимума правдоподобия при восстановлении зависимости методом кригинга. Информационный критерий Акаике
Заключение
Похожие разделы