– 2 –
1 Статистические (байесовские) алгоритмы клас-
сификации
Байесовский подход основан на предположении, что плотности распределения
классов либо известны, либо могут быть оценены по обучающей выборке. Это очень
сильное предположение. Оно позволяет выписать искомый алгоритм в явном анали-
тическом виде. Более того, можно доказать, что этот алгоритм является оптималь-
ным, обладая минимальной вероятностью ошибки классификации.
К сожалению, на практике плотности распределения классов, как правило,
неизвестны. Оценивание плотности по конечной выборке — задача, вообще говоря,
более трудная, чем построение алгоритма классификации. В первом случае требу-
ется восстановить вещественную функцию, во втором — всего лишь бинарную. Ка-
залось бы, нет особого смысла сводить простую задачу к сложной. Тем не менее,
байесовский подход, основанный на восстановлении плотностей, позволяет строить
вполне работоспособные алгоритмические конструкции. Эти алгоритмы, как и мно-
гие другие алгоритмы классификации, являются, по сути дела, эвристическими.
По идее, они должны работать в тех случаях, когда реальные данные удовлетворя-
ют, хотя бы приближённо, исходным вероятностным предположениям. На практике
границы их применимости оказываются значительно шире.
Перечислим наиболее распространённые подходы к восстановлению плотностей
распределения, используемые для синтеза алгоритмов классификации.
• Если функция плотности известна с точностью до параметров, то значения
этих параметров можно оценить по выборке, исходя из принципа максимума
правдо подоб ия. В этом случае говорят о параметрических методах оценивания.
Часто используют многомерные нормальные распределения или смеси несколь-
ких нормальных распределений. Эти методы работают, когда реальные данные
достаточно точно описываются выбранным семейством распределений.
• Если подогнать параметрическую модель распределения под имеющиеся дан-
ные не удаётся, то применяют непараметрические методы, основанные на ло-
кальной аппроксимации плотности в каждой точке пространства X. Эти ме-
тоды дают сбой при большом числе признаков, так как по мере увеличения
размерности пространства X все точки выборки становятся практически оди-
наково далеки друг от друга. Этот эффект называют проклятием размерности
(curse of dimensionality). Для сокращения размерности применяются различные
методы отбора информативных признаков (features selection).
• При отсутствии информации о виде распределения вместо параметрического
семейства плотностей можно непосредственно задавать вид разделяющей по-
верхности. Эта эвристика хорошо работает в тех случаях, когда семейство раз-
деляющих поверхностей удачно подобрано для данной конкретной задачи.
Задача построения алгоритма классификации в условиях, когда фиксирован
вид функций правдоподобия классов, либо вид разделяющей поверхности, называ-
ется в математической статистике задачей дискриминантного анализа.