82
Применительно к SVM данные методы используются, когда
количество обучающих примеров относительно невелико (до 4000 –
5000). К этой группе относятся различные методы поиска седловой
точки функции Лагранжа – методы Ньютона, квазиньютоновские
методы, методы сопряженных направлений и др.
2. Методы декомпозиции – методы обучения SVM, идея которых
основана на разбиении одной большой задачи на ряд подзадач.
Главным преимуществом
данного подхода является то, что он
предлагает алгоритмы с требованиями памяти, которые линейны
относительно количества обучающих примеров и количества опорных
векторов.
Первый подход по разбиению больших задач обучения SVM на
серии меньших задач оптимизации известен как алгоритм
«образования фрагментов» (chunking). Алгоритм начинает со
случайного подмножества обучающих данных, решает эту задачу и
многократно добавляет примеры, которые нарушают условия
оптимальности.
В группе методов декомпозиции наиболее эффективен на сегодня
алгоритм последовательной минимальной оптимизации (Sequential
Minimal Optimization, SMO), предложенный Платтом [3]. Его можно
рассматривать как отдельный случай алгоритма декомпозиции, размер
рабочего набора в котором всегда равен 2, а для поиска оптимального
рабочего набора используется набор эвристик.
К этой же группе можно
отнести и методы, основанные на
аппроксимации гессенской матрицы (матрицы частных производных
функции Лагранжа) с помощью более мелких матриц с
использованием или низкоуровневого представления, или
выборки/дискретизации, тем самым уменьшается размер задачи
оптимизации и ускоряется процесс обучения.
3. Методы обучения, основанные на вычленении из большого
набора входных данных тех векторов, которые являются
опорными,
поскольку только они определяют оптимальное решение
оптимизационной задачи для SVM. Сюда же можно отнести и так
называемые инкрементные методы обучения, которые предполагают
последовательное обучение SVM на новых данных при удалении всех
предыдущих данных за исключением их опорных векторов.
Преимуществом инкрементных методов является возможность
быстрого переобучения SVM при появлении новых данных.