101
QUEST – это программа деревьев классификации, разработанная Loh и
Shih (1997), в которой используются улучшенные варианты метода
рекурсивного квадратичного дискриминантного анализа и которая
содержит ряд новых средств для повышения надежности и эффективности
"деревьев классификации", которые она строит. Алгоритмы пакета
QUEST
довольно сложны.
В модуле
Деревья классификации имеется другой, концептуально
более простой, подход. Реализованный здесь алгоритм Одномерного
ветвления по методу
CART является адаптацией алгоритмов пакета
CART. CART (Classification And Regression Trees) – это программа,
которая при построении "дерева" осуществляет полный перебор всех
возможных вариантов одномерного ветвления.
Метод
CART применяется для категоризующих (обычно
двухуровневых) и порядковых предикторных переменных. Для
категоризующей предикторной переменной, принимающей в данном узле k
значений, имеется ровно 2
(k-1)
–1 вариантов разбиения множества ее
значений на две части. Для порядкового предиктора, имеющего в данном
узле k различных уровней, имеется k–1 точек, разделяющих разные уровни.
Мы видим, что количество различных вариантов ветвления, которые
необходимо просмотреть, будет очень большим: если в задаче много
предикторов, то у них много уровней значений, а значит
в дереве много
терминальных вершин.
На первый взгляд, процедуры принятия решения дискриминантного
анализа и "деревьев классификации" выглядят похожими, так как в обеих
участвуют решающие уравнения и коэффициенты. Однако имеется
принципиальное различие между одновременным принятием решения в
дискриминантном анализе и последовательным (иерархическим) в
"деревьях классификации".
Различие между этими двумя подходами
станет яснее, если
посмотреть, как в том и другом случае выполняется регрессия.
Прогнозирование с помощью дискриминантного анализа осуществляется
путем одновременной множественной регрессии на все предикторные
переменные. Прогнозирование методом "деревьев классификации" состоит
из отдельных этапов простого (пошагового) регрессионного анализа.
Отличительная черта метода "деревьев классификации" – это
присущая ему гибкость – способность "деревьев классификации
"
последовательно изучать эффект влияния отдельных переменных. Есть
еще целый ряд причин, делающих деревья классификации более гибким
средством, чем традиционные методы анализа.
Широкая сфера применения "деревьев классификации" делает их
весьма привлекательным инструментом анализа данных, но не следует
полагать, что его рекомендуется использовать вместо традиционных
методов статистики. Напротив, если выполнены более строгие
теоретические предположения, налагаемые традиционными методами, и