Дж. С. Дэвис. Статистический анализ данных в геологии. Книга 2
Как и в обычном дисперсионном анализе, внутригрупповые и межгрупповые суммы квадра-
тов, сложенные вместе, дают общую сумму произведений
[S] = [B] + [W] (6.109)
Желательно, чтобы отношение [В]/[W] было по возможности велико. Легко убедиться, что это от-
ношение является многомерным аналогом отношения F, заданного по формуле F = МS
B
/МS
W
, ис-
пользуемого для проверки различия между группами в дисперсионном анализе. Если это отношение
велико, то это значит, что группы широко разбросаны, в то время как наблюдения внутри групп
плотно собраны вокруг своих средних.
Задача дискриминантного анализа состоит в нахождении множества линейных весов для пе-
ременных так, чтобы это отношение было максимальным. Если считать, что это множество весов
образует вектор [A
1
], то дискриминантный анализ можно трактовать как задачу нахождения элемен-
тов этого вектора [A
1
] таким образом, чтобы отношение
]][[][
]][[][
11
11
AWA
ABA
достигало максимума. Конечно, на вектор [A
1
] необходимо наложить некоторые ограничения. В
дискриминантном анализе обычно накладывается следующее ограничение: знаменатель этого вы-
ражения должен быть равен единице, т.е. 1]][[][
11
AWA .
При выполнении этого условия отношение будет достигать максимума тогда, когда [A
1
] –
собственный вектор матрицы [W]
-1
[B] соответствует наибольшему собственному значению. Можно
найти второе множество линейных весов [A
2
], которые являются элементами собственного вектора,
соответствующего второму по величине собственному значению. Аналогично можно найти третье
множество весов, четвертое и т.д. Таким образом, мы вычислим последовательность дискриминант-
ных функций, которые дают разделение на заранее заданные группы настолько хорошо, насколько
это возможно. В силу природы собственных векторов они ортогональны друг другу, и каждый сле-
дующий является вектором, дающим наилучшее разделение. Можно вычислить дискриминантную
функцию для каждого положительного собственного значения. В общем случае число положитель-
ных собственных значений будет равно наименьшему из чисел g–1 или р. К сожалению, матрица,
полученная по формуле [W]
-1
[B], не является симметричной, и поэтому ее собственные векторы на-
ходятся нелегко. В некоторых программах дискриминантного анализа собственные векторы нахо-
дятся итерационными методами, основанными на процессе, называемом разложением на особые
значения [7]. Другие программы сначала преобразовывают матрицу в симметричную форму, а затем
находится множество собственных векторов, которое в свою очередь преобразуется в требуемое
множество. Этот метод описан в [19], критические шаги пояснены в [47].
Наблюдения, используемые в вычислении дискриминантной функции, можно спроектиро-
вать на пространство, определенное дискриминантными осями. Это делается с помощью матрично-
го умножения
][][ XAZ
(6.110)
где [X] – исходная матрица данных порядка Np; [A] – матрица порядка pt, столбцы которой со-
стоят из t собственных векторов, соответствующих наибольшим собственным значениям, которые
используются в дискриминантных функциях. Центроиды g групп можно спроектировать на дискри-
минантное пространство по формуле
][][][
k
XAZ
(6.111)
где матрица [Х
k
] имеет порядок gp и состоит из средних всех переменных для каждой группы. Ог-
раничим свое внимание на парах дискриминантных функций (обычно это первая и вторая) и нане-
сем наблюдения и центроиды групп на диаграмму рассеяния. Обычно предварительно данные шка-
лируются. В некоторых программах производится стандартизация, а из каждого наблюдения вычи-
тается общее среднее и результат делится на стандартное отклонение, вычисленное по всему мно-
жеству данных. В других программах деление производится на объединенные внутригрупповые
стандартные отклонения. Мараскилло и Левин [46] дают поучительное сравнение различных подхо-
дов.
Очевидно, наблюдение неизвестного происхождения можно спроектировать на дискрими-
нантное пространство, просто умножая его слева на транспозицию матрицы [А]. Групповая принад-
лежность нового наблюдения становится очевидной из его положения на диаграмме рассеяния, од-