Дж. С. Дэвис. Статистический анализ данных в геологии. Книга 2
ражением корреляционной зависимости каждой из переменных с р взаимно некоррелированными
факторами. Обычное допущение состоит в том, что р<m. Поэтому дисперсию для m переменных
можно вычислить с помощью дисперсии р-факторов плюс вклад, происхождение которого одинако-
во для всех m исходных переменных. В факторном анализе р независимых факторов носят название
общих факторов, а независимая от них суммарная добавка обычно называется фактором специ-
фичности. Факторная модель выражается в следующем виде:
X
j
= a
jr
f
r
+
j
(6.51)
где f
r
– r-й общий фактор; р – заранее заданное число факторов и
– случайная компонента, прису-
щая исходной переменной X
j
. Так как имеется m исходных переменных X
j
, то существует и m слу-
чайных переменных
j
; рассматриваемые вместе, они составляют вектор факторов специфичности.
Коэффициент a
jr
называется нагрузкой j-й переменной на r-й фактор. В компонентном анализе это-
му понятию соответствуют нагрузки или веса на главные компоненты.
Предположим, что переменные X
j
имеют многомерное нормальное распределение. Диспер-
сии и ковариации образуют матрицу порядка mm. Из формулы (6.51) вытекает, что диагональные
элементы этой матрицы – дисперсии m переменных – можно выразить формулой
p
r
jjjrjj
aS
1
22
var
(6.52)
а недиагональные элементы, или ковариации, имеют вид
p
r
krjrjk
aa
1
cov (6.53)
Основную гипотезу факторного анализа в матричной форме можно сформулировать сле-
дующим образом. Наблюдаемая ковариационная матрица, которую мы обозначим через [s
2
], являет-
ся произведением матрицы порядка mp факторных нагрузок (которую мы обозначим [А
R
] и ее
транспозиции плюс диагональная матрица порядка mm дисперсий факторов специфичности
[var
jj
]:
[s
2
] = [А
R
] [А
R
]’ + [var
jj
] (6.54)
В результате умножения матрицы порядка mp на ее транспонированную получим матрицу
порядка mm, которая, однако, будет иметь только р положительных собственных значений и соот-
ветствующих им собственных векторов. Если р=m, то матрица[var
jj
] оказывается тождественной
и наша задача в точности эквивалентна МГК. В тех случаях, когда р<m, мы должны оценить мат-
рицу параметров [A
R
], т.е. матрицу факторных нагрузок, и дисперсии факторов специфичности, т.е.
матрицу [var
jj
]. Отметим, что в факторном анализе предполагается, что число факторов р известно
до анализа, так как исследователь, исходя из некоторых предварительных рассуждений, в состоянии
предсказать число факторов, от которых зависит изучаемая модель. Если число факторов р заранее
предсказать нельзя, то разделение дисперсий между общими факторами и фактором специфичности
становится неопределенным. Этот важный момент иногда остается незамеченным экспериментато-
рами, которые пытаются использовать факторный анализ для «ловли рыбы». Определенное другим
способом число факторов р, [А
R
], матрица факторных нагрузок и дисперсии специфических факто-
ров [var
jj
] оказываются взаимосвязанными. Их нельзя оценить одновременно, поэтому для нахож-
дения единственного решения необходимо вводить различные ограничения. Простейшее из них–это
предположить число факторов равным некоторому априори заданному числу р. К сожалению, в
большинстве геологических задач число факторов. неизвестно заранее и может быть даже важным
объектом исследования. Другой путь – задать границу либо для [А
R
] [А
R
]’, либо для [var
jj
] и затем
извлекать факторы до тех пор, пока этот предел не будет достигнут.
Мы будем исследовать две из многих схем факторного анализа, начав с нахождения собст-
венных значений и собственных векторов корреляционной матрицы и затем отбрасывая менее важ-
ные из них. Это не приводит к «истинному» факторному решению, однако математика слишком
прямолинейна, и это приближение используется всюду в науках о Земле, в которых применяется
факторный анализ. Мы приведем также краткий обзор метода максимального правдоподобия, кото-
рый дает «истинные» факторы. К сожалению, соответствующие математические процедуры слиш-
ком сложны, чтобы их здесь описывать.