Дж. С. Дэвис. Статистический анализ данных в геологии. Книга 2
компенсировать уменьшением SS
D
, что в действительности приводит к увеличению среднего значе-
ния квадратов отклонений. Если это происходит, то F-отношение уменьшается, что приводит к со-
кращению числа членов в уравнении регрессии. Для определения наилучшей возможной регрессии
(наиболее значимого F-отношения) приходится исследовать всевозможные комбинации перемен-
ных; если переменных немного, это сделать легко, так как число их возможных комбинаций равно
2
m
. Однако если m велико, эта процедура требует значительных затрат машинного времени. Суще-
ствуют другие процедуры, которые позволяют получать оптимальную регрессию со значительно
меньшими затратами времени. Среди них можно назвать обратную процедуру исключения, прямую
процедуру выбора, методы пошаговой и многошаговой регрессии. При большом количестве исход-
ных переменных эти методы не всегда приводят к одинаковым уравнениям регрессии, однако ре-
зультаты, полученные на их основании, все же эквивалентны. Изложение этих методов не входит в
наши задачи, и мы приведем лишь краткое описание одного из них. Эти методы хорошо изложены в
некоторых руководствах, например, в книгах Дрейпера и Смита [14] и Мараскило и Левина [46].
Обратная процедура исключения сводится к построению уравнений регрессии, включающих
все возможные переменные, и в последующем отборе наименее значимых аргументов. Отбор про-
водится путем исследования стандартизированных коэффициентов частной регрессии с наимень-
шими значениями и последующего построения уравнения регрессии, из которого удалены эти пере-
менные. Значимость отбрасываемых переменных проверяется с помощью приемов дисперсионного
анализа, аналогичных представленным в табл. 4.16. Если переменная не дает значимого вклада в
регрессию, то она обыкновенно отбрасывается. Затем стандартизированные коэффициенты частной
регрессии приведенного уравнения анализируются снова, и процесс повторяется. На каждом шаге
число переменных в уравнении регрессии уменьшается на единицу до тех пор, пока все оставшиеся
переменные не окажутся значимыми.
Весьма полезно исследование набора семи переменных, представляющих характеристики
бассейна рек (см. рис. 6.1), с целью возможного исключения каких-либо из них. Исследуя стандар-
тизованные коэффициенты частной регрессии, и отбрасывая наименьшие из них и снова вычисляя
регрессию, мы можем найти минимальное множество аргументов регрессии.
Повторное применение программы множественной регрессии, очевидно, менее эффективно,
чем использование пошагового вычислительного алгоритма, но оно имеет то преимущество, что ка-
ждый шаг процесса может быть тщательно проанализирован. После того как будет достигнуто по-
нимание процессов исключения и изменения, происходящих при вычислении коэффициентов рег-
рессии, можно обратиться к более автоматизированным алгоритмам.
Хотя по внешним признакам теорию множественной регрессии можно отнести к «много-
мерным» теориям, так как в ней участвует несколько переменных, измеренных на каждом объекте
наблюдения, все же по существу своему она является одномерной, так как мы имеем дело с диспер-
сией только одной зависимой переменной Y, а поведение независимых переменных Х анализу не
подвергается.
Следующая тема нашего изложения – дискриминантный анализ, цель которого – идентифи-
кация или распределение объектов в заранее заданные группы. Разделение на две взаимно исклю-
чающие друг друга группы – это процесс, который в вычислительном плане является промежуточ-
ным между одномерными процедурами и настоящими многомерными методами, в которых много
переменных рассматриваются одновременно. Две группы, каждая из которых характеризуется неко-
торым множеством многомерных переменных, можно разделить с помощью решения некоторого
множества совместных уравнений, почти таких же, как те, которые используются в множественной
регрессии. Вектор правой части матричного уравнения, однако, не содержит степеней и попарных
произведений единственной зависимой переменной, а содержит разности между многомерными
средними этих двух групп.
Критерии теории дискриминантных функций включают многомерные обобщения простых
одномерных статистических критериев проверки гипотез о равенстве. Они будут рассмотрены поз-
же, после многомерных методов классификации или распределения объектов в однородные группы.
Затем мы рассмотрим методы, в которых используются собственные значения, включая метод глав-
ных компонент и факторный анализ. Последние параграфы содержат многомерные обобщения дис-
криминантного анализа и множественной регрессии.
Этот перечень, очевидно, не является исчерпывающим. Однако рассматриваемые методы
были выбраны по той причине, что они нашли применение в науках о Земле. Они включают множе-
ство вычислительных методов и оперируют с рядом фундаментальных понятий. Понимание теории