Задача «Найти зависимость между двумя признаками»
164
по значениям другого требуется показатель, который наиболее
обоснован со статистической точки зрения. Таким показателем яв-
ляется средняя арифметическая (точнее, условная средняя, линия
регрессии), но ее значения не лягут точно на ось эллипса рассеяния,
кроме центральной точки (M
y
, M
x
). Однако истинную зависимость
(пропорцию) не дает точно охарактеризовать случайная изменчи-
вость. Поэтому чем больше величина случайной составляющей об-
щей изменчивости (Cx) по сравнению с сопряженной (Cxy), тем
сильнее линия регрессии будет отклоняться от оси эллипса, т. е. чем
больше знаменатель, тем ближе к нулю величина коэффициента
регрессии.
Построить регрессионное уравнение – это еще даже не пол-
дела, важнее оценить значимость зависимости признаков, реаль-
ность их взаимодействия, т. е. установить, что признак x является
существенным, «доминирующим» фактором, сказывается на измен-
чивости признака y.
Сходную задачу о достоверном влиянии фактора мы решали
с помощью критерия исключения выскакивающих вариант. При
этом изучаемая выборка состояла из двух частей – некоего «ядра»,
внутри которого варианты отличаются друг от друга по случайным
причинам, и периферических вариант, которые отклонились от «яд-
ра» за счет действия каких-то новых (доминирующих) факторов.
Границы области случайного варьирования определялись по «со-
глашению 95%» и составляли M
±
2S. Чем больше выборка, тем бо-
лее точно определяются эти границы.
Перенесем эту логику на случай двумерного нормального
распределения. Это значит, что всю область рассеяния вариант
можно разбить на две зоны. Во-первых, это «ядро», в котором вари-
анты отличаются друг от друга только по случайным причинам, т. е.
факториальный признак x не влияет на результативный признак y.
На плоскости двух осей граница области случайного варьирования
будет иметь форму окружности, случайный разлет вариант от сред-
ней возможен, естественно, во все стороны. Во-вторых, по перифе-
рии будут располагаться варианты, отклонившиеся от «ядра» за счет
действия доминирующего фактора, т. е. за счет взаимодействия при-
знаков. Такое положительное влияние x на y означает, что чем
больше будет значение признака x, тем больше будет и значение
признака y, а чем меньше x, тем меньше y. Получается, что вариан-