
tfjd 4.2. Анализ данных как составная часть
принятия
решений
модели исключаются из рассмотрения. Этот процесс занимает очень много време-
ни.
Например, если у нас имеются пять независимых переменных, то возможно
построение 31 модели: одна модель со всеми пятью переменными, пять моделей,
включающие четыре из пяти переменных, десять
—
с тремя переменными, десять
—
с двумя переменными и пять моделей с одной.
Можно получить множественную регрессию не исключая последовательно
независимые переменные, а расширяя их круг. В в этом случае мы начинаем с
построения простых регрессий для каждой из независимых переменных поочеред-
но.
Мы выбираем лучшую из этих регрессий, т.е. с нгшвысшим коэффициентом
корреляции, затем добавляем к этому, наиболее приемлемому значению перемен-
ной у вторую переменную. Этот метод построения множественной регрессии
называется прямым.
Обратный метод начинается с исследования модели, включающей все незави-
симые переменные; в нижеприведенном примере их шггь. Переменная, которая
дает наименьший вклад в общую модель, исключается из рассмотрения, остается
только четыре переменных. Для этих четырех переменных определяется линейная
модель. Если же эта модель не верна, исключается еще одна переменная, дающая
наименьший вклад, остается три переменных. И этот процесс повторяется со
следующими переменными. Каждый раз, когда исключается новая переменная,
нужно проверять, чтобы значимая переменная не была удалена. Все эти действия
нужно производить с большим вниманием, так как можно неосторожно исключить
нужную, значимую модель из рассмотрения.
Не важно, какой именно метод используется, может быть несколько значимых
моделей и каждая из них может иметь огромное значение.
ШАГ 3. ВЫБОР ЛУЧШЕЙ МОДЕЛИ ИЗ ВСЕХ ЗНАЧИМЫХ МОДЕЛЕЙ
Эта процедура может быть рассмотрена с помощью примера, в котором определи-
лись три важнейших модели. Первоначально было пять независимых переменных
х: X,, Xj, Xj, x^, Xj, но три из них — Xj, х^ и Xj — исключены из всех моделей.
Эти переменные не помогают в прогнозировании у.
Поэтому значимыми моделями оказались:
Модель 1: у прогнозируется только Xj.
Модель 2: у прогнозируется только хз-
Модель 3: у прогнозируется Х) и хз вместе.
Для того, чтобы сделать выбор из этих моделей, проверим значения коэффи-
циента корреляции и стандартного отклонения остатков о, . Коэффициент мно-
жественной корреляции — есть отношение "объясненной" вариации у к общей
вариации у и вычисляется так же, как и коэффициент парной корреляции для
простой регрессии при двух переменных. Модель, которая описывает связь между у
и несколькими значениями х, имеет множественный коэффициент корреляции R,
который близок к + 1 и значение а^ очень мало. Коэффициент детерминации г ,
который часто предлагается в ППП, описывает процент изменяемости у, которая
обменяется моделью. Модель имеет значение в том случае, когда г^ близко к 100%.