17. Математическая статистика в синоптической метеорологии
35
С помощью пошаговой процедуры получается упорядоченный список предик-
торов. Набор составляется из еременных, которые имеют наиболее высокую предска-
зывающую способность. Таким образом, получаем последовательность регрессионных
функций:
п
Yb=
0
;
Yb bX=
011
;
Yb bX bX=
01122
; ...;
Yb bX bX bX
nn
+++
01122
...
,
причём, на каждом последующем шаге предиктор добавляется не по порядку, указан-
ному, например, при описании вектора предикторов, а статистически управляемо – на
основе некоторых статистических критериев значимости. Например, на последующем
шаге добавляется предиктор,
• корреляция которого с Y при заданных условиях максимальна;
• который приводит к наибольшему возрастанию множественной корреляции ме-
жду Y и отобранными предикторами (R-метод),
• который вызывает наибольшее уменьшение оптимальной суммы квадратов;
• статистика включения которого имеет наибольшее значение (F-метод) и т.д.
Определение оптимальных уравнений регрессии производится с помощью неко-
торых стандартных правил, которые предусматривают допустимый минимум F-
статистики (F-статистики включения и толерантности (для включаемых предикторов) и
статистики F-исключения для уже включенных предикторов). Величина минимума F-
включения соответствует величине максимума уровня значимости
α для некоторого
числа степеней свободы k, например, min F(включения) равен F(1, k) при (1-α).
Задается порог толерантности для включаемых предикторов. Например, порог
толерантности не выше 0.3; F-статистика включения равна 2 %, F-исключения – 1 %.
Таким образом, если предиктор будет давать улучшение схемы хотя бы на 2 %, он мо-
жет быть включен в схему прогноза, и если отбрасывание предиктора ухудшит оценки
не более чем на 1 % – он не включается в схему прогноза.
При решении вопроса о числе предикторов, включаемых одновременно в схему
прогноза, следует учесть, что согласно теоретическим и эмпирическим исследованиям,
использование большого числа членов в конечном итоге не улучшает схему прогноза
из-за взаимного влияния предикторов друг на друга.
Кроме того, при большом числе членов в уравнении расчеты становятся более
громоздкими и
неудобными при оперативном использовании, хотя эта причина при со-
временной вычислительной технике, становится второстепенной.
Н.А. Дашко Курс лекций по синоптической метеорологии