Глава 8. Регрессионный анализ
С.В. Булашев. Статистика для трейдеров (электронная версия).
102
что имеется массив значений фактора Х и соответствующий ему
массив значений отклика Y. Нанесем соответствующие точки
Nkyx
kk
,...,1),,( = на график. Если фактор и отклик - это ре-
альные статистические данные, то указанные точки никогда не
лягут на простую линию (прямую, параболу, гиперболу, экспо-
ненту, синусоиду и т.д.). Всегда будут присутствовать отклоне-
ния, связанные со случайным характером рассматриваемых пе-
ременных и/или с влиянием неучтенных факторов.
Кроме того часто оказывается, что один и тот же набор то-
чек можно с примерно одинаковой точностью описать различ-
ными аналитическими функциями. Следовательно, выбор вида
математической модели - это не формализуемая задача. Рацио-
нальный выбор той или иной модели может быть обоснован
лишь с учетом определенных требований, а именно:
- простоты модели,
- содержательности модели.
Простота модели
Наиболее распространенной ошибкой при описании фактиче-
ской зависимости является попытка детерминированного описания
этой зависимости, то есть включение в математическую модель
всех наблюдающихся особенностей конкретной выборки, в том
числе и тех, которые в действительности носят случайный харак-
тер.
Например, любой набор точек Nkyx
kk
,...,1),,(
можно
описать абсолютно точно полиномом (N-1)-й степени, зависящим
от N параметров
),...,,(
110 −N
aaa :
∑
−
=
=
1
0
N
k
k
k
xay
Но на практике получается, что появляющаяся новая (N+1)-я точка
уже не будет удовлетворять полученной формуле. То же самое
можно сказать обо всех появляющихся далее новых точках. При
этом расхождение между реальными данными и моделью будет на-
растать с увеличением количества новых данных.
В то же время может оказаться, что исходный набор
значений
),(
kk
yx можно приближенно описать какой-либо
простой функцией (прямой, параболой, гиперболой, экспонен