Назад
Гл.
8. Линейная регрессия 263
Выражения доверительных интервалов очень похожи между собой. Единствен-
ным значимым различием является то, что вариация для индивидуальных у при
данном значении х увеличивается на величину oj (1-р). 100%-ный доверительный
интервал для индивидуальных значений у при х =
XQ
имеет вид:
У
* 'хр/г).
(п
-
2)
где:
у = а + Ьх^.
С вероятностью 95% доверительный интервал в примере 8.1 составит:
J \о - 2,89)''
Табл.
8.4 и рис. 8.19 показывают изменения двух доверительных интервалов
по мере того, как меняется хд-
Таблица 8.4. Вычвсленяе доаернтельвых интервалов для fiy|z и для у
при данном аначешш Хо, по данным примера 8.1
Расстояние,
Хо,
миль
1,0
2,0
2,89)
3.0
4,0
4.9
Время, мин
y=S,9f+2,66xt
8,57
11,23
13,60
13,89
16,55
18,94
95%-ные
доверительные
интервалы
для
Ц»|*±лин
1,47
1,00
0,82
0,82
1,09
1,54
у при
данном
Ха
±мин
2,98
2,77
2,71
2,71
2,81
3,01
Даже всего лишь при 20-ти значениях приходится делать долгие и сложные
вычисления. Используя ППП, больи^ю часть работы можно сделать очень быстро.
Важно понять, что делает та или иная программа и как интерпретировать ее
результаты. К сожалению, различные программы имеют небольшое количество
символов и знаков. Если вы имеете пакет программ по регрессионному анализу, то
разберитесь сначала с простым примером, как в этой книге, а затем используйте
ППП. Сравните производительность компьютера и вычислений вручную и тогда
вы все поймете. Доскональное понимание двух различных линейных моделей
также поможет, когда вы приступите к множественной регрессии, расчеты по
которой всегда должны производиться на компьютере.
264 4,2, Анализ данных как
составная часть
принятия решений
Время,
мин
ДрМрИТАЛЬНЫЙ
интервал
ДА*
иидиЕидуапьных
значений у
^*\ по регг^сии
'•^^\ талия. V
Оцененко*
Доверительный интеркол
для пинии, т.е. ц y/i
5 Расстояние, миль
Рис.
8.19. Доверительные интервалы для ру|х для у при данной
Хо
для выборки, п^Ю
8.6. МОДЕЛИ МНОЖЕСТВЕННОЙ РЕГРЕССИИ
В предыдущих разделах было упомянуто о том,что вряд ли выбранная незави-
симая переменная является единственным фактором, который повлияет на зависи-
мую переменную. -В большинстве случаев мы можем идентифицировать более
одного фактора, способного влиять каким-то образом на зависимую переменную.
Так, например, разумно предположить, что расходы цеха будут определяться
количеством отработанных часов, использованного сырья, количеством произве-
денной продукции. По видимому, нужно использовать все факторы, которые мы
перечислили для того, чтобы предсказать расходы цеха. Мы можем собрать
данные об издержках, отработанном времени, использованном сырье и т.д. за
неделю или за месяц Но мы не сможем исследовать природу связи между
издержками и всеми другими переменными посредством корреляционной диаграммы.
Начнем с предположений о линейной связи, и только если это предположение
будет неприемлимо, попрюбуем использовать нелинейную модель. Линейная модель
для множественной регрессии:
у = а +
|3,х,
+ Pjxj +
Р3Х3
+
+ Мп + е.
Вариация у объясняется вариацией всех независимых переменных, которые в
идеале должны быть независимы друг от друга. Например, если мы решим
использовать пять независимых переменных, то модель будет следующей:
у = о
+
Р,Х,+ Р2Х2+ Р3Х3+ М4+ М5+
Е-
Как и в случае простой линейной регрессии мы получаем по выборке оценки
Pi,P2
0L,
и т.д. Наилучшая линия для выборки:
Гл.
8. Линейная
регрессия
у = а + Ь,х,+ b2Xj+ ... + b„x„.
Коэффициент а и коэффициенты регрессии Ь вычисляются с помощью
рия минимальности суммы квадратов ошибок 2
(У
-
У)*-
Для дальнейшего ai
регрессионной модели используют следующие предположения об ошибка
любого данного х:
1.
Е(8)=0.
2.
Дисперсия е равна а^ и одинакова для всех х.
3.
Ошибки независимы друг от друга.
Эти предположения те же, что и в случае простой регрессии. Однако в д
случае они ведут к очень сложным вычислениям. К счастью, ППП выполня
вычисления, позволяя нам сосредоточиться на интерпретации и оценке
MHOI
торной модели. В следующем разделе мы определим шаги, которые необх
предпринять в случае множественной регрессии, но в любом случае мы
полагаться на компьютер.
ШАГ 1. ПОДГОТОВКА ИСХОДНЫХ ДАННЫХ
Первый шаг обычно предполагает обдумать, как зависимая переменная
быть связана с каждой из независимых переменных. Нет смысла включать;
нительные переменные х, если они не дают возможность объяснения вариа
Вспомним, что наша задача состоит в том,чтобы объяснить вариацию у ш
изменения независимой переменной х. Нам необходимо рассчитать коэффиц
корреляции г для всех пар переменных при условии независимости наблю
друг от друга. Это даст нам возможность определить, связаны х с у линеЙ!
же нет, независимы ли х и х, между собой. Это важно в множественной регр
Мы можем вычислить каждый из коэффициентов корреляции, как пока:
разделе 8.5, чтобы посмотреть, насколько их значения отличны от нуля
нужно выяснить, нет ли высокой корреляции между значениями незавю
переменных. Если мы обнаружим высокую корреляцию, например, между х
то маловероятно, что обе эти переменные должны быть включены в оконч
ную модель.
ШАГ 2. ОПРЕДЕНИЕ ВСЕХ СТАТИСТИЧЕСКИ ЗНАЧИМЫХ МОДЕЛ:
Мы можем исследовать линейную связь между у и любой комбинацией нез1
мых переменных. Но модель имеет силу только в том сл)^чае, если суще!
значимая линейная связь между у и всеми х и если каждый коэффв
регрессии b значимо отличен от нуля.
Мы можем оценить значимость модели в целом, используя F-критерий. 1
того,
мы должны использовать t-критерий для каждого коэффициента регр
Ь,
чтобы определить, значимо ли он отличен от нуля. Если коэффициент р
сии не значимо отличается от нуля, то соответствующая независимая перем
не помогает в прогнозе значения у и модель не имеет силы.
Полная процедура заключается в том, чтобы установить множественяу
нейную регрессионную модель для всех комбинаций независимых переме
Оценим каждую модель, используя F-критернй для модели в целом и t-кри
для каждого коэффициента регрессии. Если F-критерий или любой из t-Kpin
незначимы, то эта модель не имеет силы и не может быть использована.
tfjd 4.2. Анализ данных как составная часть
принятия
решений
модели исключаются из рассмотрения. Этот процесс занимает очень много време-
ни.
Например, если у нас имеются пять независимых переменных, то возможно
построение 31 модели: одна модель со всеми пятью переменными, пять моделей,
включающие четыре из пяти переменных, десять
с тремя переменными, десять
с двумя переменными и пять моделей с одной.
Можно получить множественную регрессию не исключая последовательно
независимые переменные, а расширяя их круг. В в этом случае мы начинаем с
построения простых регрессий для каждой из независимых переменных поочеред-
но.
Мы выбираем лучшую из этих регрессий, т.е. с нгшвысшим коэффициентом
корреляции, затем добавляем к этому, наиболее приемлемому значению перемен-
ной у вторую переменную. Этот метод построения множественной регрессии
называется прямым.
Обратный метод начинается с исследования модели, включающей все незави-
симые переменные; в нижеприведенном примере их шггь. Переменная, которая
дает наименьший вклад в общую модель, исключается из рассмотрения, остается
только четыре переменных. Для этих четырех переменных определяется линейная
модель. Если же эта модель не верна, исключается еще одна переменная, дающая
наименьший вклад, остается три переменных. И этот процесс повторяется со
следующими переменными. Каждый раз, когда исключается новая переменная,
нужно проверять, чтобы значимая переменная не была удалена. Все эти действия
нужно производить с большим вниманием, так как можно неосторожно исключить
нужную, значимую модель из рассмотрения.
Не важно, какой именно метод используется, может быть несколько значимых
моделей и каждая из них может иметь огромное значение.
ШАГ 3. ВЫБОР ЛУЧШЕЙ МОДЕЛИ ИЗ ВСЕХ ЗНАЧИМЫХ МОДЕЛЕЙ
Эта процедура может быть рассмотрена с помощью примера, в котором определи-
лись три важнейших модели. Первоначально было пять независимых переменных
х: X,, Xj, Xj, x^, Xj, но три из них Xj, х^ и Xj исключены из всех моделей.
Эти переменные не помогают в прогнозировании у.
Поэтому значимыми моделями оказались:
Модель 1: у прогнозируется только Xj.
Модель 2: у прогнозируется только хз-
Модель 3: у прогнозируется Х) и хз вместе.
Для того, чтобы сделать выбор из этих моделей, проверим значения коэффи-
циента корреляции и стандартного отклонения остатков о, . Коэффициент мно-
жественной корреляции есть отношение "объясненной" вариации у к общей
вариации у и вычисляется так же, как и коэффициент парной корреляции для
простой регрессии при двух переменных. Модель, которая описывает связь между у
и несколькими значениями х, имеет множественный коэффициент корреляции R,
который близок к + 1 и значение а^ очень мало. Коэффициент детерминации г ,
который часто предлагается в ППП, описывает процент изменяемости у, которая
обменяется моделью. Модель имеет значение в том случае, когда г^ близко к 100%.
Гл.
8. Линейная
регрессия
267
В данном примере мы просто выбираем модель с наибольшим значением г^ и
наименьшим значением а^ . Предпочтительной моделью оказалась модель l.Ha
следующем шаге необходимо сравнить модели 1 и 3. Различие между этими
моделями состоит во включении переменной хз в модель 3. Вопрос в том
повьппает ли значительно хз точность предсказания значения у или же нет!
Следующий критерий поможет ответить нам на этот вопрос это частный
F-критерий. Рассмотрим пример, иллюстрирующий всю процедуру построения
множественной регрессии.
О Пример 8.2. Руководство большой шоколадной фабрики заинтересовано в
построении модели для того, чтобы предсказать реализацию одной из своих уже
долго существующих торговых марок. Были собраны следующие данные.
Таблица 8.5. Построение модели для прогноза объема реализации
Дата
19X0
январь-июнь
июль-декабрь
19X1
январь-июнь
июль-декабрь
19X2
январь-июнь
июль-декабрь
19X3
январь-июнь
июль-декабрь
19X4
январь-июнь
июль-декабрь
19X5
январь-июнь
июль-декабрь
)9Х6
январь-июнь
июль-декабрь
19X7
январь-июнь
июль-декабрь
Реализация
за 6 мес,
млн.
ф.ст.
126
137
148
191
274
370
432
445
367
367
321
307
331
345
364
384
Реклама,
млн.
ф.ст.
4.0
4.8
3,8
8.7
8,2
9.7
14,7
18,7
19,8
10,6
8,6
6.5
12,6
6,5
5,8
5,7
Цена,
пенсы
за вд.
15,0
14,8
15,2
15,5
15,5
16,0
18,1
13,0
15,8
16,9
16,3
16,1
15,4
15,7
16,0
15,1
Цена
конкурента,
пенсы
за ед.
17,0
17,3
16,8
16.2
16,0
18,0
20,2
15,8
18,2
16,8
17,0
18,3
16,4
16.2
17.7
16,2
Индекс
потреби-
тельских
расходов
100,0
98,4
101,2
103,5
104,1
107,0
107,4
108,5
108,3
109,2
110,1
110,7
110,3
111,8
112,3
112,9 J
>м{Я
4.2. Аналш
данных
как
составная часть принятия решений
Определим "лучшую" модель для прогноза объема реализации.
Решение.
Шаг 1. Просмотр данных. Реализация за шесть месяцев
зависимая перемен-
ил у. У нас пять независимых переменных х, четыре из них расходы на
рекламу, цена товара, конкурентная цена и индекс потребительских затрат. Пятая
переменная время, которое может быть обозначено для первого периода
Январь-июнь 19X0- период 1, следующий период-2 и т.д., до 16 последнего
периода, июль-декабрь 19X7. Вычислим коэффициенты корреляции, г, для всех
шести переменных.
Воспользуемся процедурой проверки гипотез для определения значимости
этих коэффициентов.
Но:
Р=0 - коэффициент корреляции в генеральной совокупности равен нулю.
Между парой переменных не существует никакой линейной связи.
В идеале это должно выполняться для всех пар независимых переменных.
Н^:
ртЮ
коэффициент корреляции не равен нулю. Между парой переменных
существует линейная связь.
Это должно выполняться для пар, образованных зависимой переменной с
каждой независимымой переменной.
Проверим эти гипотезы на
5%-ном
и
1%-ном
уровнях значимости, используя
двусторонний критерий. Из таблиц t-распределения значение t на
5%-ном
уровне
значимости составляет:
*<).025 " 2,145,
а на
1%-ном
уровне:
to.005 = 2,997.
Формула критерия:
t =
л/
г'Сп-г)
1-.^
с (п-2) степенями свободы.
Коэффициенты корреляции и соответствующий уровень значимости приведены
ниже:
Таблица 8.6. Коэффициенты коррелацш г
(в скобках указав уровень аяачиности)
Время
Реклама
Цена
Конхуреят-
ная цеяа
Индекс
Зависимая
переменная
Реализация
0,68(1%)
0,64(1%)
0,23
0,23
0.82(1%)
Время
0,10
0.17
-0.05
0.96(1%)
Независимые переменные
реклама
-0.01
0,21
0,27
цена
0,70(1%)
0.23
конкурентная
цена
0.03
Гл.
8. Линейная регрессия 269
Зависимая переменная, т.е. объем реализации, имеет невероятно сильную
линейную связь со временем, расходами на рекламу товара и индексом потреби-
тельских расходов. К сожалению, независимые переменные, время и индекс
потребительских расходов, очень высоко коррелированы. Маловероятно, что обе
переменные должны быть включены в окончательную модель. Это же верно и для
двух ценовых переменных с коэффициентом корреляции 0,70. Будем иметь это в
виду в ходе выполнения шага 2.
Шаг 2. Нахождение всех статистически значимых моделей. Будем использо-
вать обратный метод для нахождения значимых моделей. Начнем с рассмотрения
всех переменных в модели и затем придем к четырем переменным вместо пяти и
так далее, пока не будут определены значимые модели. Модель для пяти перемен-
ных имеет вид:
Реализация = а + Ь,х(время) + Ь2х(реклама) + Ьзх(цена) +
+ Ь4х(конкурентная цена) -•- Ь^хСиндекс).
Установим сначала общую значимость модели, используя F-критерий.
Компьютер производит обычно табличный анализ дисперсии, в котором общая
вариация реализации разделена на две части: часть, которая объясняется моде-
лью,
и часть, которая не объясняется моделью, т.е. на вариацию, объясненную
регрессией и необъясненную, или остаточную вариацию. Компьютер рассчитыва-
ет два показателя:
S(y-y)'
Средняя из квадратов отклонений, обусловленных регрессией »
~т-,
,
эта величина измеряет вариацию, объясненную регрессионной моделью.
Средняя из квадратов остатков » —-jj ,
которая измеряет вариацию, не объясненную регрессией.
Замечание: Общее число степеней свободы равно п-1, где п число данных в
совокупности, в данном примере п=16, dfperpec. ~ число степеней свободы для
регрессии, которая задана числом независимых переменных к. В данной модели
k=°5=dfQ(.r число степеней свободы для остатков может быть найдено как:
*^остат. ~
<1^об1ц.
~ *^^регрос.~ (п-1)
ЧИСЛО
независимых переменных.
В данном примере
Aioc^^t,
= 16-1-5=10.
Если модель описывает св51зь между у и всеми независимыми переменными х,
то величина остаточной вариации будет очень малой. Для всей модели в целом:
HQ:
нет линейной связи между какими-либо независимыми переменными и
продажей, т.е. Pi=P2=P3=*4=P5=0-
Н<: (ущестауег линейная связь между сдной или большим числом независимых
переменных, т.е. по крайней мере одна величина PjiK).
270 4.2. Анализ данных как составная часть принятия решений
Для того чтобы модель была полезной и имела силу, мы должны отвергнуть Но и
принять Н]. Значение F-критерия есть соотношение двух величин, описанных вьпие:
__ Средний квадрат отклоненией, обусловленных регрессией
~ Средний квадрат отклонений, обусловленных остатками
Этот критерий с одним «хвостом» (односторонний), потому, что средний квадрат,
обусловленный регрессией, должен быть больше, чтобы мы могли принять Н^.
В предыдущих разделах, когда мы использовали F-критерий, критерии были
двусторонние, так как во главу угла ставилось большее значение вариации, каким
бы оно ни было. В регрессионном анализе нет выбора наверху (в числителе)
всегда вариация у по регрессии. Если она меньше, чем вариация по остаточной
величине, мы принимает Н^, так как модель не объясняет изменений у. Это
значение F-критерия сравнивается с табличным:
^0,05,
к,(п-1-к)
Из таблиц стандартного распределения F-критерия:
^0.05,1,10 ~ 3,326.
В нашем примере значение критерия:
F = 28271 / 1736 = 16.3.
16,3 > F, поэтому мы получили результат с высокой достоверностью.
Проверим каждое из значений коэффициентов регрессии. Предположим, что
компьютер сосчитал все необходимые t-критерии. Для первого коэффициента
гипотезы формулируются так:
HQ:
время не помогает объяснить изменение продаж при условии, что осталь-
ные переменные присутствуют в модели, т.е. Pi=0.
Н^: время дает существенный вклад и должно быть включено в модель,
т.е. PjseO.
Проведем испытание гипотезы на 5%-ном уровне, пользуясь двусторонним
t-критерием при:
(n-1-k) = 10 степенях свободы.
Граничные значения на данном уровне:
4,025,10 ~ ±2,228.
Значение критерия:
Ь,-О
t- .
Рассчитанные значения t-критерия должны лежать вне указанных границ для
того,
чтобы мы смогли отвергнуть гипотезу
HQ-
Гл.
8. Линейная регрессия
271
Так как все независимые переменные подчиняются этому правилу, то резуль-
таты проверки значимости для пяти переменных в данной модели обобщены в
следующей таблице:
Таблица 8.7. Проверка знжчниостн коаффнцнентов
регрессии для пяти переменных
Независимая
переменная
Время
Реклама
Цена
Конкурентная цена
Индекс
Коэффициеит
регрессии Ь
-13,4
6,6
-6,4
12,1
30,5
Значение
1'критерия
-1,29
2,21
-0,41
0,84
2,65
Достоверность
на
5%-ном
уровне
не достоверно
почти достоверно
не достоверно
не достоверно
достоверно
Сейчас мы видим, что наша модель не достоверна, потому что четыре коэффи-
циента регрессии не значимо отличны от нуля. Нам нужно решить, какую
переменную следует исключить из модели.
В табл. 8.8 представлены шаги, предпринятые по мере того, как мы сокращаем
число переменных в модели от 5 до 4, затем до 3, до 2 и, наконец, до 1 независи-
мой переменной. Прочерки показывают, что переменная не включена в модель.
Пользуясь результатами наших исследований, можно решить, какая переменная
должна быть исключена из рассмотрения. Для каждой модели мы испытываем всю
регрессию и отдельные коэффициенты регрессии. Если модель подходит по всем
критериям, то а^ должно быть малым, а г как можно ближе к 1.
Таблица 8.8. Исследование различных моделей регрессии
Коли-
чест-
во
пере-
мен-
ных
в
модели
5
4
3
2
2
1
Значи-
мость
всей
модели
на
5%-ном
уровне
по
F-
критерию
да
да
да
да
да
да
Время
нет
-
_
да
Значимость
коэффициентов
регрессии
по t-критерик
Реклама
7
да
да
да
да
Цена
нет
нет
:
-
Конку-
регапная
цена
нет
нет
нет
-
Индекс
да
да
да
да
да
Имеет
ли
значи-
мость
модель
нет
нет
нет
да
да
да
ое
42
43
41
41
50
62
г
0,94
0,93
0,93
0,93
0,89
0,82
Шаг 3. Какую из значимых моделей нужно использовать?
В нашем примере значение модели появились лишь тогда, когда количество
переменных сократилось до двух. Сравнение моделей необходимо проводить через
сопоставление стандартных отклонений остатков. Отклонение должно быть пре-
дельно малым числом. Первая модель с расходами на рекламу и индексом
272
4.2. Анализ данных как составная часть
принятия
решений
потребительских расходов является наилучшей, так как о^ =41 по сравнению с
а =50 для модели с расходами на рекламу и временем как независимыми переменными.
Последний шаг сравнение лучшей модели с двумя переменными с лучшей
моделью с одной переменной. По величине корреляции выбираем лучшую модель
с одной переменной при г=0,82. Если бы добавление еще одной независимой
переменной значительно улучшило модель, то мы смогли бы применить частный
F-критерий для проверки. Этог критерий показывает, что введение величины
расходов на рекламу значительно улучшает модель и нам нужно использовать две
переменные: индекс потребительских расходов и расходы на рекламу. Оконча-
тельная модель:
Объем реализации = -1476 + Э,54х (реклама) + 15,8х (индекс) (млн. ф. ст./б мес.).
Коэффициенты регрессии для расходов на рекламу и индекса потребительских
расходов положительны, как мы и предполагали. Постоянная - 1476. ст.)
выглядит абсурдной, но вспомним, что модель имеет силу только для значений,
входящих в выборочную совокупность. Расходы на рекламу изменяются от
3,8 млн. ф. ст. до 19,8 млн. ф. ст., а индекс
от 98,4 до 112,9.
Этот пример хорошо показьшает все сложности объяснения и расчета каждой
отдельной величины многофакторной модели. Цель статистической модели
объяснить вариацию продаж, а не предоставить особую информацию по изоли-
рованному влиянию рекламы или индекса потребительских цен на реализацию.
По данным выборки модель,дает некоторое представление о таких эффектах.
В выборочной совокупности всегда возникает противоречие между теми или иными
переменными. Поэтому коэффициенты регрессии при отдельных переменных
должны использоваться с особым вниманием.
Наконец, при анализе мы должны проверить структуру и размер ошибок, а
потому мы должны заранее предполагать большие ошибки. Ошибки рассчитываются
следующим образом:
Ошибка = фактический объем реализации
ожидаемая реализация.
Таблица 8.9. Размер ошибок (млн. ф. ст.)
Фактическая
реализация
126
137
148
191
274
370
432
445
Ожидаемая
реализация
142
125
159
242
247
307
361
417
Ошибка
-16
12
-И
-51
27
63
71
28
Фактическая
реализация
367
367
321
307
331
345
364
384
Ожидаемая
реализация
424
350
346
335
387
350
354
362
Ошибка
-57
17
-25
-28
-56
-5
10
22