Назад
Гл.
4.
Выборка
и
выборочные распределения
123
Следовательно, в нашем примере Е ( х ) = (i
Однако, как уже упоминалось, на практике мы бы не стали действительно
строить выборючное р>аспр)еделение на основе многократного проведения выборок из
одной и той же совокупности. Следовательно, Е ( х ) не может быть вычислено
таким образом. Обычно мы располагаем данными только по одной единственной
выборке. Но ввиду
того,
что
нам
известно, что £ ( х ) = ц , мы можем использовать
единственную выборочную среднюю как несмещенную оценку генеральной средней:
где знак «"» обозначает оцениваемую величину.
Надежность оценки будет детально обсуждаться ниже, но.она может быть
выражена через дисперсию выборочного распределения. Стандартное отклонение
выборочного распределения представляет собой стандартную ошибку выборочного
распределения, которое обозначается SE (Standard error). Стандартная ошибка
выборочных средних обозначается как SE(
^
), где:
SE
(if)
i
I^i
Е(х))^
If
Y
fsf
iTT
If
E(x))^
ИнАиаидуолъны*
зночамия
Рис. 4.1. Нор#1алы1ая генеральшм совокупность
Для нормально распределенной генеральной совокупности стандартная ошиб-
ка выборочного распределения выборочных средних определяется по формуле:
SE
- „VEiZ
S^(x)=
7 (N-l)n
где а
генеральная дисперсия.
Если генеральная совокупность велика по сравнению с размером выборки
(обычно, если это соотношение n/N й 0,05), то:
I (N-1)
-1 .
124 Ч. 2. Анализ данных как составная часть принятия решений
и стандартная ошибка становится равной:
_ »/
от*
-/ генеральная
<>исперсия
(.*)~
п размер выборки '
Стондартноя
ошибка о
7?
Рис. 4.2. Выборочное распределение средних х
при размере выборок п " 4
Если мы будем изменять размер выборки, то увидим, что средняя выборочного
распределения не изменяется, так что Е { х ) = ц, т.е. несмещенная оценка не
зависит от размера выборки, тогда как SE^^c) уменьшается при возрастании
объема выборки (рис. 4.4).
Стандартное
отклонвни* о
Индивидуальные
аначения
Рис. 4.3. Нормальная генеральная совокупность
индивидуальных значений
При вычислении стандартной ошибки выборочных средних мы предполагаем,
что нам известна а (т.е. что известна генеральная дисперсия). Фактически же ее
величина неизвестна, и нам необходимо как-то получить оценку генеральной
дисперсии по выборке.
Гл.
4.
Выборка
и
выборочные распределения
125
Рис.
4.4. Выборочные распределення средних х
для выборок объема п - 4, 10, 2S
4.4.2.
Выборочное распределение выборочной дисперсии
Вы6орочн<^ распределение выборочной дисперсии может быть рассмотрено с
помощью метода, описанного выше, при этом дисперсия каждой выборки должна
быть зафиксирована. Однако в отличие от выборочного распределения выбороч-
ных средних выборочное распределение выборочных дисперсий не является нор-
мальным. Если генеральная совокупность является нормальной, то выборочное
распределение выборочной дисперсии имеет распределение х. (хи-квадрат).
КОНЕЧНАЯ ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ
Если генеральная совокупность является конечной, то математическое ожида-
ние выборочной дисперсии имеет вид:
Е (S 2)
N (п -
1)
а '
(N-1)'
п
Следовательно,
N
(п - 1)
Поэтому, если математическое ожидание выборочной дисперсии известно, то
может быть определена генеральная дисперсия о^. Е (s ) является несмещенной
оценкой генеральной дисперсии. В этом случае, как и при оценке генеральной
средней, наиболее вероятно, что мы будем располагать дисперсией только одной
выборки и использовать ее для получения оценки генеральной дисперсии. Тогда:
л
2 (N
- 1) ns^
'' N (n-l)'
где S
Ic;
х)^
Это дает нам несмещеннзоо оценку генера^тьной дисперсии.
126
Ч. 2. Анализ данных как составная часть принятия решений
Пример 4.3. Обратимся к примеру 4.1, где мы имели дело с конечной
совокупностью, состоящей из чисел: 4, 8, 12, 16, 20, 24. Построим выборочное
|)аспределение, формируя выборки, объем которых
равен двум
наблкшениям, и рассчитаем
дисперсию в качестве статистики для каждой выборки. Выборочная дисперсия:
1(
=
s^»^
х)^
Решение
Реализованные
выборки
4,
8
4.
12
4,
16
4.20
4,24
8. 12
8, 16
8,20
Таблица 4.4. Выборе
Выборочная
дисперсия.
4
16
36
64
100
4
16
36
•шые днсперсин.
Реализованные
выборки
8,24
12,
16
12,20
12,24
16,20
16,24
20,24
п-2
Выборочная
дисперсия.
64
4
16
36
4
16
4
Выборочное распределение дисперсий этих выборок следующее:
Таблица 4.S. Вы«1елеш1е Е (s')
Выборочгшя
дисперсия,
S ^
4
16
36
64
100
Итого
Частота,
f
5
4
3
2
1
15
fs'
20
64
108
128
100
420
Математическое ожидание выборочной дисперсии составляет:
E(s2).
If
, .28.0.
Отсюда
~ N
(^•=<^^>
=
^-^^«-°-^«-«-
Гл.
4.
Выборка
и
выборочные распределения
127
Так как нам известны данные генеральной coBOKjoraocTH, то можем вычислить
значение генеральной совокупности непосредственно. Нам известно, что генераль-
ная средняя ц = 14, следовательно:
Таблица 4.6.
Значение переменной, х
4
8
12
16
20
24
Итого
Вычисление в'
(x-v)^
100
36
4
4
36
100
280
Отсюда
Z (* -
>')^
280
^ - 46,6.
U b
Это значение совпадает с тем, которое было получено по выборочному распре-
делению выборочных дисперсий.
БОЛЬШАЯ (БЕСКОНЕЧНАЯ) ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ
Если генеральная совокупность большая, то приблизительно:
ЛГ=^=1.
(N-1)
Тогда выражение несмещенной оценки генеральной дисперсии имеет вид:
.2
E(s^).i5^Ji«:
° E(s^)
п (п-1)
и несмещенная оценка генеральной дисперсии может бьпъ выражена
^.
(п-1)
s^.
где S
12
Следовательно, а может быть записана как:
а £(^t- if S(x- if
(n-1) n " (n-1)
128 Ч. 2.
Анализ данных
как
составная часть принятия решений
Последнее выражение дает несмещенную оценку генеральной дисперсии. Вы,
должно быть, заметили, что несмещенная оценка генеральной дисперсии обычно
обозначается:
^2 К»-^'
(п-1)
(обозначение о не используется).
Важно не путать оценку гене1>альной дисперсии с выборочной дисперсией:
s^
1(х-х)'
Вы должны понимать, какую статистику вы рассчитываете. В этой книге мы
будем обозначать несмещенную оценку генеральной дисперсии как от , чтобы
избежать путаницы.
Если мы имеем дело с выборками из нормальной совокупности, то используем
таблицы X - распределения, так как выборочное распределение ns /а подчи-
няется
X
- распределению с (п - 1) степенями свободы (см. 4.4.4).
4.4.3. Оценка стандартной ошибки выборочного распределения
выборочных средних
В 4.4.1 стандартная ошибка'выборочного распределения выборочных средних при
больших совокупностях определялась как:
SE=
А^.
Чтобы получить стандартную ошибку из этого выражения, мы должны знать
генеральную дисперсию (Г. Если нам неизвестна ее величина, то можно использо-
вать в качестве ее оценки выражение:
Aj П S
в =
(п-1)
Следовательно, наилз^шей оценкой стандартной ошибки является:
4=>даЗ^=>Г^. где
s^
= ^^
(п-1) (п-1) п
или
Гл.
4.
Выборка
и
выборочные распределения
129
4.4.4. Стандартные выборочные распределения
z,
t,
у^,
F
Имеются
четыре
стандартных распределения, к которым мы будем часто обра-
щаться в последующих главах. Это нормальное распределение (z), t, х и F
распределения. В этом разделе будут рассмотрены основные особенности каждого
из этих распр)еделений в связи с их использованием для проведения статистичес-
кого вывода.
СТАНДАРТНОЕ НОРМАЛЬНОЕ (z) РАСПРЕДЕЛЕНИЕ
ВЫБОРОЧНЫХ СРЕДНИХ
В разделе 2.7 мы рассматривали нормальное распределение. Было показано, как.
можно преобразовать любое нормальное распределение в стандартное нормальное
2
распределение, для которюго среднее значение д =
О
и дисперюия о = 1. Значения
переменной для такого стандартного нормального распределения обозначаются z и
определяются как:
Рассчитанные таким образом значения z используются для нахождения требу-
емых вероятностей по таблице стандартного нормального распределения.
Выборочное распределение выборочных средних является нормальным распреде-
лением, если выборки получены как простые случайные из нормальной совокуп-
ности. Такое распределение описывается теми же характеристиками, что и любое
нормальное наблюдение, только лишь следует иметь в виду, что z в этом случае:
ввиду того, что выборочное распределение выборочных средних является распре-
делением значений х (а не х), для которых средняя есть ц , а стандартное'
отклонение или стандартная ошибка обозначается как
SE^^.
Значение z измеряется
числом стандартных ошибок, которые отделяют выборочную среднюю от гене-
ральной средней.
Ввиду того, что SEjj = a/V~n для больших совокупностей, г может быть
выражено как:
T/Vn'
Чтобы использовать это равенство, мы должны знать гене{)альную дисперсию
(а ). Если мы не знаем, то мы оцениваем ее, используя ее выборочную
дисперсию:
а = .
(п-1)
130 Ч. Z Анализ данных как составная часть принятия решений
Стандартизованная переменная в этом случае запишется как:
X - й
o/Vn
но ее распределение не всегда нормально. Стандартное нормальное (z) распреде-
ление может заменяться t-распределением.
t-РАСПРЕДЕЛЕНИЕ ДЛЯ ВЫБОРОЧНЫХ СРЕДНИХ
Если простая случайная выборка произведена из нормальной совокупности, дис-
персия которой неизвестна, стандартное распределение выборочных средних
t-распределение, где:
»/
V(n
- 1) а/
<п
'
t-распределение является симметричным относительно генеральной средней ц,
но в отличие от нормального t-распределения форма t-распределения зависит от п,
т.е.
от объема выборки. Когда п мало, t-распределение является более пологим по
сравнению с z-распределением. По мере того, как возрастает объем выборки,
t-распределение приближается к стандартному нормальному распределению; сле-
довательно, нормальное распределение можно использовать в качестве приближе-
ния t-распределения для выборки большого объема. Размер выборки считается
большим, если п ^ 30.
Зависимость t-распределения от объема выборки не является однозначной. В
действительности t-распределение варьирует с изменением числа степеней свободы
для каждого конкретного случая. Например, если мы имеем дело со средней
единственной выборки размером а, число степеней свободы будет равно (и - 1),
но если мы рассматриваем средние двух выборок, которые имеют размеры
П)
к п^,
то число степеней свободы будет равно (п^ + nj - 2).
Понятие числа степеней свободы может быть проиллюстрировано с помощью
следующего простого примера. Если мы вычисляем среднюю из пяти чисел, то при
этом мы свободны в выборе четырех из них, но значение пятого числа предопре-
делено величиной данной средней. Например, если средняя из пяти чисел равна 6,
мы можем выбрать 2, 7, 9 и 3 в качестве первых четырех чисел. Пятое число у
является определенным, потому что средняя равна: 6 = (2+ 7 + 9 + 3 + у/5) =
(21 + у/5), т.е. у должно быть равно 9. У нас нет свободы выбора последнего
значения и поэтому мы имеем четыре степени свободы.
Если значения величины t рассчитаны, то могут использоваться стандартные
выроятностные таблицы (t-таблицы), которые используются так же, как таблицы
стандартного нормального распределения. Однако поскольку таблицы t-распреде-
ления должны содержать значения числа степеней свободы так же, как и
различные значения t, то необходимо соединить всю необходимую информацию.
Фактически эти таблицы организованы обычно таким образом, чтобы значения t
были связаны с конкретными вероятностями для различных степеней свободы,
(см.
таблицу в Приложении 2). Использование таких таблиц будет более детально
поясняться в гл. 5.
Гл.
4. Выборка и выборочные распределения
131
ВЫБОРОЧНОЕ РАСПРЕДЕЛЕНИЕ х^ ДЛЯ ВЫБОРОЧНОЙ ДИСПЕРСИИ
Те же самые предположения делаются для распределения х , т.е. прежде всего
то,
что выборка произведена из нормальной совокупности. Статистика:
2 S^
Х-П-,
подчиняется распределению х с (п 1) степенями свободы. Как и t-распределе-
кие, форма этого распределения зависит от числа степеней свободы.
На рис. 4.5. приведены примеры отдельных распределений х при разном
числе степеней свободы. Распределение не симметрично и изменяется по мере
увеличения объема выборки.
2 а«п«ни саобоАы
6 ст«л«м«й свободы
10 сг«л«н«й свободы
Рис. 4.S. Распределение х'i раашпвом числе степеней свободы
Значения х представлены так же, как и t, в специальных таблицах, где
конкретные значения х даются для тех или иных степеней свободы.
ВЫБОРОЧНОЕ РАСПРЕДЕЛЕНИЕ F ДЛЯ ДВУХ ВЫБОРОЧНЫХ
ДИСПЕРСИЙ
Если мы имеем две выборки, которые были отобраны случайно из нормальных
совокупностей, то для того, чтобы сравнить две выборочные дисперсии, нам
потребуется новое выборочное F-распределение. Статистика:
Р =
П, S'
1 »1
("1
\)а\
/
"2*2
2 - 1) Oj
подчиняется F-распределению. Точно так же, как таблицы t-распределения, таб-
лицы F показывают значения F, соответствующие вероятности. Таблицы содержат
значения F статистики для комбинации числа степеней свободы в двух выборках.
Более детально F-распределение рассматривается в гл. 6.
L32 Ч. 2. Анализ данных как составная
часть
принятия решений
КАК БЫТЬ, ЕСЛИ СОВОКУПНОСТЬ НЕ ЯВЛЯЕТСЯ НОРМАЛЬНОЙ
Все стандартные распределения z, t, х и F предполагают, что выборка представ-
ляет собой случайную выборку из нормально распределенной генеральной сово-
купности. Мы можем обеспечить случайность отбора, но не можем контролировать
нормальность распределения генеральной совокупности. Самый простой способ
проверки приближения к нормальности состоит в использовании для этой цели
выборочных данных. Если графическое изображение выгладит симметрично, то
тогда можно предположить соответствие нормальному распределению. Существу-
ет и более формальные статистические тесты для проверки нормальности, но нет
необходимости излагать их в этой книге. Если выборочное распределение очевид-
но асимметричное, то нужно быть осторожным с его данными. Имеются специаль-
ные подходы к работе с такими выборками.
Что касается средней величины, центральная предельная теорема позволяет
нам пользоваться z-распределением, если размер выборки равен по крайней мере
30-ти единицам и более. Согласно центральной предельной теореме, если мы
берем достаточно большую выборку из совокупности, независимо от ее распреде-
ления, со средней ц и стандартным отклонением о, то распределение выборочных
средних будет приблизительно нормальным. Чем больше размер выборки, тем
ближе к нормальному будет это распределение. Общее правило таково, что
выборка должна быть объемом 30 единиц и более. В этом случае можно не
поднимать вопрос о нормальности распределения генеральной совокупности.
Альтернативный подход состоит в трансформации переменной: переменная,
которая не имеет нормального распределения, может быть трансформирована
каким-либо образом, например, путем перехода к логарифмам значений, и таким
образом может быть обеспечено соответствие нормальному распределению. Третий
пзпгь состоит в том, чтобы использовать непараметрическую статистику, которая не
требует предположения о нормальности.
РЕЗЮМЕ
Генеральная совокупность включает все единицы, которые составляют объект
исследования. Выборка включает гораздо меньшее число единиц, отобранных из
генеральной совокупности. Статистика вычисляется по данным выборки. На ее
основе делается вывод относительно соответствующего генерального параметра.
Чтобы применить статистические методы анализа, выборка должна быть слу-
чайной. Это означает, что каждая единица должна иметь равный шанс попасть в
выборку.
Существуют разные процедуры, обеспечивающие случайность отбора. Простой
случайный отбор является основным. Члены генеральной совокупности нумеруют-
ся,
тем самым создается основа для проведения отбора. Номера выбираются или
по таблице случайных чисел или отбираемые номера генерируются случайным
образом компьютером. Эти случайные числа используются для идентификации
тех единиц, которые попали в выборку. Другие методы отбора используются,
когда необходимо уменьшить размер выборки и вместе с тем гарантировать
репрезентативность генеральных характеристик, или для того, чтобы упростить
процедуру отбора.