невозможно. Статистика не претендует на то, чтобы сделать наши суждения
абсолютно достоверными. Она ставит перед собой более скромную задачу:
оценить степень надежности получаемых данных и степень надежности тех
выводов, которые делаются на их основе. Для этой цели используется аппарат
теории вероятностей.
Нетрудно доказать, что ошибка выборки зависит от двух моментов: от
размера выборки и от степени вариации признака, который нас интересует: чем
больше выборка, тем меньше вероятность того, что в нее попадут индивиды с
крайними значениями исследуемой переменной. С другой стороны, чем меньше
степень вариации признака, тем в целом ближе будет каждое значение к
истинному среднему. Размер выборки нам известен. А степень вариации
признака можно примерно оценить по степени разброса данных. Таким
образом, зная размер выборки и получив меру рассеяния наблюдений, нетрудно
вывести показатель, который называется стандартная ошибка среднего. Он
дает нам интервал, в котором должна лежать истинная средняя популяции.
Описанная процедура основана на том факте, что ошибки выборки и
ошибки измерений вообще подчиняются нормальному закону, поскольку они
обусловлены множеством случайных факторов. При этом совершенно не
обязательно, чтобы само распределение данных имело нормальный вид.
Представим себе, что мы изучаем разные случайные выборки из одной
генеральной совокупности. Оценки среднего, получаемые в каждом случае,
будут несколько различаться между собой, но в целом они будут
группироваться вокруг истинного значения. Если построить распределение этих
оценок, то оно окажется нормальным. В центре его будет лежать среднее по
генеральной совокупности, а стандартное отклонение будет равно стандартной
ошибке среднего. Но последний показатель, как мы видели, можно вывести и
на основании одной выборки. Он вычисляется по формуле: стандартное
отклонение, деленное на корень квадратный из числа наблюдений. Теперь, зная
свойства нормального распределения, можно указать интервал, в котором
должно находиться истинное среднее. Выше, рассматривая свойства
нормального распределения, мы отмечали, что в диапазоне двух стандартных
отклонений в обе стороны от среднего сосредоточено примерно 95% всех
случаев. Значит, вероятность получить значение, выходящее за эти пределы, не
превышает 5%, то есть такие ошибки будут встречаться не чаще, чем один раз
из 20 случаев. С вероятностью 0,95 можно утверждать, что истинное значение
лежит в указанных границах, которые задают доверительный интервал.