
Иногда неправильно выбранное нормализующее преобразование (как будет показано ниже
на примерах) может привести к ошибочному отбрасыванию (или ошибочной коррекции)
подозреваемой точки, на самом деле принадлежащей исследуемой совокупности.
Нормализующее преобразование часто выбирают из соображений простоты расчетов.
Удобней всех является тривиальное преобразование z
i
= y
i
. Его можно использовать даже в случае,
когда оно и не соответствует физической природе исследуемой величины (доле, КПД,
концентрации и т. п.). Это допустимо не только при удовлетворении значениям критериев
согласия выборочного распределения с теоретическим, но и когда разброс данных вокруг
среднего значения очень мал, а теоретически допускаемые (с малой вероятностью
α
k
согласно
формуле (11)) точки, далеко отстоящие от среднего значения, не выходят за область физически
допустимых границ.
Проблема выявления выбросов осложнена также возможностью появления более одной
подозреваемой точки, определением важности статистических выводов и стоимостью опытов.
Проблему выбросов можно решать компромиссным и бескомпромиссным методами.
Компромисс
заключается в том, что подозреваемую точку полностью не исключают, а
корректируют, то есть смещают ближе к среднему значению, к пункту, который допустим с малой
«разумной» вероятностью для нормального распределения [см, например, формулу (11)].
Подобная процедура получила название «винсоризации выброса» [7].
Однако и в этом случае не избежать следующего парадокса. Критерий выбросов (например,
Смирнова-Груббса) основан на предположении (подчеркнем это) о нормальном распределении.
Если с помощью этого критерия обнаруживается выброс и он винсоризируется (или
отбрасывается), то оставшиеся данные (особенно при малом объеме выборки), как правило, не
противоречат гипотезе о нормальном распределении (34) или (46). Поэтому процедура проверки
согласия выборочного распределения с нормальным при малой выборке практически заменяется
простой процедурой проверки гипотезы о выскакивающем значении до тех пор, пока
выскакивающее значение не будет исправлено (или отброшено).
Бескомпромиссный метод заключается в том, что распределение исследуемой величины
при наличии выброса признается отличным от нормального и поиск более подходящего
нормализующего преобразования продолжается. Если это не помогает, приходится пользоваться
численными методами обработки данных. Таковым является, например, метод бутстреп, или
метод «размножения выборки»
[8 – 10; Р1.3].
Суть метода бутстреп заключается в том, что в качестве «теоретического» берут не
нормальное распределение, а непосредственно наблюдаемое в эксперименте эмпирическое
распределение СВ, построенное по всем N наблюдённым значениям
i
= . Имитируя
численным методом Монте-Карло возможные выборки объемом N элементов из этого, так
сказать, «теоретического» распределения, вычисляют значение оценок его параметров
(математического ожидания, медианы, СО и др.), строят функции распределения этих оценок, с их
помощью определяют интервальные оценки и проверяют статистические гипотезы.
2.1.3. Проверка независимости генерального среднего от порядкового номера наблюдения
Параметры распределения СВ Z оцениваются верно, если генеральное среднее
MZ
не зависит от порядкового номера наблюдения. Такая зависимость может возникнуть, если,
например, результаты z
i
получены последовательно во времени, а параметр
z
является функцией
времени. В этом случае дисперсия
2
z
σ
может быть на самом деле малой величиной, но ее оценка
2
z
s
(8), полученная по всей совокупности
i
z
, будет смещена (в большую сторону) из-за
колебаний
z
во времени. Когда возникают подозрения, что такие колебания имеют место и если
можно предположить, что за период времени между парой последовательно выполняемых
замеров z
i
и
1
i
ziN
+
величина
z
практически не изменяется, то в качестве оценки
2
z
σ
хорошо использовать статистику