Глава 4. Оценка параметров распределения по выборке случайной вели-
чины
С.В. Булашев. Статистика для трейдеров (электронная версия).
64
Решение о том, фильтровать промахи или нет, каждый при-
нимает для себя сам. Однако следует учесть, что промахи могут
существенно исказить оценку параметров распределения.
В этом параграфе излагается формализованная процедура
удаления аномальных величин из выборки. Прежде всего, вве-
дем понятие коэффициента цензурирования. Коэффициент цен-
зурирования - это безразмерная величина G, такая, что все зна-
чения из выборки
}{
k
x , лежащие за пределами интервала
σσ
⋅+≤≤⋅− GXxGX
ЦЕНТРЦЕНТР
, считаются промахами и
подлежат исключению из выборки.
Интуитивно понятно, что коэффициент цензурирования
должен зависеть от объема выборки и рассчитанного по
выборке значения эксцесса. Действительно, такое отклонение от
центра, которое является промахом для средневершинного (а
тем более плосковершинного) распределения, для
островершинного распределения с его длинными "тяжелыми"
спадами может безусловно принадлежать выборке.
Эмпирическая формула для коэффициента цензурирования
как функции от объема выборки N и эксцесса
ε
, пригодная к
применению для широкого класса распределений следующая:
1)10/lg(8.055.1 −⋅⋅+=
ε
NG .
Теперь все готово для написания алгоритма удаления
промахов из выборки:
1) Вычислить величину Х
ЦЕНТР
,
2) Вычислить оценку среднеквадратичного отклонения
σ
, при
этом в качестве центра распределения использовать Х
ЦЕНТР
,
3) Вычислить оценку эксцесса
ε
, при этом в качестве центра
распределения использовать Х
ЦЕНТР
,
4) Вычислить коэффициент цензурирования G,
5) Исключить из выборки значения, лежащие за пределами
интервала
σσ
⋅+≤≤⋅− GXxGX
ЦЕНТРЦЕНТР
После удаления промахов нужно пересчитать параметры
распределения. При этом в качестве центра распределения уже
можно использовать среднее арифметическое
, как состоя-
тельную и несмещенную оценку математического ожидания.