
Глава 6. Идентификация закона распределения по выборке случайной ве-
личины
С.В. Булашев. Статистика для трейдеров (электронная версия).
80
группировки), каждый из которых имеет ширину d. После
нормирования гистограмма представляет собой эмпирическую
плотность распределения случайной величины.
Из качественных соображений следует, что должно
существовать оптимальное число интервалов группировки.
Действительно, при большом количестве столбцов и
поэтому малой ширине столбца, из-за случайности выборки
гистограмма будет заполнена очень неравномерно, иметь сильно
изрезанный вид, состоять из большого количества всплесков и
провалов.
При другой крайности, то есть очень малом числе столбцов
большой ширины, гистограмма будет излишне сглаживать
распределение, уничтожать его характерные особенности.
Например, если выбрать только один интервал группировки с
шириной, равной размаху выборки, то любое распределение
сведется к прямоугольному. Два столбца выбирать нельзя, так
как любое симметричное распределение, как и в предыдущем
случае, сведется к прямоугольному. Три столбца также дают
мало информации о форме распределения.
Эти сугубо качественные рассуждения показывают, что
должно существовать некоторое оптимальное количество
интервалов группировки.
Если исходить из предположения, что генеральная
совокупность, из которой получена данная конкретная выборка,
имеет гладкую кривую плотности вероятности (это справедливо
в большинстве случаев), то неравномерности гистограммы
являются случайным шумом, обусловленным случайностью
выборки. Увеличение ширины столбца и уменьшение
количества столбцов фильтруют этот шум. Однако, дальнейшее
увеличение ширины столбца начинает сглаживать уже само
распределение.
Следовательно, определение оптимального числа
интервалов группировки при построении гистограммы является
задачей оптимальной фильтрации. При этом оптимальное
количество столбцов гистограммы - это такое количество,
при котором максимально возможное сглаживание случайного
шума сочетается с минимальным искажением от
сглаживания самого распределения.