где обозначено
A
2
= kX −
b
Xk
2
, B = (X −
b
X, ∆
0
), C
2
= k∆
0
k
2
.
Очевидно, что при λ = 0 достигается минимум левой части, причем минимум по
направлению совпадает с минимумом по всему пространству L. Следовательно, ми-
нимум правой части, где стоит квадратный трехчлен, также должен достигаться при
λ = 0, т. е. B = 0. Это значит, что
(X −
b
X, ∆) = 0 для любого ∆ ∈ L.
Обратно, пусть для некоторого
b
X ∈ L имеет место
(X −
b
X, Y ) = 0 для любого Y ∈ L.
Тогда
kX − Y k
2
= k(X −
b
X) − (Y −
b
X)k
2
=
= kX −
b
Xk
2
− 2(X −
b
X, Y −
b
X) + kY −
b
Xk
2
= kX −
b
Xk
2
+ kY −
b
Xk
2
≥ kX −
b
Xk
2
,
и минимум достигается при Y =
b
X. Теорема доказана.
Отметим, что наилучшее приближение единственно. Действительно, если
b
X
1
∈ L
и
b
X
2
∈ L таковы, что
(X −
b
X
1
, Y ) = 0, (X −
b
X
2
, Y ) = 0 для любого Y ∈ L,
то, в частности, (X −
b
X
1
,
b
X
2
−
b
X
1
) = 0 и (X −
b
X
2
,
b
X
2
−
b
X
1
) = 0. Вычитая одно
равенство из другого, получим k
b
X
2
−
b
X
1
k = 0, т. е.
b
X
2
=
b
X
1
почти наверное.
Рассмотрим далее задачу прогноза.
Предположим, что n раз проводились независимые эксперименты, в результате
которых получены случайные величины Y
1
, Y
2
, . . . , Y
n
. Нам предстоит провести сле-
дующий по счету эксперимент и получить в результате него случайную величину X.
Можем ли мы с некоторой точностью спрогнозировать значение X, если совместное
распределение вектора (X, Y
1
, Y
2
, . . . , Y
n
) нам известно?
Будем предполагать, что распределение этого вектора дискретно или абсолютно
непрерывно и все его компоненты обладают конечными вторыми моментами, т. е.
принадлежат H. Обозначим Y = (Y
1
, Y
2
, . . . , Y
n
). Рассмотрим подпространство
L ⊂ H всех случайных величин вида g(Y ), где g может быть произвольной борелев-
ской функцией такой, что Eg
2
(Y ) < ∞. Мы будем приближать X функциями от уже
имеющихся случайных величин, т. е. элементами из L.
Теорема. Наилучшим приближением для X является
b
X = E(X/Y ).
Доказательство. Покажем сначала, что E
b
X
2
< ∞. То, что
b
X есть функция от
Y , не вызывает сомнений. Имеем [E(X/v)]
2
≤ E(X
2
/v), так как дисперсия условного
распределения неотрицательна. Отсюда следует неравенство для случайных величин
b
X
2
≤ E(X
2
/Y ) и для математических ожиданий этих величин:
E
b
X
2
≤ E[E(X
2
/Y )] = EX
2
< ∞.
Проверим далее условие ортогональности E[(X −
b
X)g(Y )] = 0 для любой случай-
ной величины g(Y ) ∈ L. Имеем
E[Xg(Y )] = E[E(Xg(Y )/Y ] = E[g(Y )E(X/Y )] = E(
b
Xg(Y )).
Теорема доказана.
71