ГЛАВА 4. ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ
Рассмотрим некоторый управляемый экономический процесс.
В результате управления система переводится из начального со-
стояния S
o
в конечное S
n
. При этом управление проходит в n шагов, и
решение принимается последовательно на каждом шаге, то есть
управление представляет собой n пошаговых управлений.
На каждом шаге необходимо определить два типа переменных:
– переменную состояния системы S
k
;
– переменную управления x
k
(управляющее воздействие).
Переменная состояния S
k
определяет, в каких состояниях может
оказаться система на k-ом шаге. В зависимости от состояния системы
на этом шаге можно принять некоторое управление, характеризую-
щееся переменной управления x
k
, такое управление должно удовле-
творять определѐнным условиям и называется допустимым.
Применение управляющего воздействия x
k
на k-ом шаге приво-
дит систему в новое состояние и даѐт некоторый результат W
k
(S, x
k
).
При этом из всех возможных управлений на рассматриваемом шаге
выбирают оптимальное, то есть такое, для которого выполняется
принцип Беллмана (результат управления с k-ого по n-ый шаг должен
быть оптимальным). Числовая характеристика такого результата на-
зывается функцией Беллмана F
k
(S) и зависит от номера шага k и от
состояния системы S.
Таким образом, необходимо определить оптимальную стратегию
управления
, переводящую систему из начального со-
стояния S
o
в конечное состояние S
n
, при которой целевая функция
(функция Беллмана) принимает наибольшее (наименьшее) значение,
то есть F(S
o
, X) max ( min ).
Оптимальную стратегию управления можно получить, если найти
сначала оптимальную стратегию управления на n-ом шаге, затем на
двух последних шагах, затем на трѐх последних шагах и так далее,
вплоть до первого шага.
Для того, чтобы найти оптимальное решение на последнем, n-ом
шаге, нужно сделать все возможные предположения о том, как мог
завершиться последний шаг, и с учѐтом этого выбрать управление x
n
,
обеспечивающее оптимальное значение функции результата W
n
(S, x
n
).
При этом говорят, что оптимальное управление
на последнем шаге
определяется функцией Беллмана:
или
.