
42
действие объекта продолжается. Значит, подкрепляющее обучение ОА (20) заключается в
том, что вероятность
()
sp
′
при индикаторной функции вида: с одной стороны,
„награждение-штраф“ в случае нештрафа (y
= 0) увеличивается, а наоборот, уменьшается
в случае штрафа (y
= 1), и с другой, „награждение-бездеятельность“
()
sp
′
увеличи-
вается при y
= 0, а остается неизменной при y
= 1. Исчерпывающую классификацию
индикаторных функций можно найти в
[35].
Модель объекта управления с подкрепляющим обучением имеет, таким образом,
двойственный (дуальный) характер: с одной стороны, машинное управление x изменяет
состояние объекта для достижения оптимальной траектории состояний в объекте, а с
другой, несовершенный учитель возмущает поощрениями y ученика, чтобы получить
вероятность p (s) состояния s, затрагивая структуру ученика.
Моделью индикатора
качества является упорядоченная тройка
И =
〈 S × [0, 1] ,
+
0
R , u 〉 , (21)
где функция полезности имеет форму
]
)
ua ,:1,0:
0
spsS
+
→× Ru .
Обозначим через s
опт
состояния оптимальной траектории в (2)/(3); тогда
)
)
}
sss
Ss
оптопт
u u max arg arg
∈
= .
Для того, чтобы определить
опт
s , воспользуемся OA (20) с переменной структурой. Значит,
требуется найти s
опт
, для которого
)()
}
sss
Ss
оптопт
u u max arg arg
∈
. Пусть OА (20)
находится в состоянии s; выход И (21) пусть будет u =
u (s). Учитель должен состояние s по
()
s u=u оценить следующим образом [34]: если
)
)
}
ss
Ss
u u max
∈
, то y = 0; иначе y = 1.
Для того, чтобы учитель смог оценить значение
u (s), должен априорно располагать
ожидаемым значением
()
)
sps
ˆ
uuu == u [34]. Но учитель, не располагая априорными
данными о случайных неявных возмущениях, не в состоянии определить
){}
s
Ss
u max
∈
при
известных полезностях состоянческих переходов в (2)/(3). Однако учитель располагает
локальными наблюдениями оценок u
ˆ
в предшествующие моменты времени
kH
uuu
1
ˆ
..., ,
ˆ
,
ˆ
,
вырабатываемых по полезностям состоянческих переходов в (2)/(3)
()
sp
ˆ
=u
)()
sxs , ,
u .
Очевидно, что сначала будет мотивировка, создаваемая учителем, очень неточной. С
возрастающим количеством выполнений, собственной траектории становятся оценки u
ˆ
все
точнее, т.е. будет падать количество некорректно присвоенных нештрафов и штрафов;
отсюда название учителя несовершенным.
Несовершенный учитель моделируется упорядоченной тройкой
Н =
〈
+
0
R , Y , C 〉 ,
где
{}
]
()
ii
sypsSC 1 :1,0 ..., ,2 ,1 : =→ a . Так как u (s) не известна, ограничившись
стационарной P – моделью объекта
[34], т.е., ограничившись постоянными вероятностями
()()
Sisyp
i
,...,2,1 1 == , пишут для поощрения [36]