Теперь мы можем записать выражение (4.7.2) в раскрытом виде:
w y
ij
n
j
n
i
n( ) ( ) ( )
1
(4.7.9)
Иногда для придания процессу коррекции весов некоторой инерционности,
сглаживающей резкие скачки при перемещении по поверхности целевой функции,
(6.7.9) дополняется значением изменения веса на предыдущей итерации
w t w t y
ij
n
ij
n
j
n
i
n( ) ( ) ( ) ( )
( ) ( ( ) ( ) )
1 1
1
(4.7.10)
где
– коэффициент инерционности, t – номер текущей итерации.
Алгоритмы сопряженных градиентов представляют собой подкласс квадратично
сходящихся методов. Они могут обучать сеть пока ее веса, входы и функции активации
имеют производные. Алгоритмы сопряженных градиентов используют градиентный
метод первого порядка для вычисления производных целевой функции относительно
весов и порогов сети [ 15 ].
Для простоты обозначим текущий градиент
.
Для алгоритмов сопряженных градиентов шаг 6 обобщенного градиентного
алгоритма имеет вид:
s(w
k
)=-g
k
+
k
s(w
k-1
)
.
(4.7.11)
В большинстве алгоритмов сопряженных градиентов размер шага корректируется
при каждой итерации, в отличие от других алгоритмов, где обучающаяся скорость
используется для определения размера шага.
Различные версии алгоритмов сопряженных градиентов отличаются способом, по
которому вычисляется константа β.
Для алгоритма Флетчера-Ривса правило вычисление константы β имеет вид:
, (4.7.12)
где β - отношение квадрата нормы текущего градиента к квадрату нормы
предыдущего градиента [13].
В обобщенном градиентном алгоритме отсутствует процедура возврата к начальной
итерации для метода Флетчера-Ривса, но вместе с тем тесты, включенные в алгоритм,
обеспечивают обнаружение любых трудностей, ассоциированных с необходимостью
возврата при расчетах по методу сопряженных градиентов [13].
Для алгоритма Полака-Рибьера правило вычисление константы β имеет вид:
, (4.7.13)
где β - внутреннее произведение предыдущего изменения в градиенте и текущего
градиента, деленное на квадрат нормы предыдущего градиента [13].
Для обучения нейронных сетей использовалась одна из разновидностей алгоритма
обратного распространения ошибки - метод Левенберга - Маркварта. Этот метод
относится к методам Ньютона, которые являются примером способа быстрой
оптимизации обучения. Основным выражением методов Ньютона является выражение
для шага: