множини. Ця властивість наближає подібні НМ до умов
реального життя.
Розглянута НМ має кілька "вузьких місць". По-перше, у
процесі навчання може виникнути ситуація, коли великі
позитивні або негативні значення вагових коефіцієнтів
змістять робочу точку на сигмоїдах багатьох нейронів в
область насичення. Малі величини похідної від логістичної
функції приведуть у відповідність
із (12.19) і (12.20) до
припинення навчання, що паралізує НМ. По-друге,
застосування методу градієнтного спуску не гарантує, що буде
знайдено глобальний, а не локальний мінімум цільової
функції. Ця проблема зв'язана ще з однію, як-от - із вибором
величини швидкості навчання. Доказ збіжності навчання в
процесі зворотного поширення засновано на похідних,
тобто
зміна вагових коефіцієнтів і, отже, швидкість навчання
повинні бути досить малими, однак у цьому випадку навчання
буде відбуватися неприйнятно повільно. З іншого боку,
занадто великі корекції вагових коефіцієнтів можуть привести
до нестійкості процесу навчання. Тому
звичайно
вибирається менше 1, але не дуже маленьке, наприклад, 0.1, і
воно може поступово зменшуватися в процесі навчання. Крім
того, для виключення випадкових влучень у локальні
мінімуми іноді, після того як значення вагових коефіцієнтів
застабілізуються,
короткочасно сильно збільшують, щоб
почати градієнтний спуск із нової точки. Якщо повторення цієї
процедури кілька разів приведе алгоритм у той самий стан
НМ, можна більш-менш упевнено сказати, що знайдений
глобальний максимум, а не якийсь іншій.
Серед різних конфігурацій штучних нейронних мереж
зустрічаються такі, при класифікації яких за принципом
навчання,
строго кажучи, не підходять ні навчання з учителем
, ні навчання без учителя . У таких мережах вагові коефіцієнти
синапсів розраховуються перед початком функціонування
мережі на основі попередньої інформації, і все навчання
мережі зводиться саме до цього розрахунку. З одного боку,
пред'явлення апріорної інформації можна розцінювати, як
316