276
Глава 9. Искусственные нейронные сети
которые описываются прямой линией (мы изучали именно линейный
регрессионный анализ). Нелинейные по своей природе нейронные
сети гораздо лучше справляются с задачами аппроксимации нелиней-
ных зависимостей, которые в политической реальности встречаются в
изобилии.
Все искусственные нейронные сети являются мощным инстру-
ментом обнаружения скрытых связей. В таком качестве они могут ис-
пользоваться не только для построения прогностической функции —
поиска конкретной меры влияния независимых переменных на зави-
симую, — но и для отбора адекватных независимых переменных. Та-
кая задача актуальна для разного рода поисковых исследований, ког-
да имеют довольно смутное представление о тех факторах, которые
реально влияют на интересующую нас переменную. Нейронная сеть
может работать с большим множеством переменных, она способна
выделить из общей массы факторов действительно значимые.
В качестве примера приведем реальный случай нейросетевого мо-
делирования в области политической науки
1
. Была поставлена задача
отобрать из большого числа независимых переменных ограниченный
набор факторов, оказывающих наибольшее влияние на исход прези-
дентских выборов в США. В результате было получено всего пять зна-
чимых факторов:
1) уровень конкуренции при выдвижении от правящей партии;
2) наличие существенных социальных волнений во время правле-
ния действующего президента;
3) спад или депрессия в год выборов;
4) значительность изменений, совершенных действующим прези-
дентом в политике;
5) активность третьей партии в год выборов.
В то же время решение задачи отбора действительно значимых не-
зависимых переменных из большого числа потенциально значимых
(в какой-то мере она близка задаче редукции данных в факторном
анализе) имеет определенные ограничения. Как уже знаем, качество
работы сети напрямую зависит от объема обучающей выборки. Объем
же обучающей выборки напрямую зависит от числа переменных на
«входе» сети. Искушение «запихнуть» в нейронную сеть все мысли-
мые и немыслимые факторы может быть очень велико, но для полу-
чения приемлемого результата понадобятся многие тысячи обучаю-
щих примеров.
'См.:
Горбань,
А. Н.
Нейроинформатика
и ее
приложения//Открытые
системы.
1998. №4.
9.3. Задачи, решаемые ИНС
277
Объем обучающей выборки зависит не только от числа перемен-
ных, но и от уровня их измерения. Как и большинство методов, ней-
ронные сети наиболее успешно работают с интервальными данными.
Самый сложный случай — номинальные переменные, которые могут
принимать много разных значений. Например, имеется номинальная
переменная «электоральные предпочтения россиян на парламентских
выборах 2003 г.», приобретающая 24 разных значения в соответствии
с количеством строк бюллетеня: «Единая Россия», КПРФ, ЛДПР и
т.д. В принципе, мы можем присвоить каждому значению числовой
код (например: «Единая Россия» — 1, КПРФ — 2, ЛДПР — 3 и т.д.),
однако при работе с нейронной сетью существует риск возникнове-
ния ложного упорядочения, т.е. КПРФ окажется где-то между «Еди-
ной Россией» и ЛДПР.
Более правильный способ заключается в кодировании 1-из-N, ког-
да одна номинальная переменная представляется несколькими чис-
ловыми переменными. Количество числовых переменных для каждой
номинальной переменной равно количеству всех значений номи-
нальной переменной (N). При этом в каждом случае только одна из N
переменных принимает ненулевое значение. В реальности кодирова-
ние переменных для случая с политическими партиями в бюллетене
из 24 позиций будет иметь следующий вид:
«Единая Россия» = (1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)
КПРФ = (0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)
ЛДПР = (0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)
И т.д. (всего 24 переменных)
Очевидно, что такой подход приведет к катастрофическому увели-
чению размерности данных и, значит, — к катастрофическому увели-
чению объема обучающей выборки. В этой ситуации следует подумать
об ином способе представления данных, не предполагающем столь
громоздкого кодирования. Например, выделить всего три значения
переменной «электоральные предпочтения россиян на парламент-
ских выборах 2003 г.»: «партия власти и лояльные» (1,0,0); «левые»
(0,1,0); «правые» (0,0,1)
1
.
1
Разумеется, мы не считаем приведенную трехкатегориальную схему оптимальной —
это просто учебный пример.