30
обучающей выборки в базе данных в соответствие с определенными пра-
вилами, заданными процедурой решения конкретной прикладной задачи. В ча-
стности, различаются функции погружения при решении задач анализа и про-
гноза. При решении задач прогнозирования выделяются варианты погружения
данных в режимах "без пересечения", "с пересечением", "по одному ряду", "по
совокупности временных рядов"( см. гл.3).
Предварительная очистка и первичная статистическая обработка исход-
ных данных при нейросетевом моделировании включает также этап исключения
аномальных наблюдений. Для этих целей можно применить алгоритмы содер-
жащиеся в работах [17,98], а также алгоритмы «ремонта» данных [184]
Следующим этапом предобработки данных следует считать провер-
ку однородности данных [17]. Исследования показывают, что часто весь ис-
ходный статистический материал, как правило, разбивается на ряд групп, объе-
диненных каким – либо общим признаком. Применение нейросетевой аппрок-
симации по таким данным часто бывает затруднено, сеть учится с перебоями,
так как алгоритмы оптимизации работают не устойчиво. В связи с этим встает
вопрос о сравнении различных групп исходных данных для определения их од-
нородности и установления принадлежности различных выборок единой гене-
ральной совокупности.
Часто при эксплуатации реальных информационных систем неизвест-
на связь обучающей выборки с генеральной совокупностью. Неизвестна связь
выборки с теми или иными законами распределения, корреляционными и рег-
рессионными зависимостями. Поэтому, для проверки однородности выборки
необходимо, прежде всего, обратиться к известной из литературы по распозна-
ванию образов гипотезе компактности [62]. Она утверждает, что реализации
одного и того же образа обычно отображаются в признаковом пространстве в
геометрически близкие точки, образуя «компактные сгустки» . При исследова-
нии компактности (в том числе определения однородности выборки) можно в
качестве предобработки использовать различные меры компактности: среднее
расстояние от центра тяжести до всех точек образа, средней длиной ребра пол-
ного графа или ребра кратчайшего незамкнутого пути, соединяющего точки
одного образа, максимальным расстоянием между двумя точками образа и
т.д.[62]. Кроме того, эффективными являются следующие меры близости объ-
ектов – квадрат евклидова расстояния между векторами значений и признаков,
квадрат расстояния Махаланобиса, квадрат коэффициента корреляции [17]. Для
проверки однородности данных можно применять методы классификации дан-
ных «без учителя»[41]. Наиболее эффективными являются методы динамиче-
ских ядер и нейросетевой метод адаптивной кластеризации данных, основан-
ный на картах Кохонена[41,44,207,233,234].
Важным этапом предобработки является также процедура заполнения
пропусков в данных. Распространенными приемами анализа данных с пропус-
ками являются исключение некомплектных наблюдений (содержащих пропус-
ки хотя бы в одной из переменных) и традиционные методы заполнения про-