31
пусков средневыборочными по присутствующим значениям с помощью рег-
рессии и главных компонент [102]. Эти методы в общем случае имеют малую
эффективность, ведут, как правило, к несмещенности и несостоятельности, к
нарушению уровней значимости критериев и другим искажениям статистиче-
ских выводов, не обладают устойчивостью к распределению пропусков. Наибо-
лее популярным в настоящее время за рубежом является EM –алгортм [98] . В
нашей стране известны работы в области заполнения пропусков в данных, в
том числе, наиболее эффективными являются алгоритмы ZET, адаптивный ге-
нетический алгоритм LGAP [60].
Для проводимых исследований за основу взята работа[184]. Авторами
этой работы создан программный комплекс «Линейный и нелинейный фактор-
ный анализ». Он предназначен для восстановления пропущенных (ремонт из-
вестных) данных в таблицах путем моделирования исходных данных многооб-
разиями малой размерности и последующего замещения пропущенных данных
значениями из модели. Метод интерпретируется как построение конвейера
нейронов для обработки данных с пробелами. Другая возможная интерпретация
- итерационный метод главных компонент и нелинейный факторный анализ для
данных с пробелами.
Следующим элементом предобработчика является оценка выборки и, при
необходимости, фильтрация данных. Данные методы обсуждались в третьей
главе работы. В зависимости от характера обучающей выборки возможно ис-
пользование различных методов фильтрации данных. Для выбора методов не-
обходимо произвести предварительную оценку данных. Для этого можно ис-
пользовать оценку дисперсии, эвристические методы. В зависимости от резуль-
татов анализа при помощи экспертной системы (продукционной, основанной на
теории прецедентов и др.) определяется тот или иной метод фильтрации дан-
ных: простые скользящие средние, взвешенные скользящие средние, экспонен-
циальное скользящее среднее, фурье, вейвлет –анализ и т.д [57,102,222].
Заключительным этапом предобработки является нормировка данных.
При этом осуществляется преобразование входных сигналов таким образом,
чтобы обеспечить эффективную работу нейронной сети. Для количественных
признаков стандартными процедурами предобработки являются нормировка и
центрирование, которые обеспечивают универсальность нейронной сети при
работе с произвольными данными и позволяют сохранять параметры сети в оп-
тимальном для функционирования диапазоне. Существует несколько стандарт-
ных методов нормировки [41], использующих оценки математического ожида-
ния и дисперсии, основанные на текущей выборке, но оценки статистических
параметров могут меняться от выборки к выборке, что создаст трудности при
обработке новых данных, которые могут менять статистические параметры вы-
борки. Более удобной в нашем случае является формула [41, 110]:
( )
min
minmax
minmaxmin
b
xx
bbxx
x +
−
=
−
,
4.3)