Есть еще более серьезный принципиальный недостаток статистических
пакетов, ограничивающий их применение в Data Mining. Большинство
методов, входящих в состав пакетов, опираются на статистическую
парадигму, которая базируется на усредненных характеристиках выборки. А
эти характеристики, при исследовании реальных сложных феноменов часто
являются фиктивными величинами.
В качестве примеров наиболее мощных и распространенных
статистических пакетов можно назвать SAS (компания SAS Institute), SPSS
(SPSS), STATGRAPICS (Manugistics), STATISTICA, STADIA и др.
Нейронные сети
Нейронные сети — это класс моделей, основанных на биологической
аналогии с мозгом человека и предназначенных после прохождения этапа так
называемого обучения на имеющихся данных для решения разнообразных
задач анализа данных. При применении этих методов прежде всего встает
вопрос выбора конкретной архитектуры сети (числа «слоев» и количества
«нейронов» в каждом из них). Размер и структура сети должны
соответствовать (например, в смысле формальной вычислительной
сложности) существу исследуемого явления. Поскольку на начальном этапе
анализа природа явления обычно известна плохо, выбор архитектуры
является непростой задачей и часто связан с длительным процессом «проб и
ошибок» (однако в последнее время стали появляться нейронно-сетевые
программы, в которых для решения трудоемкой задачи поиска наилучшей
архитектуры сети применяются методы искусственного интеллекта).
В одной из наиболее распространенных архитектур, многослойном
перцептроне с обратным распространением ошибки, имитируется работа
нейронов в составе иерархической сети, где каждый нейрон более высокого
уровня соединен своими входами с выходами нейронов нижележащего слоя.
На нейроны самого нижнего слоя подаются значения входных параметров, на
основе которых нужно принимать какие-то решения, прогнозировать
развитие ситуации и т. д. Эти значения рассматриваются как сигналы,
передающиеся в следующий слой, ослабляясь или усиливаясь в зависимости
от числовых значений (весов), приписываемых межнейронным связям.
Построенная сеть подвергается процессу так называемого обучения. На
этом этапе нейроны сети итеративно обрабатывают входные данные и
корректируют свои веса так, чтобы сеть наилучшим образом прогнозировала
(в традиционных терминах следовало бы сказать «осуществляла подгонку»)
данные, на которых выполняется «обучение». После обучения на имеющихся
данных сеть готова к работе и может использоваться для построения
прогнозов.
Нейронная сеть, полученная в результате «обучения», выражает
закономерности, присутствующие в данных. При таком подходе она
оказывается функциональным эквивалентом некоторой модели зависимостей
между переменными, подобной тем, которые строятся в традиционном
моделировании. Однако, в отличие от традиционных моделей, в случае