Можно выделить две основные причины для развития методов
многомерного анализа:
1) необходимость классификации в различных областях знаний;
2) развитие вычислительной техники.
Методы кластерного анализа позволяют решать следующие задачи:
• проведение классификации объектов с учетом признаков, отражающих
сущность, природу объектов. Решение такой задачи, как правило, приводит к
углублению знаний о совокупности классифицируемых объектов;
• проверка выдвигаемых предположений о наличии некоторой структуры в
изучаемой совокупности объектов, т.е. поиск существующей структуры;
• построение новых классификаций для слабоизученных явлений, когда
необходимо установить наличие связей внутри совокупности и попытаться
привнести в нее структуру.
Методы кластерного анализа можно разделить на две группы:
1) агломоративные (объединяющие) – последовательно объединяют
отдельные объекты в группу (кластеры).
2) дивизимные методы (разделяющие) – расчленяют группу на
отдельные объекты.
В свою очередь каждый метод может быть реализован при помощи
различных алгоритмов. Кроме того, в кластерном анализе существуют
методы, которые трудно отнести к первой или второй группе, например,
итеративные методы.
В частности метод k-средних и метод поиска сгущений. Их
особенность состоит в том, что кластеры формируются исходя из заданных
условий разбиения (параметров), которые в процессе работы алгоритма
могут быть изменены пользователем для достижения желаемого качества
разбиения.
Итеративные методы относятся к быстродействующим, что позволяет
использовать их для обработки больших массивов исходной информации.
В отличии от агломоративных и дивимных методов итеративные
алгоритмы могут привести к образованию пересекающихся кластеров, когда
один и тот же объект может одновременно принадлежать нескольким
кластерам.
Для удобства записи формализованных алгоритмов кластерного
анализа введем следующие условные обозначения:
Х
1
, Х
2
, ..., Х
n
— совокупность объектов наблюдения;
Х
i
=(X
i1
,X
i2,
… X
im
) — i-е многомерное наблюдение в т-мерном
пространстве признаков (i = 1, 2, ..., п);
dij — расстояние между i-м и j-м объектами;
zij — нормированные значения исходных переменных;
D — матрица расстояний между объектами.
Т4 2. Меры сходства в кластерном анализе