¿Õ¿À»« ›‘‘≈“»¬ÕŒ—“» »Õ¬≈—“»÷»…
17
мерная статистическая процедура, упорядочиваю-
щая исходные данные (объекты) в сравнительно од-
нородные группы. Общим для всех исследований,
использующих КА, являются пять основных шагов:
отбор выборки для кластеризации;
• определение множества признаков, по кото-
рым будут оцениваться объекты в выборке;
• вычисление значений той или иной меры
сходства между объектами;
• применение метода КА для создания групп
исходных данных;
• проверка достоверности результатов кла-
стерного решения.
Каждый из перечисленных шагов играет суще-
ственную роль при использовании кластерного ана-
лиза в прикладном анализе данных. При этом 1, 2 и 5
шаги целиком зависят от решаемой задачи и должны
определяться пользователем. Шаги 3 и 4 выполняют-
ся программой кластерного анализа.
Сделаем несколько замечаний общего харак-
тера.
Многие методы КА - довольно простые проце-
дуры, которые не имеют, как правило, строгого ста-
тистического обоснования. Другими словами, боль-
шинство методов КА являются эвристическими. Это
позволяет повысить понимание метода и, таким об-
разом, свести к минимуму вероятность допустить
ошибку при трактовке результатов КА.
Разные кластерные методы могут порождать
различные решения для одних и тех же данных. Это
обычное явление в большинстве прикладных иссле-
дований. По-видимому, окончательным критерием
является удовлетворенность исследователя резуль-
татами КА.
Разработанные кластерные методы образуют
семь основных семейств:
• иерархические агломеративные методы;
• иерархические дивизимные методы;
• итеративные методы группировки;
• методы поиска модальных значений плотно-
сти;
• факторные методы;
• методы сгущений;
• методы, использующие теорию графов.
По данным некоторых исследований, прибли-
зительно 2/3 приложений КА используют иерархиче-
ские агломеративные методы. Рассмотрим его сущ-
ность на примере наиболее простого метода одиноч-
ной связи.
Процесс кластеризации начинается с поиска
двух самых близких объектов в матрице расстояний.
На последующих шагах к этой группе присоединяется
объект, наиболее близкий к одному из уже находя-
щихся в группе. По окончании кластеризации все
объекты объединены в один кластер. Отметим не-
сколько важных особенностей иерархических агло-
меративных методов. Во-первых, все эти методы
просматривают матрицу расстояний размерностью
N*N (где N - число объектов) и последовательно объ-
единяют наиболее схожие объекты. Именно поэтому
они называются агломеративными (объединяющи-
ми). Во-вторых, последовательность объединения
кластеров можно представить визуально в виде дре-
вовидной диаграммы, часто называемой дендро-
граммой. Наконец, для понимания этого класса ме-
тодов не нужны обширные знания матричной алгеб-
ры или математической статистики. Вместо этого
дается правило объединения объектов в кластеры.
Для “ОЛИМП:СтатЭксперт” разработана про-
грамма кластерного анализа, основанная на иерар-
хической агломеративной процедуре и позволяющая
пользователю управлять процессом кластеризации.
Коротко поясним сущность предлагаемого метода.
Сначала ищутся два наиболее близких объекта
(предположим, A и B). Предположим, что расстояние
между объектами A и B равно R. В один кластер объ-
единяются объекты, расстояние между которыми
меньше, чем (10-C)*R, где C - четкость классифика-
ции, параметр управления процессом, принимающий
значения от 1 до 10, который может меняться поль-
зователем. При С=10 на каждом шаге объединяются
только два самых близких элемента, т.е. имеет место
иерархическая агломеративная процедура в чистом
виде. Однако, как показывает практика использова-
ния КА, пользователю важнее выделить в простран-
стве группы объектов с разной плотностью. В этом
случае величину С необходимо уменьшать. Мини-
мальное расстояние R пересчитывается на каждом
шаге кластерного анализа.
Объединение. На каждом шаге кластерного
анализа происходит объединение объектов, т.е. из
нескольких объектов образуется один кластер. Про-
цедура кластеризации заканчивается тогда, когда
все первичные объекты исчерпаны. Допустим, на k-м
шаге объединяются n объектов. Из этих объектов
образуется один кластер как центр тяжести этих объ-
ектов (среднее арифметическое по каждой коорди-
нате).
Размерность задачи уменьшается на величину
n-1 (n объектов удаляются, один добавляется). Далее
производится пересчет матрицы расстояний.
В программе реализован кластерный анализ
наблюдений, т.е. в результате вычислительной про-
цедуры каждое наблюдение относится к той или иной
группе. Кластеризация проводится на основе одной
из двух метрик:
Евклидово расстояние:
R x y
i i
i
k
== −−
∑∑
==
( )
2
1
Корреляционное расстояние: R r
xy
== −−1 ,
где x x x x
k
=={ , ,..., }
1 2
и y y y y
k
=={ , ,..., }
1 2
-
две точки;
r
xy
- парный коэффициент корреляции между
x и y.
Графическая интерпретация
Для графической интерпретации результатов
кластерного анализа приводится график расположе-
ния исходных объектов в пространстве первых двух
главных компонент. При этом объекты, попавшие в
один кластер, отображаются одним цветом.
Примечание. Иногда объекты из разных кла-
стеров расположены столь близко, что может соз-
даться иллюзия о неправильной классификации. Это