Дж. С. Дэвис. Статистический анализ данных в геологии. Книга 2
Рис. 6.12. Диаграмма, которая показывает, как
объекты, характеризуемые двумя переменны-
ми Х и Y, входят в группу. Объекты A, В, С и D
образуют группу. Объект Е присоединен к этой
группе, а объект F является кандидатом на при-
соединение на следующем шаге итерационного
процесса. М
1
– центроид объектов от А до Е. M
2
–
среднее объекта E и последнего среднего объек-
тов от A до D
Мы можем проиллюстрировать эффект четырех различных стратегий установления связей,
рассматривая очень простую задачу кластеризации, в которой на каждом объекте измерены только
две переменные. Тогда все соотношения между объектами могут быть изображены на плоскости,
как это представлено на рис. 6.12. Расстояния между объектами на диаграмме попросту пропорцио-
нальны мере расхождения между ними. Четыре объекта, от А до D, образуют связанный пучок.
Пунктирные линии указывают порядок, в котором эти четыре объекта были соединены вместе. Не-
сколько менее сходный объект Е также был присоединен к этому пучку. Шестой объект, обозначен-
ный F, теперь рассматривается в качестве кандидата на возможное включение в расширенный пу-
чок. Точка M
1
является центроидом точек от А до Е, а М
2
– средняя для объекта F и среднего пре-
дыдущего пучка.
Используя единственный критерий связывания, объект F присоединяют к этому пучку, если
расстояние CF меньше, чем расстояние до любого другого объекта в любом другом пучке. При не-
взвешенном усреднении или центроидной связи объект F будет присоединен к пучку, если расстоя-
ние M
1
F меньше расстояния до центроида в любой другой группе. Во взвешенной парагрупповой
или усредненной процедуре связывания объект будет присоединен, если расстояние M
2
F меньше,
чем расстояние до среднего в любом другом пучке. (Заметим, что точка находится посередине меж-
ду средним пучка ABCD и объектом Е, который участвовал в первом цикле.) Наконец, при полном
связывании объект F присоединяется к пучку, если расстояние EF меньше, чем расстояние до
большинства точек в любом другом пучке.
Столкнувшись с таким множеством методов, каждый из которых дает несколько отличаю-
щийся от других результат, исследователь вправе спросить о том, какой из них лучше. К сожале-
нию, на этот важный вопрос нет четкого ответа. Опыт показывает, что методы взвешенного группо-
вого объединения обычно дают результаты лучше, чем любой из методов простого объединения или
невзвешенного усреднения. Относительное превосходство первых определяется тенденцией к полу-
чению наибольшего значения кофенетического коэффициента корргля-ции, который трактуется как
индикатор малых изменений в дендрограмме. Значения кофенетических коэффициентов корреля-
ции, меньшие 0,8, могут указывать на столь сильные изменения в дендрограмме для слабых связей,
что она оказывается ошибочной. В анализе групп матрицы расстояний обычно используются с
большим успехом, чем матрицы коэффициентов корреляции, так как дают более высокую кофене-
тическую корреляцию. По-видимому, матрицы расстояний также менее чувствительны к замене ме-
тода при анализе групп. Однако недостаток состоит в том, что они ограничивают использование ка-
ких-либо статистических методов. (Для других методов анализа групп имеются некоторые теорети-
ческие обоснования; см., например, [59].) Большинство исследователей, использующих методы ана-
лиза групп, применяют различные меры сходства и процедуры построения групп, а затем выбирают
те из них, которые дают наиболее удовлетворительные результаты для их данных. Тщательный
предварительный анализ может определить выбор процедуры кластеризации. Большинство иерар-
хических методов, если число объектов велико, нуждается в вычислении и обработке очень боль-
ших матриц. (В экологии и археологии исследование тысяч, объектов является обычным делом.)
Процедуры кластеризации, использующие ограниченное число произвольных центров групп, обыч-
но сопровождаются приемами устранения этой вычислительной помехи. Вероятно, что наиболее
широко применяемый метод – это процедура k-средних МакКвина [50]. Здесь k точек, характери-
зуемых m переменными, объявляются (либо пользователем, либо программой) исходными «цен-
троидами» групп. Вычисляется матрица сходства между этими k «центроидами» и n наблюдениями,