176
нимальное расстояние либо с одним из объектов этой группы, либо с каким-либо
объектом из оставшихся. Отсюда: либо объект присоединяется к имеющемуся
кластеру, либо формируется новый кластер. Данная процедура повторяется то тех
пор, пока не останется один кластер, содержащий все объекты массива данных.
Возможный недостаток этого простейшего метода – образование больших удли-
нённых «цепочечных» кластеров.
2. Метод всех связей (complete linkage, «самого дальнего соседа»). Включе-
ние объекта в другой кластер определяется максимальным расстоянием до какого-
либо объекта этого кластера, но минимальным среди всех имеющихся кластеров.
Дополнительно делается проверка на
непревышение этого расстояния некоторого
порога D (фактически диаметра гиперсферы, окружающей все возможные объек-
ты кластера). Если порог превышен, объекту (кластеру) отыскивается пара, фор-
мирующая новый кластер. При объединении кластеров проверка выполняется
между всеми парами объектов обоих кластеров. Таким образом, в этом методе ис-
следователь должен задать программе число – диаметр гиперсфер – исходя из ха-
рактера данных и собственного опыта.
3. Невзвешенное попарное среднее. Расстояние между парой объект (кла-
стер) – кластер определяется как среднее расстояние между всеми парами объек-
тов в них. Минимальное среднее расстояние по всему множеству пар кластер –
кластер определяет объединение объектов в новый кластер.
4. Взвешенное попарное среднее. Аналогично предыдущему методу, опре-
деляется минимум среднего расстояния по множеству пар объекты/кластеры –
кластеры, но затем среднее расстояние корректируется коэффициентом для во-
площения очевидного принципа – больший кластер должен эффективно погло-
щать кластер меньшего размера. В программе коэффициент «поглощения» вы-
числяется следующим образом:
Co = 0,5 + Min(n1,n2)/(n1+n2), n1 и n2 – размеры кластеров.
При n1=n2 Co=1,00; при различных размерах кластеров Co стремится к
0,5, например, n1=1, n2=9, тогда Co=0,6, таким образом расстояние существенно
уменьшается, облегчая выбор в пользу большого кластера.