134
включено во второе на 67 %, а второе включено в первое на 57 %.
Отношение иерархии определяется следующим образом. Если множество H
(i)
образовано
соединением некоторых классов из множества Н
(i)
, то f: Н
(i)
→
Н
(j)
сюръективно: каждому элементу Н
(i)
соответствует хотя бы один элемент из Н
(j)
. То обстоятельство, что класс появляется классом более
широким, чем Н
(j)
отображается через отношение иерархии И следующим образом: Н
(i)
И Н
(j)
(класс H
(i)
подчиняет класс H
(j)
).
Множество H
(i)
называется сгущением H
(j)
, если хотя бы один из классов H
(i)
есть соединение классов
из H
(j)
.
Если И = {Н
(1)
,..., H
(S)
} есть множество разбиений, таких, что Н
(k)
сгущение Н
(k-1)
, где k ∈ К, К = {k ⏐ k
— целое число, 1
≤ k ≤ S}, то в предельном случае Н
(1)
состоит из всех классов, содержащих ровно по
одному элементу, a H
(S)
— из одного класса, совпадающего с исходным множеством исследуемых
объектов J. При этом если задано разбиение, то элементы, входящие в один и тот же класс, являются
неразличимыми (эквивалентными). Здесь под разбиением Н множества J понимается представление J в
виде совокупности непустых подмножеств H
k
, k = 1, 2,..., п , таких, что
Множество И есть иерархическая система, состоящая из S уровней. Номеру каждого уровня можно
поставить в соответствие его ранг, так как К— упорядоченное множество, а названия всех классов
одного ранга считать категорией.
При практической реализации иерархических классификаций строятся дендрограммы, являющиеся
графическим способом изображения системы, что делает наглядной структуру иерархической системы.
Последовательный процесс построения сгущений начинается с рассмотрения q объектов {q ∈ H
(1)
).
Таким образом, на первом шаге каждый объект из заданного множества считается классом. Далее два
наиболее схожих объекта объединяются в один класс, и общее число последних становится равным q -
1. Эти классы принадлежат разбиению H
(2)
, являющемуся сгущением Н
(1)
. Если число схожих объектов
п, то объединяются любые два из них. Среди оставшихся снова отыскиваются наиболее схожие,
которые также объединяются. Аналогичные процедуры осуществляются до тех пор, пока все объекты
не попадут в один класс H
(S)
.
Одним из наиболее распространенных и простых подходов построения дендрограмм является
подход, основанный на использовании матрицы сходства.
Определение сходства каждого вновь образованного класса со всеми остальными может
производиться на основе матриц сходства шестью наиболее употребительными методами, которые опи-
сываются единой формулой:
где G(H
j
,H
k
) — мера сходства или различия классов H
j
и H
k
= {Н
и
,H
l
}.
Здесь n
u
, n
k
— число объектов соответственно u-го и k-го классов; п
k
= n
u
+ n
l
.
Конкретный метод подбирается проектировщиком индивидуально для исследуемой предметной
области с учетом ее специфики. Единых правил выбора не существует. Главным критерием для выбора
метода классификации может являться хорошая интерпретируемость получаемых результатов, не
противоречащих физическому смыслу изучаемой предметной области.
Обобщенные алгоритмы классификационных построений