42
Принцип третий. Максимальное использование «обуче-
ния» в настройке математических моделей классификации.
Если исследователь располагает «входами» и «выходами» моде-
ли классификации, то исходный набор данных называют обу-
чающей выборкой. Целью исследования является описание про-
цедур, с помощью которых для любого элемента, вновь посту-
пившего на вход, можно было бы с достаточной точностью
оп-
ределить номер класса, к которому он относится. Такие задачи –
типичные задачи медицинской диагностики, где заранее извест-
ны наборы симптомов различных заболеваний, и пациенту, об-
ратившемуся к врачу, после обследования ставится диагноз на
основе уже имеющегося опыта.
Однако имеется ряд задач, для которых обучающая выбор-
ка полностью неизвестна, например, в
больницу поступил боль-
ной с симптомами неизвестной врачу болезни. В этом случае по
такой обедненной входной информации может быть произведе-
на «настройка» математической модели.
Принцип четвертый. Оптимизационная формулировка
задач классификации. Среди множества возможных методов,
реализующих поставленную цель классификационной обработ-
ки входных данных, нужно найти наилучший метод с помощью
оптимизации некоторого
заданного критерия (функционала) ка-
чества. Как правило, это достигается с учетом априорной ин-
формации об объекте исследования.
Содержательная постановка задачи автоматической
классификации. Всякие закономерности ищутся для практическо-
го удобства. Закономерности «групповой похожести» позволяют
сильно сократить описание ТОС при малой потере информации.
Вместо перечисления всех объектов исходного множества можно
составить список «
типовых» или «эталонных» представителей
групп, указать номера объектов, попавших в эти группы, и средние
или максимальные отличия их свойств от свойств «эталонов». При
небольшом числе групп описание расклассифицированных данных
становится обозримым и легко интерпретируемым. Такая группи-
ровка выполняется с помощью методов таксономии (синонимы:
автоматическая классификация, кластерный анализ, самообуче-
ние). Алгоритмы автоматической
классификации (АК), а их из-
вестно более сотни, отличаются друг от друга процедурой группи-