Глава 5 237
ляют строить достоверные прогнозы, не уточняя конкретный вид тех зависимостей,
на которых прогноз основан. Подробнее о байесовских сетях – в п.5.3.3.
Задачи классификации. Исследование атрибутов заданной сущности и отне-
сение ее к определенному классу или категории, основываясь на значениях этих
атрибутов. Например, отнесение модулей к одному из двух классов – «с большой
вероятностью дефектов» или «с малой вероятностью дефектов». Для решения этих
задач могут использоваться методы деревьев классификации (classification trees)
[54] или оптимального сокращения набора данных (optimal set reduction) [55] (это
метод иерархической классификации).
Задачи выявления ассоциаций. Поиск ассоциативных групп значений атри-
бутов, т.е. значений, почти всегда появляющихся вместе. Например, определение
того, какие значения двух атрибутов - «опыт» и «подготовка» - для сущности
«группа разработки» ассоциируются с характеристикой качества конечного про-
дукта - «надежность». Для решения этих задач может использоваться метод анали-
за взаимосвязанных событий (анализа структуры транзакции) (в экономике этот
метод называют методом анализа структуры покупки (market basket analysis)) [56]
или метод анализа значений атрибута (attribute focusing) [57]. По первому методу
анализируются «интересные» события и связанные с ними значения атрибутов, а по
второму - «интересная» функция распределения значений или «интересные» корре-
ляции между значениями атрибутов. Установленные факты отображаются с помо-
щью столбиковых диаграмм, упорядочиваемых по степени «интереса», который
они представляют для экспертов. Вопросы, которые возникают у экспертов в про-
цессе анализа диаграмм, и побуждают к извлечению новых знаний.
Задачи кластеризации. Отличаются от задач классификации тем, что классы
или категории, к которым должны быть отнесены сущности, заранее не заданы и
должны быть сформированы в результате определения множества однородных
подгрупп данных. Разделение популяции данных на подгруппы производится не в
соответствии с какой-либо моделью классификации, а по измерениям расстояния
между ними. Если, например, база данных содержит записи о модулях системы и
нужно разделить все множество записей на группы, руководствуясь значениями
атрибута «количество модификаций», расстояние будет измеряться разницей меж-
ду количеством модификаций разных модулей. Это простейший вид кластеризации
по одному критерию. Обзор методов и алгоритмов иерархической и неиерархиче-
ской кластеризации данных можно найти, например, в работах [58] и [59].
Задачи визуализации данных. Визуализация данных заключается в отобра-
жении многомерных данных на двумерном экране компьютера. Достигается путем
связывания записей данных с «визуальными атрибутами», каждый из которых да-
лее ассоциируется с измерением реальных данных. Хороший пример использова-
ния приемов визуализации в программной инженерии - работы Data Visualization
Research Group (AT&T Bell Labs) по визуализации исходного кода программ [60].
Задачи исследования визуализированных данных. Осмысление сложной
информации с помощью интерактивного управления визуализацией многомерных
неструктурированных наборов данных путем построения сценариев отображения
данных в режиме «что если». Обзор современных инструментов визуальной добы-
чи данных, позволяющих эксперту в проблемной области обнаруживать интерес-
ные образы данных без использования автоматизированных алгоритмов, представ-
лен в [51].