7
покупаются чипсы или орехи, то, как правило, покупаются и пиво или вода
соответственно. Обладая такими знаниями, можно разместить эти товары
рядом, объединить их в один пакет со скидкой или предпринять другие
действия, стимулирующие покупателя приобрести товар.
Задача поиска ассоциативных правил актуальна не только в сфере
торговли. Например, в сфере обслуживания интерес
представляет
информация о том, какими услугами клиенты предпочитают пользоваться в
совокупности. Для получения этой информации задача решается
применительно к данным об услугах, которыми пользуется один клиент в
течение определенного времени (месяца, года). Это помогает определить,
например, как наиболее выгодно составить пакеты услуг, предлагаемых
клиенту.
В медицине анализу могут подвергаться симптомы
и болезни,
наблюдаемые у пациентов. В этом случае знания о том, какие сочетания
болезней и симптомов встречаются наиболее часто, помогают в будущем
правильно ставить диагноз.
При анализе часто вызывает интерес последовательность
происходящих событий. При обнаружении закономерностей в таких
последовательностях можно с некоторой долей вероятности предсказывать
появление событий в будущем, что позволяет
принимать более правильные
решения. Такая задача является разновидностью задачи поиска
ассоциативных правил и называется сиквенциальным анализом.
Основным отличием задачи сиквенциального анализа от поиска
ассоциативных правил является установление отношения порядка между
исследуемыми наборами. Данное отношение может быть определено
разными способами. При анализе последовательности событий,
происходящих во времени, объектами таких наборов являются
события, а
отношение порядка соответствует хронологии их появления.
Сиквенциальный анализ широко используется, например в
телекоммуникационных компаниях, для анализа данных об авариях на
различных узлах сети. Информация о последовательности совершения
аварий может помочь в обнаружении неполадок и предупреждении новых
аварий. Например, если известна последовательность сбоев: {е5, е2, e7, е13,
е6, e1,... }, где е
i
— код сбоя, то на основании факта появления сбоя е
2
можно
сделать вывод о скором появлении сбоя е
7
. Зная это, можно предпринять
профилактические меры, устраняющие причины возникновения сбоя. Если
дополнительно обладать и знаниями о времени между сбоями, то можно
предсказать не только факт его появления, но и время, что часто не менее
важно.
1.4. Задача кластеризации
Задача кластеризации состоит в разделении исследуемого множества
объектов на группы "похожих" объектов,
называемых кластерами (cluster).
Слово cluster переводится с английского как сгусток, пучок, группа. Часто