
Какие
переменные
лежат в основе
кластеризации?
Если для создания кластеров мы используем несколько переменных, то следует быть
внимательным, чтобы не создать неявно взвешенную систему. Например, в маркетинговом
исследовании в сфере автоиндустрии заказчик предложил сгруппировать респондентов в со-
ответствии с ответами на 20 вопросов, касающихся желаемых преимуществ нового автомо-
биля. Уже при первом их рассмотрении стало ясно, что семь вопросов прямо или косвенно
связаны с экономией денег, восемь — с имиджем, три — с ценой и два отражали скоростные
качества автомобиля. Можно было спрогнозировать, что вопросы, лежащие в основе класте-
ризации,
скорее всего приведут руководство компании к выводу о том, что группы респон-
дентов, по-видимому, больше всего
отличаются
отношением к экономии денег и имиджу
автомобиля. Но когда вы вычислите
евклидовы
расстояния, чтобы изучить различия между
респондентами, то в формулу их расчета будет входить данные, полученные при ответах на
!5 вопросов относительно экономии и имиджа и только пять, касающиеся вопросов из об-
ласти ценовых и скоростных характеристик автомобиля. Если эти вопросы имеют сопоста-
вимые шкалы, то явно будет завышено значение данных из первых
двух
категорий. Разум-
нее сократить как можно больше похожих вопросов, чтобы получить в каждой категории
одинаковое число вопросов, отражающее
высоко
коррелированные группы вопросов. Если
этого не сделать, то число вопросов, которые вы зададите по данной проблеме, может сильно
повлиять на ваши результаты, сильнее, чем сама проблема.
Насколько
отличаются
кластеры?
Выше, в первом пункте, мы обсудили, насколько
целесообразно
выделять кластеры с точки
зрения существования различий между переменными, Нам также необходимо проверить, дейст-
вительно ли кластеры различаются с точки зрения переменных, которые лежали в основе созда-
ния кластеров. Вы можете ввести данные в алгоритм кластеризации, и если вы зададите остановку
этого процесса на двух кластерах, то получите два кластера в силу самой природы этого процесса, а
вовсе не
из-за
логики проблемы или структуры различий, существующих в изучаемой совокупно-
сти. Поэтому после деления на кластеры важно убедиться, что различия имеют достаточную
вели-
чину и стабильность, чтобы вы были уверены в полученных результатах.
1.
Маловероятно, что кластеры отличаются по
всем
вопросам, использованным в качестве
исходных данных для процесса кластеризации. Хотя статистические процедуры не дей-
ственны применительно к систематически создаваемым кластерам, они помогают по-
нять процесс формирования кластеров.
Однофакторный
дисперсионный анализ пока-
жет, различаются ли отдельные вопросы между сформированными кластерами, исходя
из значения статистики, которая больше всего подходит для вероятностной выборки
(конечно, это не то, что вы хотите... но все же лучше иметь такой "коэффициент"). При-
влекательнее использование
дискриминантного
анализа, поскольку он покажет, какие
из вопросов станут потенциальными дискриминаторами
групп,
учитывая при этом кол-
линеарность между этими предикторами.
2. Значимость различий между кластерами с точки зрения руководства — это отдельная
проблема. Предположим, ваши кластеры
представляются
различными по статистиче-
ским показателям (полученным в результате дисперсионного и дискриминантного ана-
лиза). Однако это вовсе не означает, что различия настолько велики, что руководство
компании-заказчика сочтет их полезными для решения своих проблем. Рассмотрим, на-
пример, такую ситуацию. Вопрос, по которому было проведено различие кластеров, от-
носился к экономии средств, и 90%
ответов
находилось в диапазоне от 6 до 9 по десяти-
балльной шкале.
Чтобы убедить руководство принять во внимание такое разделение между кластерами,
вам необходимо предоставить
дополнительные
убедительные доказательства. Дело в том,
что оценки респондентов показывают различия в степени "положительного отношения"
и ничего не говорят о величине различий в рамках одного кластера. Это трудный вопрос,
и нет рецепта для ответа на него. Конечно, было бы лучше, если бы вы могли перевести
эти численные различия в решения, имеющие смысл для высшего руководства.
770 Часть
111.
Сбор, подготовка и анализ данных