Задача «Найти зависимость между двумя признаками»
201
му доля полевок составляет разницу между 1 и долей бурозубок:
Рг = 1–Рб. По существу, мы имеем уравнение строго функциональ-
ной обратной регрессии (у =
1–1·х), которому соответствует, естест-
венно, максимальный отрицательный коэффициент корреляции.
Требование неизменности суммы двух показателей (1 или 100 %),
принятое для вычисления процентов, оказывается причиной посто-
янной обратной пропорции между этими показателями. Такая кор-
реляция должна быть названа ложной, потому что характеризует не
биологическую зависимость показателей, а способ их расчета. Когда
общую сумму образуют три и более признаков, ложная корреляция
будет отличаться от r
= –1, но от этого не утратит своей природы
математического артефакта.
При обработке массивов данных с большим числом произ-
водных признаков (индексы доминирования видов в сообществе,
морфофизиологические индикаторы) нетрудно пропустить еще один
вид ложной корреляции, которая наблюдается между двумя призна-
ками, отнесенными к общей для них третьей переменной.
По неосмотрительности коэффициенты связи между индек-
сами можно воспринять как оценку зависимости между признаками.
Такие корреляции, бессознательно наведенные третьим фактором,
также можно назвать ложными.
Безусловно, содержательную интерпретацию можно дать как
корреляции признаков, так и корреляции индексов, но они будут
кардинально отличаться. Например, для нескольких видов куньих
(от ласки до барсука) коэффициент корреляции (r
= 0.96) между
длиной тонкого и толстого отделов кишечника отражает простые
морфологические пропорции: у крупного животного кишечник
длиннее, чем у мелкого. Однако корреляция между индексами этих
органов (размеров, отнесенных к длине тела особи) характеризует
уже отличия диеты разных видов (r
= 0.78): кишечник относительно
меньше у облигатных хищников, нежели у полифагов. Однако в
большом массиве производных значений такие отношения между
индексами могут восприниматься как зависимости между призна-
ками, что неизбежно приведет к ложным выводам.
Чтобы уйти от подобной двусмысленности, к обработке же-
лательно привлекать только предварительно выверенные реальные
исходные показатели, а не доли, проценты или индексы.