где n – число молекул в выборке, m – количество искомых коэффициентов
регрессии, а
y и )э(y - средние величины (по обучающей выборке)
теоретической и экспериментальной биоактивности. Коэффициент r
выражает зависимость (корреляцию) экспериментальных данных и их
аппроксимацию методом МНК. В литературе по статистике корреляции
переменных, обычно, оценивают как
“отличные” |r| > 0.99, “хорошие” 0.98 ≤ |r| ≤ 0.99,
“удовлетворительные” 0.95 ≤ |r| < 0.98, “плохие” |r| < 0.9.
Следует отметить, что такие оценки являются довольно условными.
Для проверки значимости корреляции используют множество
критериев. Среди них популярен так называемый F-критерий
(предполагается, что задача соответствует нормальному распределению
ошибок):
2
2
1
r
)mn(F
−
−=
.
С помощью этой величины по специальным таблицам оценивается
вероятность того, что между биоэффектом и дескрипторами имеется
статистическая связь.
Особенность проблематики QSAR заключается в том, что заранее
неизвестно сколько и какие именно дескрипторы необходимы для
описания заданного свойства. Поэтому зачастую возникает “соблазн”
выбрать очень широкий набор параметров, что приводит к возникновению
случайных корреляций. Эта ситуация существенна и тогда, когда число
объектов (молекул) сравнительно мало по сравнению с числом
дескрипторов. Одним из распространенных подходов в таких ситуациях
является метод анализа главных компонент (principal components analysis,
PCA). В этом методе анализируется структура матрицы корреляции между
всеми параметрами задачи с целью идентификации новых переменных,
которые суммируют информационное содержание широкого первичного
35