универсального набора дескрипторов для любых систем и любых типов
активности не существует. Уместно также вспомнить принцип Оккама:
“Не приумножай сущностей более чем необходимо”, поскольку чрезмерно
“раздутый” дескрипторный набор увеличивает риск случайных
корреляций. В целом QSAR методология не предполагает глубокого
понимания сущности конкретных биохимических процессов в организме,
однако, имея какую-либо модель этих процессов, можно существенно
облегчить формулировку самого вида количественного соотношения
структура-активность.
В настоящем пособии не рассмотрены некоторые важные
статистические подходы, поскольку их изложение требует специальных
знаний. Среди них факторный анализ (один из его вариантов известен как
метод главных компонент) – статистический метод, позволяющий
проанализировать структуру взаимосвязей элементов дескрипторного
набора и, что очень существенно, сжать его. Своеобразным гибридом МНК
и метода главных компонент является частичный метод наименьших
квадратов (partial least squares, PLS), использующийся в расчетах систем с
большим количеством дескрипторов.
Необходимо отметить также, что QSAR – это бурно развивающаяся
область хемометрии. За последнее десятилетие появилось множество
новых подходов. Среди них так называемый трехмерный QSAR (3D-
QSAR) – мощный метод, предполагающий зависимость биоактивности от
стерических свойств молекул и их электростатических полей. Набирает
популярность метод искусственных нейронных сетей – алгоритм,
симулирующий функционирование нейронов. Он используется в проблеме
молекулярного распознавания и классификации. Генетические алгоритмы
– новый подход, позволяющий корректно обрабатывать данные, которые
содержат больше переменных (дескрипторов), чем объектов (молекул).
69