169
нотации регуляторных районов. Система обнаруживает статистически
значимые правила в логике первого порядка для решения этой проблемы.
Анализ регуляционных районов генов очень важен для понимания мо-
лекулярных механизмов транскрипции. Регуляторные последовательности
составляют небольшую долю, грубо говоря 95 % генома млекопитающих,
которые не кодируют белки, но они определяют уровень, локализацию и
хронологию экспрессии генов [110].
Вопреки важности этих некодирую-
щих последовательностей в генной регуляции, наша возможность иденти-
фицировать и предсказать функции для этой категории ДНК сильно огра-
ничена.
Контроль экспрессии генов у эукариот первично определяется относи-
тельно короткими последовательностями (сигналами / мотивами) в облас-
ти промотера гена. Эти последовательности варьируются в длине, пози-
ции, обилии, ориентации в
цепи ДНК. Промотеры эукариот характеризу-
ются отсутствием точной локализации контекстных сигналов и их слабо-
стью [105]. Разнообразие промотеров – основная сложность в разработке
программ распознавания.
Существование консенсуса для многих известных транскрипционных
факторов использовалась для построения базы данных, в которой могут
быть найдены интересующие потенциальные транскрипционные факторы
(transcription factor binding sites (TFBS)), скрепляющие участки в последо-
вательностях
ДНК [115–116; 161]. Тем не менее нужные участки данных
были получены, хотя идентификация таких участков до сих пор представ-
ляет собой большие трудности. Мы ссылаемся на некоторое количество
программ, прогнозирующих участки, как на первый шаг по извлечению
знаний в структуре промотера [139; 140; 160; 161]. Вопреки факту, что не-
которые транскрипционные факторы связываются с высокоспецифичными
последовательностями ДНК
, большинство имеют небольшое количество
неизменных коровых последовательностей (около 4–6 bp), окруженных
варьирующим количеством нуклеотидов.
Мы разрешаем эту проблему, используя несколько методов:
1) использованием специализированных баз данных, таких как TRRD и
её секций [115–116];
2) комбинированием различных статистических программ прогнозиро-
вания;
3) оцениванием статистически определенных олигонуклеотидов, как
потенциальных TFBS [160].
TFBS или потенциальные сайты служат входной таблицей характери-
стик с точки зрения методов извлечения знаний. Компьютерное обнаруже-
ние областей регуляции генов является значительным вкладом в дополне-
ние к новым
экспериментальным подходам.