Выравнивание последовательностей — Кафедра информационной биологии

Парное и множественное выравнивание последовательностей. Программа CLUSTAL. Основные параметры рассчетов. Интерпретация результатов множественного выравнивания.
В то время как парное выравнивание последовательностей ДНК,РНК или белков необходимо для выявления консервативных районов только двух последовательностей, существуют программы анализа, позволяющие проводить выравнивание сразу нескольких последовательностей. В этом случае можно обнаруживать участки локального сходства целого семейства анализируемых макромолекул. Консервативность этих участков свидетельствует об их функциональной важности — они могут являться элементами вторичной структуры, сайтами связывания лигандов, другими функциональными мотивами.
Пример выравнивания белковых последовательностей семейства глобинов.
Существует несколько программ множественного выравнивания последовательностей. Наиболее популярные из них — CLUSTALW, MAP и Pima. Эти программы доступны через Internet на сервере Baylor Colledge of Medicine.
Основные параметры программы CLUSTALW.
Программа CLUSTALW доступна на сайте EBI (http://www.ebi.ac.uk/clustalw/index.html)
Программа CLUSTALW вначале производит парное выравнивание анализируемых последовательностей, после этого строит их филогенетическое дерево (guiding tree) и затем использует это дерево для построения множественного выравнивания последовательностей. Параметры программы определяют ее работу на трех этапах построения выравнивания.
1. Суммарная длина вводимых последовательностей не должна превышать 40000 для WWW и 60000 для E-mail серверов.
2. Данные вводятся в одном из 7 возможных форматов ( NBRF/PIR, EMBL/SWISSPROT, Pearson (Fasta), Clustal (*.aln), GCG/MSF (Pileup), GCG9/RSF, GDE ).
3. Параметры парного выравнивания.

А. Медленное но более качественное выравнивание:

Gap Open Penalty: штраф на внесение делеции в выравнивание. Смысл этого параметра в следующем. Уменьшение его делает возможным более легко вносить в выравнивание разрывы, при этом качество выравнивания ухудшается. Если этот параметр увеличивать — выравнивание будет представлять собой длинные участки последовательностей почти без вставок или делеций.

Gap extension penalty: штраф на продолжение делеции. Этот параметр контролирует возможность внесения длинных вставок или делеций.

Protein weight matrix: матрица сравнения аминокислот.

DNA weight matrix: матрица сравнения нуклеотидов.

Б. Быстрое но менее точное выравнивание (последовательности выравниваются с помощью поиска длинных сходных участков «к-плетов», затем эти наиболее сходные участки образуют «блоки» выравнивания):

K-TUPLE SIZE: Размер участка максимального совпадения (по умолчанию = 1). Для увеличения скорости надо увеличивать этот параметр ( max= 2 для белков; 4 для ДНК). Для увеличения точности надо уменьшать этот параметр.

GAP PENALTY: штраф на введение делеции. Практически не влияет на скорость.

TOP DIAGONALS: число непрерывно совпадающих к-плетов на участке парного выравнивания (если к=1, то это просто длина совпадающего сегмента). Для построения выравнивания выбираются только сегменты, превышающие это порог. Для увеличения скорости надо уменьшать этот параметр, для увеличенияточности надо увеличивать этот параметр.

WINDOW SIZE: длина сегмента, включающего «наидучший выровненный сегмент (см. предыдущий параметр). Для увеличения скорости надо уменьшать этот параметр, для увеличения точности надо увеличивать этот параметр.

4. Параметры множественного выравнивания.

GAP PENALTIES — устанавливаются как в парном выравнивании.

DELAY DIVERGENT SEQUENCES — позволяет контролировать вначале выравнивание более сходных а затем более различающихся последовательностей.

TRANSITION WEIGHT — присваивает вес транзициям (A <—> G или C <—> T т.е. заменны пурин-пурин и примидин-пиримидин) вес между 0 и 1. Если вес равен 0, то транзиция рассматривается как несовпадение. Если вес равен 1, то транзиция рассматривается как совпадение (алфавит из 4-буквенного вырождается в двухбуквенный пурин-пиримидин). Для удаленных последоватедльностей этот вес должен быть близок к 0, для близкородственных полезно иногда сделать его близким к 1.

DNA WEIGHT MATRIX — выбор матрицы сравнения нуклеотидов.

Файл с последовательностями протеин-киназ (1atp.seq).
Файл с последовательностями гомеодоменов (homeo.seq).
Программа JalView для визуализации множественных выравниваний.
http://www.jalview.org/
Базы данных множественных выравниваний.
База данных Pfam (http://www.sanger.ac.uk/Software/Pfam/)
База данных HSSP (http://www.cmbi.kun.nl/gv/hssp/), доступ удобен через srs3D (http://srs3d.ebi.ac.uk/, http://srs3d.ebi.ac.uk/srs6bin/cgi-bin/wgetz?-page+LibInfo+-id+uuCM1NNfns+-lib+HSSP)