Выравнивание последовательностей

Парное и множественное выравнивание последовательностей. Программа CLUSTAL. Основные параметры рассчетов. Интерпретация результатов множественного выравнивания.

В то время как парное выравнивание последовательностей ДНК,РНК или белков необходимо для выявления  консервативных районов только двух последовательностей, существуют программы анализа, позволяющие проводить выравнивание сразу нескольких последовательностей. В этом случае можно обнаруживать участки локального сходства целого семейства анализируемых макромолекул. Консервативность этих участков свидетельствует об их функциональной важности — они могут являться  элементами вторичной структуры, сайтами связывания лигандов, другими функциональными мотивами.

Пример выравнивания белковых последовательностей семейства глобинов.

Существует несколько программ множественного выравнивания последовательностей. Наиболее популярные из них — CLUSTALW,  MAP и Pima.  Эти программы доступны через Internet на сервере Baylor Colledge of Medicine.

Основные параметры программы CLUSTALW.

Программа CLUSTALW доступна на сайте EBI (http://www.ebi.ac.uk/clustalw/index.html)

Программа CLUSTALW вначале производит парное выравнивание анализируемых последовательностей, после этого строит их филогенетическое дерево (guiding tree) и затем использует это дерево для построения множественного выравнивания последовательностей. Параметры программы определяют ее работу на трех этапах построения выравнивания.

1. Суммарная длина вводимых последовательностей не должна превышать 40000 для WWW и 60000 для E-mail серверов.

2. Данные вводятся в одном из 7 возможных форматов ( NBRF/PIREMBL/SWISSPROT, Pearson (Fasta), Clustal (*.aln), GCG/MSF (Pileup), GCG9/RSF, GDE ).

3. Параметры парного выравнивания.

А. Медленное но более качественное выравнивание:

  • Gap Open Penalty: штраф на внесение делеции в выравнивание. Смысл этого параметра в следующем. Уменьшение его делает возможным более легко вносить в выравнивание разрывы, при этом качество выравнивания ухудшается. Если этот параметр увеличивать — выравнивание будет представлять собой длинные участки последовательностей почти без вставок или делеций.
  • Gap extension penalty: штраф на продолжение делеции. Этот параметр контролирует возможность внесения длинных вставок или делеций.
  • Protein weight matrix: матрица сравнения аминокислот.
  • DNA weight matrix: матрица сравнения нуклеотидов.

Б.  Быстрое но менее точное выравнивание (последовательности выравниваются с помощью поиска длинных сходных участков «к-плетов», затем эти наиболее сходные участки образуют «блоки» выравнивания):

  • K-TUPLE SIZE: Размер участка максимального совпадения (по умолчанию  = 1). Для увеличения скорости надо увеличивать этот параметр ( max= 2 для белков; 4 для ДНК). Для увеличения точности надо уменьшать этот параметр.
  • GAP PENALTY: штраф на введение делеции. Практически не влияет на скорость.
  • TOP DIAGONALS: число непрерывно совпадающих к-плетов на участке парного выравнивания (если к=1, то это просто длина совпадающего сегмента). Для построения выравнивания выбираются только сегменты, превышающие это порог.  Для увеличения скорости надо уменьшать этот параметр, для увеличенияточности надо увеличивать этот параметр.
  • WINDOW SIZE: длина сегмента, включающего «наидучший выровненный сегмент (см. предыдущий параметр).   Для увеличения скорости надо уменьшать этот параметр, для увеличения точности надо увеличивать этот параметр.

4. Параметры множественного выравнивания.

  • GAP PENALTIES — устанавливаются как в парном выравнивании.
  • DELAY DIVERGENT SEQUENCES — позволяет контролировать вначале выравнивание более сходных а затем более различающихся последовательностей.
  • TRANSITION WEIGHT — присваивает вес транзициям (A <—> G или C <—> T  т.е. заменны пурин-пурин и примидин-пиримидин) вес между 0 и 1. Если вес равен 0, то транзиция рассматривается как несовпадение. Если вес равен 1, то транзиция рассматривается как совпадение (алфавит из 4-буквенного вырождается в двухбуквенный пурин-пиримидин).   Для удаленных последоватедльностей этот вес должен быть близок к 0, для близкородственных полезно иногда сделать его близким к 1.
  • DNA WEIGHT MATRIX — выбор матрицы сравнения нуклеотидов.

Файл с последовательностями протеин-киназ (1atp.seq).

Файл с последовательностями гомеодоменов (homeo.seq).

Программа JalView для визуализации множественных выравниваний.

http://www.jalview.org/

Базы данных множественных выравниваний.

База данных Pfam (http://www.sanger.ac.uk/Software/Pfam/)

База данных HSSP (http://www.cmbi.kun.nl/gv/hssp/), доступ удобен через srs3D (http://srs3d.ebi.ac.uk/http://srs3d.ebi.ac.uk/srs6bin/cgi-bin/wgetz?-page+LibInfo+-id+uuCM1NNfns+-lib+HSSP)