Анализ активных сайтов в белках

Поиск и анализ активных сайтов в белках

Задача поиска функциональных мотивов в последовательностях белков.
Поиск мотивов и функциональных сайтов в базе данных PROSITE.
База данных PROSITE содержит информацию об известных в настоящее время белковых сайтах и функциональных мотивах. Это короткие участки полипептидных последовательностей, которые выполняют в белках важные функции — связывание с лигандами (ионами металлов, ДНК, пептидами), участки, выполняющие важные струкутрные функции и т.п. Информация об этих мотивах представляется в базе данных PROSITE в  нескольких вариантах: в виде паттерна , в виде весовой матрицы или в виде правила («rule»). База данных PROSITE тесно интегрирована с банком данных белковых последовательностей SWISS-PROT, все известные в настоящее время белки, индексированные в банке SWISS-PROT, проверяются на наличие функциональных сайтов.
Форматы белкового мотива в базе данных PROSITE.
Предположим, мы имеем набор выровненных белковых сайтов (на примере ДНК-связывающего мотива «цинковый палец» C2H2):
В этом выравнивании мы можем выделить консервативные позиции, которые могут служить характеристикой нашего мотива (выделены жирным шрифтом). В домене типа «цинковый палец» консервативные цистеины (C) и гистидины (H) образуют связи с заряженным ионом цинка, а консервативные остатки фенилаланина (F) и лейцина (L) входят в гидрофобное ядро домена. Консервативный аргинин (R) образует контакт с основанием ДНК.  Остатки между двумя цистеинами образуют короткую петлю (длина этой петли может варьировать от 2 до 5 (как видно из выравнивания). В целом, этот паттерн можно записать как

Здесь дефисом разделяется описание набора позиций (или одной позиции), в скобках указано число позиций, которые соответствуют указанному правилу. Однако, следует обратить внимание на позицию 17 выравнивания. В этой позиции наблюдаются только отрицательно заряженные аминокислоты (D — аспарагиновая кислота и E- глутаминовая кислота). Их функция тоже состоит в связывании с основаниями ДНК. Этот факт можно так же учесть при формировании паттерна путем введения «обобщенной позиции», допускающей наличие одной из этих аминокислот [DE]:

Паттерн2 , таким образом, будет более адекватно отражать особенности исследуемого мотива. Отметим, что иногда для построения паттерна   можно использовать фигурные скобки ({, }), которые означают, что типы аминокислот, заключенные в эти скобки не должны встречаться в данной позиции мотива (например {HKR}).

Правила построения паттерна:

Используются только канонические типы аминокислот.

Символ X обозначает допустимость любой аминокислоты в позиции паттерна.

Набор допустимых аминокислот может быть записан в квадратных скобках (пример [ARNH]).

Недопустимые аминокислоты записываются в фигурных скобках (пример {DE}).

Каждый элемент паттерна разделяется дефисом.

Повторение элементов паттерна записывается через круглые скобки (например X-X-X можно записать как -X(3)-, а -A-A- и -A-A-A-A- как -A(2,4)- ).

Если положение паттерна ограничено N или С терминальным концом последовательности, используются символы < или > для начала или конца паттерна соответственно.

Каждый паттерн заканчивается точкой с запятой (;).

Для поиска функциональных белковых последовательностей может так же использоваться весовая матрица (профиль). Она определяет вероятность каждой аминокислоты в позиции белкового сайта (выраженные через весовые коэффициенты) и представляется в виде матрицы размером 20xL, где L-длина мотива, а 20 — число канонических аминокислот. Ниже приведен пример матрицы:

Пример результата поиска мотивов в последовательности протеин-киназы: (PDB ID: 1ATP:E)

>1ATP|E

GNAAAAKKGSEQESVKEFLAKAKEDFLKKWETPSQNTAQLDQFDRIKTLGTGSFGRVMLVKHKESGNHYA MKILDKQKVVKLKQIEHTLNEKRILQAVNFPFLVKLEFSFKDNSNLYMVMEYVAGGEMFSHLRRIGRFSE PHARFYAAQIVLTFEYLHSLDLIYRDLKPENLLIDQQGYIQVTDFGFAKRVKGRTWTLCGTPEYLAPEII LSKGYNKAVDWWALGVLIYEMAAGYPPFFADQPIQIYEKIVSGKVRFPSHFSSDLKDLLRNLLQVDLTKR FGNLKNGVNDIKNHKWFATTDWIAIYQRKVEAPFIPKFKGPGDTSNFDDYEEEEIRVSINEKCGKEFTEF

(MOTIF PPSearch)

Задание 1: Провести поиск в базе  данных PROSITE записи по идентификатору PS00028.

Задание 2: провести поиск мотивов в последовательности цитохрома программами PPSearch и MOTIF:

>CYC_WHEAT/9-110

GNPDAGAKIFKTKCAQCHTVDAGAGHKQGPNLHGLFGRQSG

TTAGYSYSAANKNKAVEWEENTLYDYLLNPKKYIPGTKMVFPGLKKPQDRADLIAYLKKAT

Задание 3: Произвести поиск последовательностей в банке PDBSTR, содержащих мотив   «G-H-E-x(2)-G-x(5)-[GA]-x(2)-[IVSAC]» с помощью программы MOTIF

База данных по функциональным сайтам белков PDBSite

Вход в базу:

1. Зайти в базу SRS Лаборатории Теоретической Генетики ИЦиГ.

2. Выбрать «Protein3DStruct», отметить «PDBSITE».

3. Выбрать форму запроса, нажав  кнопку «Extended» или «Standard».

4. После ввода текста запроса нажать «Submit query».

Поля поиска:

ID — номер записи в базе

PDBID — номер записи в базе PDB, из которой взяты координаты атомов сайта

SiteType — тип сайта (активный/каталитический, связывания, посттрансляционной модификации)

Header — краткое название белка, из которого взяты данные по сайту

Title — расширенное название кристаллической структуры, из которой взят сайт

Keyword — ключевые слова, относящиеся к структуре

Molecule — сокращенное название белка, из структуры которого взяты координаты атомов сайта.

NumSiteChains — число цепей, участвующих в образовании сайта

SiteDescr — описание сайта, подробность варьирует

ResidueNotAA — соединения, не являющиеся аминокислотными остатками сайта, чаще всего лиганды или субстрат

LenSite — длина сайта, число аминокислотнных остатков в сайте

LenSurround — размер окружения сайта в аминокислотных остатках

ExposureSite — величина, обратная погруженности сайта внутрь молекулы

ExposureSurround — величина, обратная погруженности окружения сайта внутрь молекулы

Discontinuity — разрывность сайта

PDBSiteScan — http://wwwmgs.bionet.nsc.ru/mgs/systems/fastprot/pdbsitescan.html

Пример:  поиск сайтов в структуре  белка  1adf:_:
Результат поиска Файл структуры с наложенными совпадениями.

Задание 4: Выявить все возможные структурные сайты в белке 5pti:_