Анализ активных сайтов в белках — Кафедра информационной биологии

Поиск и анализ активных сайтов в белках

Задача поиска функциональных мотивов в последовательностях белков.

Поиск мотивов и функциональных сайтов в базе данных PROSITE.

База данных PROSITE содержит информацию об известных в настоящее время белковых сайтах и функциональных мотивах. Это короткие участки полипептидных последовательностей, которые выполняют в белках важные функции — связывание с лигандами (ионами металлов, ДНК, пептидами), участки, выполняющие важные струкутрные функции и т.п. Информация об этих мотивах представляется в базе данных PROSITE в нескольких вариантах: в виде паттерна , в виде весовой матрицы или в виде правила («rule»). База данных PROSITE тесно интегрирована с банком данных белковых последовательностей SWISS-PROT, все известные в настоящее время белки, индексированные в банке SWISS-PROT, проверяются на наличие функциональных сайтов.

Форматы белкового мотива в базе данных PROSITE.

Предположим, мы имеем набор выровненных белковых сайтов (на примере ДНК-связывающего мотива «цинковый палец» C2H2):

В этом выравнивании мы можем выделить консервативные позиции, которые могут служить характеристикой нашего мотива (выделены жирным шрифтом). В домене типа «цинковый палец» консервативные цистеины (C) и гистидины (H) образуют связи с заряженным ионом цинка, а консервативные остатки фенилаланина (F) и лейцина (L) входят в гидрофобное ядро домена. Консервативный аргинин (R) образует контакт с основанием ДНК. Остатки между двумя цистеинами образуют короткую петлю (длина этой петли может варьировать от 2 до 5 (как видно из выравнивания). В целом, этот паттерн можно записать как

Здесь дефисом разделяется описание набора позиций (или одной позиции), в скобках указано число позиций, которые соответствуют указанному правилу. Однако, следует обратить внимание на позицию 17 выравнивания. В этой позиции наблюдаются только отрицательно заряженные аминокислоты (D — аспарагиновая кислота и E- глутаминовая кислота). Их функция тоже состоит в связывании с основаниями ДНК. Этот факт можно так же учесть при формировании паттерна путем введения «обобщенной позиции», допускающей наличие одной из этих аминокислот [DE]:

Паттерн2 , таким образом, будет более адекватно отражать особенности исследуемого мотива. Отметим, что иногда для построения паттерна можно использовать фигурные скобки ({, }), которые означают, что типы аминокислот, заключенные в эти скобки не должны встречаться в данной позиции мотива (например {HKR}).
Правила построения паттерна:
Используются только канонические типы аминокислот.
Символ X обозначает допустимость любой аминокислоты в позиции паттерна.
Набор допустимых аминокислот может быть записан в квадратных скобках (пример [ARNH]).
Недопустимые аминокислоты записываются в фигурных скобках (пример {DE}).
Каждый элемент паттерна разделяется дефисом.
Повторение элементов паттерна записывается через круглые скобки (например X-X-X можно записать как -X(3)-, а -A-A- и -A-A-A-A- как -A(2,4)- ).
Если положение паттерна ограничено N или С терминальным концом последовательности, используются символы < или > для начала или конца паттерна соответственно.
Каждый паттерн заканчивается точкой с запятой (;).
Для поиска функциональных белковых последовательностей может так же использоваться весовая матрица (профиль). Она определяет вероятность каждой аминокислоты в позиции белкового сайта (выраженные через весовые коэффициенты) и представляется в виде матрицы размером 20xL, где L-длина мотива, а 20 — число канонических аминокислот. Ниже приведен пример матрицы:

Пример результата поиска мотивов в последовательности протеин-киназы: (PDB ID: 1ATP:E)
>1ATP|E
GNAAAAKKGSEQESVKEFLAKAKEDFLKKWETPSQNTAQLDQFDRIKTLGTGSFGRVMLVKHKESGNHYA MKILDKQKVVKLKQIEHTLNEKRILQAVNFPFLVKLEFSFKDNSNLYMVMEYVAGGEMFSHLRRIGRFSE PHARFYAAQIVLTFEYLHSLDLIYRDLKPENLLIDQQGYIQVTDFGFAKRVKGRTWTLCGTPEYLAPEII LSKGYNKAVDWWALGVLIYEMAAGYPPFFADQPIQIYEKIVSGKVRFPSHFSSDLKDLLRNLLQVDLTKR FGNLKNGVNDIKNHKWFATTDWIAIYQRKVEAPFIPKFKGPGDTSNFDDYEEEEIRVSINEKCGKEFTEF
(MOTIF PPSearch)
Задание 1: Провести поиск в базе данных PROSITE записи по идентификатору PS00028.
Задание 2: провести поиск мотивов в последовательности цитохрома программами PPSearch и MOTIF:
>CYC_WHEAT/9-110
GNPDAGAKIFKTKCAQCHTVDAGAGHKQGPNLHGLFGRQSG
TTAGYSYSAANKNKAVEWEENTLYDYLLNPKKYIPGTKMVFPGLKKPQDRADLIAYLKKAT
Задание 3: Произвести поиск последовательностей в банке PDBSTR, содержащих мотив «G-H-E-x(2)-G-x(5)-[GA]-x(2)-[IVSAC]» с помощью программы MOTIF

База данных по функциональным сайтам белков PDBSite

Вход в базу:
1. Зайти в базу SRS Лаборатории Теоретической Генетики ИЦиГ.
2. Выбрать «Protein3DStruct», отметить «PDBSITE».
3. Выбрать форму запроса, нажав кнопку «Extended» или «Standard».
4. После ввода текста запроса нажать «Submit query».
Поля поиска:
ID — номер записи в базе
PDBID — номер записи в базе PDB, из которой взяты координаты атомов сайта
SiteType — тип сайта (активный/каталитический, связывания, посттрансляционной модификации)
Header — краткое название белка, из которого взяты данные по сайту
Title — расширенное название кристаллической структуры, из которой взят сайт
Keyword — ключевые слова, относящиеся к структуре
Molecule — сокращенное название белка, из структуры которого взяты координаты атомов сайта.
NumSiteChains — число цепей, участвующих в образовании сайта
SiteDescr — описание сайта, подробность варьирует
ResidueNotAA — соединения, не являющиеся аминокислотными остатками сайта, чаще всего лиганды или субстрат
LenSite — длина сайта, число аминокислотнных остатков в сайте
LenSurround — размер окружения сайта в аминокислотных остатках
ExposureSite — величина, обратная погруженности сайта внутрь молекулы
ExposureSurround — величина, обратная погруженности окружения сайта внутрь молекулы
Discontinuity — разрывность сайта
PDBSiteScan — http://wwwmgs.bionet.nsc.ru/mgs/systems/fastprot/pdbsitescan.html

Пример: поиск сайтов в структуре белка 1adf:_:
Результат поиска Файл структуры с наложенными совпадениями.

Задание 4: Выявить все возможные структурные сайты в белке 5pti:_