Компьютерная эволюционная биология
Понятие координированных замен аминокислотных остатков
Обзор подходов к анализу координированных замен
Экспериментальные свидетельства кооперативного эффекта замен остатков
Выявление и анализ координированных замен в последовательностях гомологичных белков.
Проблема учета эволюционной зависимости последовательностей.
Использование информационных мер для оценки парной зависимости аминокислотных замен.
АНАЛИЗ РЕЖИМА АДАПТИВНОЙ ЭВОЛЮЦИИ В БЕЛКАХ ВИРУСА ГЕПАТИТА С
Материалы и методы. Последовательности ВГС.
Выявление адаптивного режима эволюции.
Оценка статистической зависимости между режимом эволюции ко­ дона и его функциональной нагрузкой.
3.82M
Category: biologybiology

Компьютерная эволюционная биология

1. Компьютерная эволюционная биология

2. Понятие координированных замен аминокислотных остатков

0 Исследование наборов гомологичных последовательностей изофункциональных
белков является одним из важнейших методов анализа в молекулярной биологии.
Предполагается, что в ходе эволюции функция и пространственная структура
белков остаются практически постоянными. Это означает, что физико-химические
характеристики белка, обусловливающие специфическую укладку полипептидной
цепи и функциональные особенности белка, в ходе эволюции также должны
поддерживаться на постоянном уровне.
0 Согласно существующим представлениям, возможны три механизма
консервативности таких характеристик. Первый механизм обусловлен
инвариантностью функционально важных позиций белка. Это означает, что любые
мутации в них приводят к нарушению функции белка. Второй механизм
обусловлен консервативными заменами аминокислот в позициях белка. Эти
замены происходят таким образом, что физико-химические свойства остатка
существенно не меняются. Согласно третьему механизму, дополнительный вклад
в консервативность могут вносить координированные замены аминокислотных
остатков. Это замены в парах или группах позиций белка, которые фиксируются
зависимым образом. В последнее время методы выявления и анализа подобных
замен интенсивно развиваются. Информация, полученная в ходе анализа парных
координированных замен, позволяет получать важные данные о структуре и
функции белка, предсказывать взаимные контакты остатков и улучшать
распознавание типов укладки полипептидных цепей.

3. Обзор подходов к анализу координированных замен

0 Под координированными заменами аминокислот понимаются за мены
двух или нескольких аминокислотных остатков в позициях белковой
последовательности, которые в ходе эволюции фиксируются зависимым
образом. Это означает, что вероятности фиксации различных типов аминокислот
в позиции белка i зависят от типа аминокислотного остатка в позиции белка j.
Предполагается, что данный режим эволюции пары позиций белка реализуется в
случае, если остатки в этих позициях взаимодействуют прямым или
опосредованным образом. В качестве примера таких взаимодействий обычно
рассматривают стерический контакт остатков.
О заменах остатков, компенсаторных по отношению
к их суммарному объему, говорят,
если повреждающий эффект от замены остатка
в одной позиции белка может быть скомпенсирован
заменой в другой позиции последовательности,
так что общий эффект двух замен оказывается
нейтральным. Примером замен, компенсаторных
по отношению к суммарному заряду, могут служить замены
остатков, формирующие солевой мостик.

4. Экспериментальные свидетельства кооперативного эффекта замен остатков

0 Тот факт, что стабильность или активность белка зависит от со-
вместного набора аминокислот в паре (или группе) позиций, может
проявляться в экспериментах по измерению стабильности
(активности) белка как неаддитивность эффекта нескольких
аминокислотных замен. В частности, если при проведении двойных
замен в белковой последовательности обнаружится, что изменение
стабильности белка не равно суммарному изменению стабильности,
полученному в результате каждой из этих замен, то это означает, что
между остатками существуют взаимодействия. Яновский и
сотрудники проанализировали замены аминокислот в районе
активного сайта протеина А триптофан синтетазы и обнаружили,
что одиночные замены приводят к потере функциональной
активности белка. Однако функция белка может быть восстановлена в
результате одновременной замены другого остатка, удаленного на
расстояние в 33 позиции по первичной структуре от первого. На
основании этих данных авторы предположили, что между двумя
удаленными районами полипептидной цепи существуют
функциональные взаимодействия в структуре белка, и предложили
схему этих взаимодействий.

5.

0 В работе [Vemet et al., 1992] проанализированы замены
аминокислотных остатков в зоне контакта двух субъединиц
папаина. Авторами показано, что вклад в стабильность остатков в
паре позиций белка 32 и 162, формирующих междоменный контакт,
не является аддитивным. Характер изменения стабильности
мутантных белков отражал стерические взаимодействия остатков,
поскольку замены, которые приводили к сильному изменению
суммарного объема боковых групп этих двух остатков, являлись
дестабилизирующими. Зависимость функции белка от
специфического сочетания остатков в нескольких его позициях
была также продемонстрирована в работе [Desjarlias, Berg, 1992].
Авторы проанализировали базу данных последовательностей
ДНК-связывающих доменов типа «цинковый палец» и
обнаружили в этих мотивах взаимозависимые замены остатков в
трех позициях ДНК-связывающей спирали (13-й, 15-й и 16-й).
Остатки в этих позициях ответственны за специфическое
распознавание сайтов ДНК. Авторы показали, что специфическое
распознавание мутантными доме нами типа «цинковый палец» двух
различных сайтов ДНК зависит не только от типа аминокислотного
остатка в позиции 13 (Arg или Gin), но и от типов остатков в двух
других позициях последовательности. Более того, для правильного
распознавания необходимы специфические сочетания типов
аминокислот в трех этих позициях.

6.

0 Малкольм и сотрудники рассматривали лизоцимы двух видов
птиц отряда Курообразных (Galliformes). Анализировались три
позиции белка в районе петли, связывающей субдомены
лизоцима. Последовательности различались по всем трем
анализируемым позициям. Были реконструированы белки,
представляющие собой вероятные промежуточные формы на пути
эволюции от одной последовательности к другой в результате
единичных замен. Выяснилось, что 2 из 6 анализируемых мутантов
обладают большей термостабильностью, нежели оба белка дикого
типа. Это факт указывает на кооперативный характер замен в
исследованных позициях лизоцимов.
0 Мэтью и Фершт анализировали термостабильность тетрамерной
формы р53 человека и его мутантных производных. Проводились
замены остатков, как единичные, так и множественные, в позициях
гидрофобного ядра, которые в белках млекопитающих являются
консервативными (позиции 330, 332, 340, 341, 344 и 348).

7. Выявление и анализ координированных замен в последовательностях гомологичных белков.

Задача выявления и анализа координированных замен:
0 рассматривается набор гомологичных аминокислотных последовательностей
изофункционального белкового семейства;
0 предполагается, что все анализируемые белки имеют сходную пространственную
структуру;
0 по набору последовательностей требуется выявить позиции белка, замены в которых
происходят зависимым образом (координированно);
0 на основании информации о зависимых заменах аминокислот не обходимо выявить
особенности пространственной структуры и функции анализируемых белков.
Оценка степени зависимости позиций в белке включает несколько подзадач:
0 выбор меры зависимости аминокислотных замен, оценка значимости выявленных
корреляций;
0 учет эволюционной зависимости анализируемых последовательностей при оценке
значимости выявленных корреляций;
0 учет дальних корреляций, обусловленных опосредованными взаимодействиями
аминокислотных остатков в белке;
0 выбор критерия правильности предсказания координированных замен и интерпретация
полученных результатов;
0 выявление групп позиций, замены в которых происходят координированным образом;
0 анализ взаимосвязи между зависимыми заменами остатков и их функциональной роли в
белках.

8.

0 Основные методы анализа координированных замен
можно условно разделить на две группы. В первую
входят методы, которые основаны на использовании
мер корреляции, ориентированных на специфику
конкретной задачи. К ним можно отнести анализ
паттернов аминокислотных остатков в столбцах
множественного выравнивания, анализ частот
встречаемости аминокислотных замен в парах позиций
выравнивания и частот одновременных замен остатков в
ходе эволюции семейства белков. Во вторую группу
входят методы анализа или их модификации, широко
известные в статистике. В частности, это работы,
основанные на применении теории информации,
линейных коэффициентов корреляции физикохимических характеристик остатков или мер взаимного
сходства остатков, методы максимального
правдоподобия.

9. Проблема учета эволюционной зависимости последовательностей.

0 При оценке зависимости аминокислотных замен в парах
позиций последовательностей белковых семейств
возникает важная проблема. Она состоит в том, что такие
последовательности не являются статистическими
независимыми. Отсутствие статистической
независимости существенным образом может
сказываться на оценке уровня значимости обнаруженных
корреляций. Поэтому филогенетический эффект
необходимо учитывать при анализе белковых данных.

10. Использование информационных мер для оценки парной зависимости аминокислотных замен.

0 При оценке корреляций аминокислотных замен некоторые подходы
используют меры зависимости, основанные на теории информации. В
монографии [Clarke, 1995] для оценки степени зависимости замен в
парах позиций использовалась мера на основе парной информации
0 где Раi , аj - вероятность (наблюдаемая частота) появления пары амино-
кислот типа аi, аj в позициях i, j; Раi - вероятность (наблюдаемая
частота) появления остатка типа аi, в позиции i.
0 Эта мера имеет смысл «взвешенной информации». Вес вклада в
величину С для пары аi, аj равен частоте ее встречаемости.
Преимущество описанной выше меры обосновывается
эмпирическими наблюдениями. Автор указывает, что взвешивание
приводит к выявлению большего числа пар позиций, зависимость
аминокислотных замен в которых находит приемлемое структурное
или функциональное обоснование. Статистическая значимость
величины С определялась в этой работе с помощью перестановочного
теста.

11.

0 В работе [Clarke, 1995] анализировались последовательности
ДНК связывающего домена класса «гомеодомен». Для учета
эволюционной зависимости последовательностей анализ
проводился в три этапа. На первом этапе вычислялись
ковариационные меры С для пар позиций с использованием
полной выборки, содержащей 263 последовательности. Затем в
парах остатков с наибольшим значением меры С выбирались
типы аминокислот, вносящих наибольший вклад в величину С.
Последовательности, содержащие данные типы аминокислот в
указанных позициях, удалялись. Размер новой выборки
составил 173 последовательности. Для них данная процедура
повторялась. В итоге получен набор из 87 последовательностей.
В результате выявлено 16 пар остатков с высокими значениями
ковариационной меры С. Дальнейший анализ показал, что 2
пары остатков из 16 в структуре гомеодомена формируют
солевой мостик (19-30 и 17-52), остатки 31 и 42 образуют
взаимоисключающие контакты с сахарофосфатным остовом
ДНК. Это означает, что в различных структурах белка с
сахарофосфатным остовом может контактировать только один
из пары остатков 31 и 42.

12.

0 Метод оценки парных корреляций с использованием
информационного подхода был предложен в работе
[Korber et al., 1993]. Степень зависимости аминокислотных
замен в паре позиций находилась через величину
взаимной информации M (i, j):
0 Величины энтропии для i-й позиции Н(i) и для пары
позиций Н(i, j) выражаются следующим образом:
0 Здесь P (Si) — частота встречаемости аминокислоты типа
Si в позиции P(Sj,Sj) — частоты встречаемости пары
аминокислот Si и s'j в позициях i и j, соответственно.
Значимость обнаруженной статистической зависимости
оценивалась на основе перестановочного теста.

13.

0 Этот информационный подход получил дальнейшее развитие в
работах Гиро и соавторов, которые использовали в качестве
меры зависимости сходную величину - сумму взвешенных
условных энтропий:
0 Для оценки значимости полученных зависимостей в работе
[Lapedes et al., 1997] предложен подход, использующий
численное моделирование для оценки «корректного» порога
для величины взаимной парной информации. Проводилась
симуляция эволюции белкового семейства согласно модели
независимых замен в позициях белка и эволюционному дереву
анализируемых последовательностей. По распределению
величин парной информации оценивалось ее критическое
значение, такое, что вероятность наблюдать его для
независимых позиций белка будет достаточно низкой.
Полученное критическое значение использовалось далее для
оценки значимости выявленных зависимостей при анализе
реальных данных.

14.

0 В целом результаты, полученные О.Б. Птициным и М.В.
Волькенштейном, Герштейном и соавторами и Кларк,
согласуются с гипотезой о том, что достаточным условием
для формирования ядра является гидрофобная природа его
остатков, а стерические ограничения при заменах аминокислот легко компенсируются перестройками белковой
глобулы.
0 Таким образом, при проведении анализа координированных
замен необходимо использовать меры зависимости замен,
которые по возможности наиболее адекватно отражают
взаимодействия аминокислотных остатков. Вместе с тем,
требуется учитывать как филогенетические особенности
анализируемой выборки, так и опосредованные взаимодействия
в белках. Важными моментами такого анализа являются оценка
вклада координированных замен в постоянство интегральных
физико-химических характеристик белка, а также
сопоставление данных, полученных в ходе корреляционного
анализа, с данными о структурно-функциональной организации
и эволюции исследуемых белков.

15. АНАЛИЗ РЕЖИМА АДАПТИВНОЙ ЭВОЛЮЦИИ В БЕЛКАХ ВИРУСА ГЕПАТИТА С

0 Вирус гепатита С (ВГС) является основной причиной инфекцион ных хронических заболеваний печени.
Вирус относится к семейству Flaviviridae, к роду Hepacivirus, к тому же семейству относится ряд вирусов,
вызывающих различные тропические лихорадки. Размеры вириона, по данным разных методов анализа,
составляют около 30-60 нм. У ВГС + РНК геном имеет одну открытую рамку считывания, ограниченную с
5'- и З'-концов некодирующими областями. Открытая рамка считывания кодирует полипептид-полипротеин, величина которого варьирует у разных изолятов вируса от 3008 до 3037 аминокислотных
остатков. Этот полипротеин расщепляется вирусными и клеточными сигнальными протеазами на
структурные и неструктурные белки.
0
Функциональное изучение белков ВГС затруднено, так как существуют значительные сложности с
культивированием вируса in vitro, а также почти невозможно моделировать заболевание на
лабораторных животных, поскольку единственным модельным объектом в природе является шимпанзе.
Между тем, персистируя в ходе хронической инфекции в организме человека дли тельное время, а также
отличаясь большой скоростью размножения и высокой мутабильностью своего РНК-генома, популяция
вируса обладает возможностью, эволюционируя, уходить от иммунного ответа хозяина. Другим
потенциальным источником изменчивости может служить обмен генетическим материалом с другими
популяциями ВГС. Возможность подобного обмена между отдаленными популяциями облегчается
высокой подвижностью такого хозяина, как человек. Повышение изменчивости ВГС чрезвычайно
затрудняет борьбу с ним. Поэтому важную роль в изучении ВГС и закономерностей его эволюции играют
современные теоретические методы анализа его геномных последовательностей. Одним из таких
подходов является сравнительный и эволюционный анализ последовательностей геномов ВГС.

16.

0 Сравнительный анализ, в частности, позволил выявить шесть основных групп
генотипов, обозначаемых цифрами 1-6, а в пределах генотипа - подтипы,
соответствующие основным группам в популяциях в порядке их открытия (а, Ь,
с...к). Другим важным методом сравнительного анализа служит выявление
режима адаптивной эволюции в последовательностях ВГС, кодирующих белки.
Этот подход основан на сравнении скоростей фиксации синонимических и
несинонимических замен в последовательностях ДНК, кодирующих белки.
Синонимические замены не приводят к изменениям типов аминокислот в белках,
поэтому при условии отбора по структуре или функции белка они являются
нейтральными. Следовательно, значительное увеличение скоростей фиксации
несинонимических замен, по сравнению с синонимическими, является одним из
признаков наличия адаптивного отбора. Участки белка, подверженные
адаптивному отбору, могут являться функционально значимыми участками
молекулы, а адаптивный режим эволюции в целом для гена может
свидетельствовать о приобретении данным геном новой функции.
0 Информация о позициях белков, подверженных движущему отбору, может быть
важной как для функционального анализа белков ВГС, так и для оценки
перспектив борьбы с ним (поиск мишеней для фармакологических препаратов,
антигенных детерминант для вакцинации и т.д.). Настоящая работа посвящена
исследованию адаптивного режима эволюции белков вируса гепатита С человека,
выявлению на основе этих данных особенностей их структурно-функциональной
организации, характера их взаимодействия с клетками иммунной системы, а
также возможностей для их коэволюции в системе «человек- вирус».

17. Материалы и методы. Последовательности ВГС.

0 Последовательности для анализа были взяты из базы данных
последовательностей белков ВГС HCV sequence database, доступной по
адресу http://hcv.lanl.gov/content/ sequence/HCV. Рассматривались
аминокислотные и нуклеотидные последовательности, так как для
построения качественного филогенетического дерева необходимо
аминокислотное выравнивание, а для анализа скоростей накопления
синонимических и не синонимических замен используются
нуклеотидные выравнивания. Для анализа требовались выборки
размером не менее 25-30 выравниваний последовательностей,
имеющих значительную гомологию. Исходя из этого были составлены
выборки следующего состава: 1 (1а + 1с); 2 (2а + 2Ь + 2с); 3 (За + ЗЬ +
Зс); 4,5,6 (4а + 4Ь + 4с + 5а + 5Ь + 5с + 6а + 6Ь + 6с). Последняя выборка
была объединена из нескольких генотипов, вследствие того, что в базе
данных количество последовательностей для отдельного генотипа
оказалось мало. Отдельно была составлена выборка
последовательностей генотипа lb, поскольку это наиболее изученный
генотип ВГС, для которого существует наибольшее количество данных.

18. Выявление адаптивного режима эволюции.

0 Мы использовали критерий отношения скоростей синонимических и несинонимических
замен ω= dN/ds, где dN- скорость фиксации несинонимических замен на сайт, ds скорость фиксации синонимических замен на сайт. Предполагалось, что кодон
подвержен адаптивному отбору, если скорость фиксации синонимических замен ds была
меньше скорости фиксации несинонимических замен dN, т.е. ω > 1. Для оценки параметра
со использовался пакет программ PAML. Данный пакет для оценки ω использует метод
максимального правдоподобия. Оценка ω производится с использованием моделей
эволюции, описывающих замены в отдельных кодонах последовательности. Эти модели
отличались наборами параметров (количеством классов кодонов, разным
гипотетическим давлением отбора и распределением для классов сайтов). Мы
исследовали различные модели, описывающие замены в кодонах и реализованные в
программе PAML, под номерами от 0 до 9. Анализировали полный набор моделей,
предлагаемый программой PAML. Для каждого кодона последовательности оценивалось
среднее взвешенное по всем моделям PAML значение константы ω, с учетом значения
функции максимального правдоподобия так, что значениям параметра ω в моде лях с
большим значением функции правдоподобия придавался больший вес. После этого
дополнительно оценивали число адаптивных позиций в белках, т.е. число позиций, для
которых ω > 1 при р > 0,9. Выравнивания последовательностей проводились с помощью
программы CLUSTALW. Филогенетические деревья строились с использованием
программы РHYML.

19. Оценка статистической зависимости между режимом эволюции ко­ дона и его функциональной нагрузкой.

Оценка статистической зависимости
между режимом эволюции ко дона и его
функциональной нагрузкой.
0 Для оценки статистической зависимости между адаптивным
режимом эволюции кодонов и функцией со ответствующих
аминокислотных остатков был проведен перестановочный тест.
В ходе этого теста каждому кодону сопоставлялось два при
знака. Первый признак S отражал характер замен
(адаптивный/нейтральный). Если в какой-либо из
исследованных нами моделей величина параметра ω
превышала 1 с вероятностью более 0,9, то для такого кодона
признак режима эволюции принимал значение 1 (адаптивный),
в противном случае признак принимал значение 0
(нейтральный). Второй признак F отражал функциональную
нагрузку кодона. Если аминокислотный остаток принадлежал
функциональному сайту, то для такого ко дона его значение
было равно 1, в противном случае - 0.

20.

0 C помощью описанных методов был проведен анализ всех белков генома ВГС.
Результаты анализа адаптивного режима эволюции для белков вируса
гепатита С приведены в таблице. Из этой таблицы видно, что среднее значение
константы ω по всем белкам не превышает величину 0,3. Это свидетельствует
о том, что в кодирующей части генома ВГС фиксируются преимущественно
синонимические замены, т.е. белки ВГС эволюционируют преимущественно
под давлением стабилизирующего отбора. В ходе эволюции вируса такие
факторы, как стабильность и консервативность пространственной
структуры этих белков, являются доминирующими.

21.

Для всех белков вируса было проведено сопоставление адаптивных позиций с
сайтами иммунного ответа и с функциональными сайтами, была оценена
значимость взаимосвязи между адаптивным режимом эволюции и
функциональным свойством позиции. Для того чтобы определить вклад каждого
из указанных факторов в обеспечение адаптивного режима эволюции,
использовался статистический тест, который позволяет оценить значимость
взаимосвязи между адаптивным режимом эволюции и функциональной ролью
позиции белка.

22.

Из таблицы видно, что большинство белков ВГС содержит позиции, подверженные
адаптивной эволюции. Белок Core эволюционирует адаптивно в основном под
воздействием иммунной системы. В нем вы явлено достаточно высокое
количество адаптивных позиций и продемонстрирован высокий уровень
значимости взаимосвязи между адаптивными позициями и сайтами CTL и
рецепторами Т-хелперов. Белки Е1 и Е2 образуют гетеродимер, который
экспонирован на поверхности вирусной мембраны. Считается, что данный
гетеродимер опосредует взаимодействие вируса с клеточными рецепторами на
мембранах гепатоцитов и является основной мишенью для воздействия Вклеточных антител в острую фазу болезни. Для белка NS2 в целом не обнаружена
существенная взаимосвязь с иммунной системой, хотя отдельные адаптивные
позиции избирательно ассоциированы с сайтами или CTL или Т-хелперов. Можно
предположить, что поскольку NS2 играет важную роль в процессинге полипротеина, основная часть адаптивно эволюционирующих позиций связана с
совершенствованием этой его функции. В белке NS3 выявлено достаточно много
позиций, эволюционирующих адаптивно, в то же время из-за большого размера
белка их доля остается достаточно низкой. В целом можно утверждать, что для
данного белка характерен баланс между интенсивной адаптивной эволюцией,
связанной с иммунным ответом, и стабилизирующим отбором, направленным на
поддержание консервативной пространственной структуры, обеспечивающей
функциональную активность данного белка.

23.

0 Белок NS4A имеет достаточно высокое среднее значение ω по белку.
Из-за небольшой длины белка для него получена достаточно большая
доля позиций, эволюционирующих адаптивно. Уровень значимости
взаимосвязи с эпитопами Т-хелперов составляет 98,73 %, совпадений
с эпитопами CTL не обнаружено. Белок NS4B в целом очень
консервативный, среднее значение со для него составляет 0,087498 рекордно низкое для белков ВГС. В дан ном белке выявлено
чрезвычайно мало позиций, эволюционирующих адаптивно, и их доля
очень низка, хотя это достаточно протяженный белок и на нем
картировано несколько эпитопов CTL и Т-хелперов. Выявленные
позиции демонстрируют высокую корреляцию как с эпи топами Тхелперов, так и с CTL. Белок NS5A предположительно является
активатором транскрипции некоторых генов. Он эволюционирует
адаптивно - характерно как высокое число адаптивных позиций, так и
их достаточно высокая доля, но уровень значимости взаимосвязи с
функциональными сайтами остается незначительным. Белок NS5B
является одной из основных мишеней для создания лекарственных
препаратов против ВГС. Белок чрезвычайно быстро эволюционирует,
в нем выявлено самое большое по сравнению с другими белками
вируса число адаптивных позиций. Последние в целом ассоциированы
с эпитопами как CTL, так и Т-хелперов, обнаружена высокая
корреляция между расположением адаптивных позиций и эпитопов.
NS5B, так же как и NS5A, фосфорилируется на С-конце, что объясняет
достаточно высокую корреляцию с функциональными сайтами.
0 Таким образом, результаты анализа кодирующих районов генома ВГС
позволили выявить адаптивную эволюцию для ряда позиций белков.
English     Русский Rules