Модели эволюции ДНК - Models of DNA evolution

Был предложен ряд различных марковских моделей эволюции последовательности ДНК . Эти модели замещения различаются параметрами, используемыми для описания скоростей, с которыми один нуклеотид заменяет другой в ходе эволюции. Эти модели часто используются в молекулярно-филогенетическом анализе . В частности, они используются при вычислении вероятности дерева (в байесовском подходе и подходе максимального правдоподобия к оценке дерева), и они используются для оценки эволюционного расстояния между последовательностями на основе наблюдаемых различий между последовательностями.

Вступление

Эти модели являются феноменологическим описанием эволюции ДНК как цепочки из четырех дискретных состояний. Эти марковские модели не описывают явно ни механизм мутации, ни действие естественного отбора. Скорее они описывают относительную скорость различных изменений. Например, мутационные смещения и очищающий отбор в пользу консервативных изменений, вероятно, оба ответственны за относительно высокую скорость переходов по сравнению с трансверсиями в развивающихся последовательностях. Однако модель Кимуры (K80), описанная ниже, пытается только уловить эффект обеих сил в параметре, который отражает относительную скорость переходов к трансверсиям.

Эволюционный анализ последовательностей проводится в самых разных временных масштабах. Таким образом, эти модели удобно выражать в терминах мгновенных скоростей изменения между различными состояниями ( матрицы Q ниже). Если нам дано начальное (наследственное) состояние в одной позиции, Q- матрица модели и длина ветви, выражающая ожидаемое количество изменений, которые должны произойти с момента предка, то мы можем вывести вероятность того, что дочерняя последовательность будет иметь каждый из четырех состояния. Математические детали этого перехода от скорости-матрицы к матрице вероятности описаны в математике моделей замещения раздела на замену модели страницы. Выражая модели в терминах мгновенных скоростей изменений, мы можем избежать оценки большого количества параметров для каждой ветви филогенетического дерева (или каждого сравнения, если анализ включает множество парных сравнений последовательностей).

Модели, описанные на этой странице, описывают эволюцию отдельного сайта в рамках набора последовательностей. Они часто используются для анализа эволюции всего локуса , делая упрощающее предположение, что разные сайты развиваются независимо и одинаково распределены . Это предположение может быть оправдано, если можно предположить, что объекты развиваются нейтрально . Если первичный эффект естественного отбора на эволюцию последовательностей заключается в ограничении некоторых сайтов, то можно использовать модели межсайтовой гетерогенности по скорости. Этот подход позволяет оценить только одну матрицу относительных скоростей замещения и другой набор параметров, описывающих дисперсию общей скорости замещения по сайтам.

Эволюция ДНК как марковская цепь с непрерывным временем

Цепи Маркова с непрерывным временем

Цепи Маркова с непрерывным временем имеют обычные переходные матрицы, которые, кроме того, параметризованы временем ,. В частности, если есть состояния, то матрица перехода

где каждая отдельная запись относится к вероятности того, что состояние изменится на состояние со временем .

Пример: мы хотели бы смоделировать процесс замены в последовательностях ДНК ( например, Джакса – Кантора , Кимуры и т. Д. ) В непрерывном режиме времени. Соответствующие матрицы переходов будут выглядеть так:

где верхний левый и нижний правый блоки 2 × 2 соответствуют вероятностям перехода, а верхний правый и нижний левый блоки 2 × 2 соответствуют вероятностям трансверсии .

Предположение: если в какой-то момент цепь Маркова находится в состоянии , то вероятность того, что в какой- то момент она будет в состоянии, зависит только от , и . Это позволяет нам записать эту вероятность как .

Теорема. Матрицы переходов с непрерывным временем удовлетворяют:

Примечание: здесь возможна путаница между двумя значениями слова « переход» . (i) В контексте цепей Маркова переход - это общий термин для перехода между двумя состояниями. (ii) В контексте нуклеотидных изменений в последовательностях ДНК переход - это особый термин для обмена между двумя пуринами (A ↔ G) или двумя пиримидинами (C ↔ T) (дополнительные сведения см. в статье о переходах в генетике ). Напротив, обмен между одним пурином и одним пиримидином называется трансверсией .

Вывод динамики замещения

Рассмотрим последовательность ДНК фиксированной длины m, эволюционирующую во времени за счет замены оснований. Предположим, что процессы, за которыми следуют m узлов, являются марковскими независимыми, одинаково распределенными и что процесс постоянен во времени. Для конкретного сайта пусть

- набор возможных состояний сайта, и

их соответствующие вероятности во времени . Для двух различных , позвольте быть скоростью перехода из состояния в состояние . Аналогичным образом , для любого , пусть суммарной скорости изменения от В

Изменения в распределении вероятностей для малых приращений времени даются выражением

Другими словами (на частотном языке), частота «s» в определенный момент времени равна частоте «s» во времени минус частота потерянных «s» плюс частота вновь созданных «s».

Аналогично для вероятностей , и . Эти уравнения можно компактно записать как

куда

называется матрицей ставок . Обратите внимание, что по определению сумма записей в каждой строке равна нулю. Следует, что

Для стационарного процесса , не зависящего от времени t , это дифференциальное уравнение может быть решено. Первый,

где обозначает экспоненту матрицы . Как результат,

Эргодичность

Если цепь Маркова неприводима , т. Е. Если всегда можно перейти из состояния в состояние (возможно, за несколько шагов), то она также эргодична . В результате оно имеет уникальное стационарное распределение , которое соответствует доле времени, проведенного в состоянии после того, как цепь Маркова проработала бесконечное количество времени. В эволюции ДНК, в предположении общего процесса для каждого сайта, стационарные частоты соответствуют равновесным базовым композициям. В самом деле, обратите внимание, что, поскольку стационарное распределение удовлетворяет , мы видим, что когда текущее распределение является стационарным распределением, мы имеем

Другими словами, частоты не меняются.

Обратимость времени

Определение : Стационарный марковский процесс обратим во времени, если (в установившемся состоянии) величина изменения от состояния до равна величине изменения от до (хотя эти два состояния могут возникать с разными частотами). Это означает, что:

Не все стационарные процессы обратимы, однако наиболее часто используемые модели эволюции ДНК предполагают обратимость во времени, что считается разумным предположением.

В предположении обратимости времени let легко увидеть, что:

Определение Симметричный член называется взаимозаменяемостью между состояниями и . Другими словами, это доля частоты состояния, которая является результатом переходов из состояния в состояние .

Следствие 12 недиагональных элементов матрицы скорости (обратите внимание, что недиагональные элементы определяют диагональные элементы, так как строки суммы равны нулю) могут быть полностью определены 9 числами; это: 6 членов взаимозаменяемости и 3 стационарные частоты (так как сумма стационарных частот равна 1).

Масштабирование длин ветвей

Сравнивая существующие последовательности, можно определить степень расхождения последовательностей. Это необработанное измерение расхождения предоставляет информацию о количестве изменений, произошедших на пути, разделяющем последовательности. Простой подсчет различий ( расстояние Хэмминга ) между последовательностями часто приводит к недооценке количества замен из-за множественных совпадений (см. Гомоплазию ). Пытаться оценить точное количество произошедших изменений сложно и обычно не требуется. Вместо этого длина ветвей (и длина пути) в филогенетическом анализе обычно выражается в ожидаемом количестве изменений на сайт. Длина пути - это произведение продолжительности пути во времени и средней скорости замен. Хотя их продукт можно оценить, скорость и время невозможно определить по расхождению последовательностей.

Описания матриц ставок на этой странице точно отражают относительную величину различных замен, но эти матрицы ставок не масштабируются таким образом, что длина ветви, равная 1, дает одно ожидаемое изменение. Это масштабирование может быть выполнено путем умножения каждого элемента матрицы на один и тот же коэффициент или просто путем масштабирования длин ветвей. Если мы используем β для обозначения коэффициента масштабирования и ν для обозначения длины ветви, измеренной в ожидаемом количестве замен на сайт, тогда βν используется в приведенных ниже формулах вероятности перехода вместо μ t . Обратите внимание, что ν - это параметр, который оценивается по данным, и называется длиной ветви, в то время как β - это просто число, которое можно вычислить из матрицы скорости (это не отдельный бесплатный параметр).

Значение β можно найти, установив ожидаемую скорость потока состояний равной 1. Диагональные элементы матрицы скорости ( Q- матрицы) представляют -1 кратную скорость выхода из каждого состояния. Для моделей с обратимым во времени мы знаем частоты равновесного состояния (это просто значение параметра π i для состояния i ). Таким образом, мы можем найти ожидаемую скорость изменения, вычислив сумму потоков из каждого состояния, взвешенную по доле сайтов, которые, как ожидается, будут в этом классе. Установка β равной величине, обратной этой сумме, гарантирует, что масштабируемый процесс будет иметь ожидаемый поток 1:

Например, в Jukes-Cantor коэффициент масштабирования будет 4 / (3μ), потому что скорость выхода из каждого состояния составляет 3μ / 4 .

Наиболее распространенные модели эволюции ДНК

Модель JC69 (Джукс и Кантор, 1969)

JC69, модель Джукса и Кантора 1969 года, является простейшей моделью замещения . Есть несколько предположений. Он предполагает одинаковые базовые частоты и одинаковые частоты мутаций . Таким образом, единственным параметром этой модели является общий коэффициент замещения. Как упоминалось ранее, эта переменная становится постоянной, когда мы нормализуем среднюю скорость до 1.

Вероятность перехода от начального состояния к конечному как функция длины ветви ( ) для JC69. Красная кривая: состояния нуклеотидов и разные. Синяя кривая: начальное и конечное состояния одинаковы. По прошествии длительного времени вероятности стремятся к частотам равновесия нуклеотидов (0,25: пунктирная линия).

Когда длина ветви, измеряется в ожидаемом количестве изменений на сайт, тогда:

Стоит отметить, что то , что обозначает сумму любого столбца (или строки) матрицы, умноженную на время и, таким образом, означает ожидаемое количество замен во времени (длительность ветвления) для каждого конкретного сайта (на сайт), когда скорость замены равна .

Учитывая долю сайтов, которые различаются между двумя последовательностями, оценка Джукса-Кантора эволюционного расстояния (с точки зрения ожидаемого числа изменений) между двумя последовательностями дается выражением

В этой формуле часто называют -дистанцией. Это достаточный статистический показатель для расчета поправки на расстояние Джукса-Кантора, но его недостаточно для расчета эволюционного расстояния в более сложных моделях, которые следуют ниже (также обратите внимание, что используемые в последующих формулах не идентичны « -дистанции») .

Модель К80 (Кимура 1980)

K80, модель Кимуры 1980, часто называемая двухпараметрической моделью Кимуры (или моделью K2P ), различает переходы ( то есть от пурина к пурину или , то есть от пиримидина к пиримидину) и трансверсии (от пурина к пиримидину или наоборот). наоборот). В первоначальном описании модели Кимурой α и β использовались для обозначения скоростей этих типов замен, но теперь более распространено устанавливать скорость трансверсий на 1 и использовать κ для обозначения отношения скорости перехода / трансверсии (как делается ниже). Модель K80 предполагает, что все базы одинаковы ( ).

Скорость матрица , столбцы , , и , соответственно.

Двухпараметрическое расстояние Кимуры определяется как:

где p - доля сайтов, показывающих переходные различия, а q - доля сайтов, показывающих трансверсионные различия.

Модель К81 (Кимура 1981)

K81, то Кимура тысяча девятьсот восемьдесят одна модель, которую часто называют три модели параметра Кимуров (модель K3P) или Кимура три типа замещения (K3ST) модель, имеет различные тарифы для переходов и два различных типа трансверсий . Два типа трансверсии - это те, которые сохраняют слабые / сильные свойства нуклеотидов (т. Е. И , обозначаются символом ), и те, которые сохраняют амино / кето-свойства нуклеотидов (то есть, и , обозначаются символом ). Модель K81 предполагает, что все равновесные базовые частоты равны (т. Е. ).

Скорость матрица , столбцы , , и , соответственно.

Модель K81 используется гораздо реже, чем модель K80 (K2P) для оценки расстояния, и она редко является наиболее подходящей моделью в филогенетике максимального правдоподобия. Несмотря на эти факты, модель K81 продолжала изучаться в контексте математической филогенетики. Одним из важных свойств является способность выполнять преобразование Адамара, предполагая, что шаблоны сайтов были сгенерированы на дереве с нуклеотидами, эволюционирующими в рамках модели K81.

При использовании в контексте филогенетики преобразование Адамара обеспечивает элегантное и полностью обратимое средство для вычисления ожидаемых частот паттернов сайтов с учетом набора длин ветвей (или наоборот). В отличие от многих вычислений максимального правдоподобия, относительные значения для , и могут варьироваться в зависимости от ветви, и преобразование Адамара может даже предоставить свидетельство того, что данные не соответствуют дереву. Преобразование Адамара также можно комбинировать с широким спектром методов для согласования неоднородности скорости между сайтами, используя непрерывные распределения, а не дискретные приближения, обычно используемые в филогенетике максимального правдоподобия (хотя нужно пожертвовать обратимостью преобразования Адамара, чтобы использовать определенные из них. -сайты оценивают неоднородность распределения).

Модель F81 (Felsenstein 1981)

F81, модель Фельзенштейна 1981 года, является расширением модели JC69, в которой базовые частоты могут изменяться от 0,25 ( )

Матрица оценок:

Когда длина ветви, ν, измеряется в ожидаемом количестве изменений на сайт, тогда:

Модель HKY85 (Hasegawa, Kishino и Yano 1985)

HKY85, модель Hasegawa, Kishino and Yano 1985 года, может рассматриваться как объединение расширений, сделанных в моделях Kimura80 и Felsenstein81. А именно, он различает скорость переходов и трансверсий (с использованием параметра κ) и допускает неравные базовые частоты ( ). [Фельзенштейн описал аналогичную (но не эквивалентную) модель в 1984 году, используя другую параметризацию; эта последняя модель упоминается как модель F84. ]

Матрица ставок

Если мы выразим длину ветви ν через ожидаемое количество изменений на сайте, тогда:

а формула для других комбинаций состояний может быть получена путем подстановки соответствующих базовых частот.

Модель Т92 (Тамура 1992)

T92, модель Тамуры 1992, представляет собой математический метод, разработанный для оценки количества нуклеотидных замен на сайт между двумя последовательностями ДНК путем расширения двухпараметрического метода Кимуры (1980) на случай, когда существует систематическая ошибка содержания G + C. Этот метод будет полезен при наличии сильных предубеждений в отношении трансверсии перехода и содержания G + C, как в случае митохондриальной ДНК дрозофилы .

T92 включает в себя один составной параметр базовой частоты (также отмечен )

Поскольку T92 перекликается со вторым правилом четности Чаргаффа - спаривающиеся нуклеотиды имеют одинаковую частоту на одной цепи ДНК, G и C с одной стороны, и A и T с другой стороны - из этого следует, что четыре базовые частоты могут быть выражены как функция

а также

Матрица ставок

Эволюционное расстояние между двумя последовательностями ДНК согласно этой модели определяется выражением

где и - содержание G + C ( ).

Модель TN93 (Тамура и Ней 1993)

TN93, модель Тамуры и Нея 1993 года, различает два разных типа перехода ; ie ( ) может иметь скорость, отличную от ( ). Предполагается, что все трансверсии происходят с одинаковой скоростью, но эта скорость может отличаться от обеих скоростей переходов.

TN93 также допускает неравные базовые частоты ( ).

Матрица ставок

Модель GTR (Tavaré 1986)

ОТО, Обобщенная обратимая во времени модель Таваре 1986 года, является наиболее общей из возможных нейтральных, независимых, конечных узлов и обратимой во времени модели. Впервые в общей форме он был описан Симоном Таваре в 1986 году.

Параметры ОТО состоят из вектора равновесной базовой частоты , задающего частоту, с которой каждое основание встречается в каждом узле, и матрицы скоростей

Где

параметры скорости перехода.

Следовательно, ОТО (для четырех символов, как это часто бывает в филогенетике) требует 6 параметров скорости замещения, а также 4 параметра равновесной базовой частоты. Однако обычно это устраняется до 9 параметров плюс общее количество замен в единицу времени. При измерении времени в подстановках ( = 1) остается всего 8 свободных параметров.

В общем, чтобы вычислить количество параметров, нужно подсчитать количество записей над диагональю в матрице, то есть для n значений признаков на сайт , а затем добавить n для равновесных базовых частот и вычесть 1, потому что это фиксировано. Один получает

Например, для аминокислотной последовательности (существует 20 «стандартных» аминокислот, из которых состоят белки ), можно найти 209 параметров. Однако при изучении кодирующих областей генома чаще работают с моделью замены кодонов (кодон состоит из трех оснований и кодирует одну аминокислоту в белке). Есть кодоны, но скорости для переходов между кодонов , которые отличаются более чем одним основанием принимается равным нулю. Значит, есть параметры.

Смотрите также

использованная литература

дальнейшее чтение

  • Гу X, Ли WH (сентябрь 1992 г.). «Более высокие показатели замены аминокислот у грызунов, чем у человека». Молекулярная филогенетика и эволюция . 1 (3): 211–4. DOI : 10.1016 / 1055-7903 (92) 90017-B . PMID  1342937 .
  • Ли У.Х., Эллсуорт Д.Л., Крушкал Дж., Чанг Б.Х., Хьюетт-Эммет Д. (февраль 1996 г.). «Скорость замены нуклеотидов у приматов и грызунов и гипотеза эффекта времени поколения». Молекулярная филогенетика и эволюция . 5 (1): 182–7. DOI : 10.1006 / mpev.1996.0012 . PMID  8673286 .

внешние ссылки

  • DAWG: DNA Assembly With Gaps - бесплатное программное обеспечение для моделирования эволюции последовательностей