El enfoque bayesiano en filogenética permite obtener el árbol filogenético más probable dados los datos iniciales, las secuencias de ADN o proteínas de los organismos en consideración y el modelo de reemplazo evolutivo [1] . Para reducir la complejidad computacional del algoritmo, el cálculo de la probabilidad posterior se implementa mediante varios algoritmos utilizando el método de Monte Carlo para cadenas de Markov [2] . Las principales ventajas del enfoque bayesiano en comparación con los métodos de máxima verosimilitud y máxima parsimonia son la eficiencia computacional, la capacidad de trabajar con modelos complejos de evolución y también que, a diferencia de los métodos que apuntan a un solo mejor árbol de acuerdo con un criterio dado, te permite seleccionar varias variantes del árbol filogenético con el mayor valor de la probabilidad posterior [3] .
El enfoque bayesiano es un desarrollo del método probabilístico desarrollado por el matemático y sacerdote inglés Thomas Bayes basado en el teorema de Bayes . Este método fue publicado en 1763 [4] , dos años después de su muerte. Posteriormente, la formulación moderna del teorema fue desarrollada por Pierre-Simon Laplace [1] .
En 1953, Nicholas Metropolis introdujo métodos de Monte Carlo para cadenas de Markov (MCMC, Markov chain Monte Carlo) [5] . Las ventajas en la velocidad computacional y la capacidad de integración con los métodos MCMC han permitido que el enfoque bayesiano se convierta en uno de los métodos más populares de inferencia estadística . El enfoque bayesiano tiene muchas aplicaciones en filogenética y sistemática molecular . En comparación con otros métodos de construcción de árboles filogenéticos (máxima parsimonia, máxima verosimilitud ), permite la incertidumbre filogenética, el uso de información a priori y modelos complejos de evolución , para los cuales los métodos tradicionales tienen limitaciones computacionales.
La aplicación del enfoque bayesiano en filogenética es la siguiente. Todo el conjunto de árboles filogenéticos admisibles se describe mediante parámetros discretos (topología del árbol) y parámetros continuos (longitud de las ramas del árbol y parámetros del modelo de reemplazo evolutivo). Para calcular el valor de la densidad de distribución de probabilidad posterior para un árbol con topología y parámetros , dados datos iniciales , se aplica la fórmula bayesiana , donde es la densidad de distribución de probabilidad condicional de los datos iniciales . El denominador de esta fórmula se calcula utilizando la fórmula de probabilidad total como una suma de integrales del producto de , donde es la densidad de distribución a priori para los árboles [6] . Los cálculos analíticos explícitos que utilizan esta fórmula no siempre son posibles, y los numéricos requieren una gran cantidad de cálculos cuando se busca el máximo de la función con respecto a . La aplicación del método de prueba estadístico (también llamado método de Monte Carlo) sobre cadenas de Markov permite obtener valores aproximados de las probabilidades posteriores y reducir la complejidad computacional del algoritmo para encontrar el árbol más probable por la máxima probabilidad posterior criterio.
En los métodos MCMC, la densidad posterior se calcula simulando el trabajo de una cadena de Markov, cuyos estados son árboles filogenéticos [2] . El cálculo de la densidad posterior se realiza como la frecuencia de visita a estos estados en estado estacionario. El árbol más probable está determinado por la frecuencia máxima del estado más visitado, o varios de los más visitados. Los métodos MCMC se pueden describir en dos etapas: la primera utiliza un mecanismo estocástico para obtener un nuevo estado de la cadena de Markov ; en el segundo, se calcula la probabilidad de transición a este estado y se reproduce un evento de cambio de estado aleatorio. Este procedimiento se repite miles o millones de veces. La fracción de tiempo que se visita un solo árbol durante una cadena de Markov es una aproximación bastante precisa de su probabilidad posterior. Los algoritmos más utilizados en los métodos MCMC incluyen el algoritmo Metropolis-Hastings, el algoritmo Metropolis en combinación con MCMC (MC³) y el algoritmo LOCAL de Larget y Simon.
El algoritmo Metropolis-Hastings [7] es uno de los métodos MCMC más comunes y es una versión modificada del algoritmo Metropolis [5] de Hastings . El algoritmo Metropolis-Hastings construye una implementación aleatoria de una cadena de Markov cuyos estados son árboles filogenéticos. Al simular un cambio de estado, en cada paso se realiza una transición de un árbol a otro cambiando la topología o los parámetros del modelo evolutivo de acuerdo con una determinada regla. El algoritmo consta de los siguientes pasos [8] :
(por medio de la probabilidad condicional o densidad de distribución para datos iniciales dados );
El algoritmo original de Metropolis asume que las probabilidades de transiciones de árbol a árbol y viceversa son iguales. Si esta condición no se cumple, entonces se aplican las correcciones de Hastings, que consisten en lo siguiente: la probabilidad de transición se calcula mediante la fórmula , donde es la función de distribución conjunta.
El MCMC acoplado a Metropolis (MC³) [9] , también conocido como algoritmo de recocido paralelo , es una versión modificada del algoritmo Metropolis-Hastings para cadenas de Markov con distribuciones de probabilidad de estado complejas y multimodales. Para estos casos, los algoritmos de búsqueda de árboles heurísticos que utilizan MP (método de máxima parsimonia), ML ( método de máxima verosimilitud ) y ME (método de mínima evolución), así como MCMS, pueden alcanzar un máximo local, lo que conducirá a una aproximación incorrecta de la densidad de distribución de probabilidad posterior. El algoritmo MC³, al mezclar cadenas de Markov con diferentes temperaturas, permite aproximar correctamente la distribución de probabilidades posteriores y evitar caer en óptimos locales.
El algoritmo ejecuta cadenas en paralelo, mediante iteraciones en cada cadena con diferentes distribuciones estacionarias , donde la primera distribución con la densidad objetivo se denomina cadena fría, y otras cadenas con distribuciones se denominan calentadas [10] . Las densidades de distribución de los circuitos calentados tienen la forma:
donde es el factor de temperatura.Elevar la densidad a una potencia at tiene el efecto de aplanar la distribución, por analogía con calentar un metal. En esta distribución, es más fácil moverse entre picos separados por valles que en la distribución original. Después de cada iteración, el algoritmo instruye a realizar un intercambio de estado entre dos circuitos seleccionados al azar utilizando el paso propuesto por Metropolis. El intercambio entre los estados y ocurre con la probabilidad:
donde está el estado actual en la cadena numerada , [11] .Heurísticamente, las cadenas calientes visitarán los picos locales con bastante facilidad, y el intercambio de estado entre cadenas permitirá que una cadena fría a veces salte sobre los valles. Si es demasiado pequeño, rara vez se producirá un intercambio de estado, por lo que el algoritmo utiliza múltiples circuitos con diferentes factores de temperatura para mejorar la mezcla [6] .
Para obtener una distribución de probabilidad estacionaria, solo se utilizan los estados de la cadena de frío y se descartan los estados de los circuitos calefaccionados.
Para generar un nuevo estado de una cadena de Markov, existen varias formas probabilísticas de modificar árboles, por ejemplo, bisección con posterior reinserción, intercambio de ramas, reemplazo con un árbol vecino más cercano. Los algoritmos LOCAL [2] y GLOBAL [12] ofrecen otra forma de construir un nuevo árbol basado en el actual cambiando la topología y las longitudes de las ramas. Esto da como resultado una reducción significativa en los cálculos para árboles grandes en comparación con los algoritmos de arranque para los métodos de máxima verosimilitud y máxima parsimonia .
La idea general es que un árbol se representa como los siguientes parámetros: la topología del árbol y la longitud de sus ramas, así como los parámetros del modelo de reemplazo . Cuando los estados de la cadena de Markov cambian, se realizan pasos sucesivos, en los que la topología del árbol y la longitud de sus ramas cambian por separado, o solo cambian los parámetros del modelo de reemplazo. La decisión de pasar a un nuevo árbol como el estado actual de la cadena de Markov se toma de la misma manera que en el algoritmo de Metropolis-Hastings , pero el valor de probabilidad umbral se calcula utilizando los parámetros del árbol modificado.
En el algoritmo GLOBAL [12] introducido por Mau, Newton y Larget en 1999, todas las longitudes de las ramas de los árboles cambian en una pequeña cantidad en cada ciclo. El algoritmo LOCAL de Larget y Simon [2] consiste en modificar un árbol en un pequeño vecindario de una rama interna del árbol seleccionada al azar.
La construcción de un nuevo árbol en el algoritmo LOCAL al modificar la topología y las longitudes de las ramas se realiza de acuerdo con la siguiente regla: un borde interno arbitrario del árbol con vértices y se selecciona con igual probabilidad . Debido a que el árbol filogenético debe ser binario y la arista es interna, cada uno de los vértices debe tener dos adyacentes. Los vértices adyacentes para se denotan arbitrariamente con letras y , y los vértices adyacentes para se denotan con letras y . Además, para los vértices y , es igualmente probable que se seleccione uno adyacente, por ejemplo, y , y se considera el camino entre los vértices y , que consta de tres aristas. Las longitudes de estos bordes se modifican proporcionalmente al multiplicar por un número aleatorio de acuerdo con la regla , donde es la longitud del camino anterior, es la longitud del camino nuevo, es una variable aleatoria uniformemente distribuida en el segmento y es un parámetro ajustable positivo. El siguiente paso para modificar el árbol consiste en separar uno de los vértices, o , elegido con igual probabilidad, y unirlo en un punto elegido al azar de acuerdo con una ley uniforme en el camino de vértice a vértice , junto con su rama secundaria. Con tal modificación, es posible cambiar la topología del árbol si el orden de los vértices y a lo largo del camino ha cambiado, de lo contrario, la topología del árbol no cambia. La corrección de Hastings es igual al cuadrado de la relación de las longitudes de los caminos nuevos y antiguos: .
Al modificar los parámetros del modelo, el algoritmo considera dos opciones: en la primera opción, cuando un parámetro está limitado por el conjunto de valores , el nuevo valor del parámetro se calcula agregando una variable aleatoria uniformemente distribuida del intervalo . Si el nuevo valor está fuera del rango permitido [2] , el resto se refleja dentro de este segmento. La corrección de Hastings se toma igual a 1. La segunda opción es el caso cuando se modifica un conjunto de parámetros cuya suma es igual a una constante. En este caso, se elige un nuevo conjunto de valores para estos parámetros a partir de una distribución de Dirichlet centrada en los valores actuales de los parámetros. La corrección de Hastings se calcula como la relación de las densidades de Dirichlet con los parámetros nuevos y antiguos.
MrBayes Archivado el 25 de septiembre de 2018 en Wayback Machine es un programa gratuito que realiza análisis de filogenia bayesiana. Escrito originalmente por John Huelsenbeck y Frederik Roncust en 2001 [16] . A medida que los métodos bayesianos se hicieron populares, muchos filogenéticos moleculares comenzaron a elegir MrBayes. El programa utiliza el algoritmo MCMC estándar y el algoritmo Metropolis asociado con MCMC.
MrBayes utiliza MSMS para aproximar las probabilidades posteriores de los árboles [5] . El usuario puede cambiar las suposiciones sobre el modelo de sustitución, las probabilidades previas y los detalles del análisis de MS. El programa también le permite eliminar y agregar taxones y símbolos para su análisis. Se puede utilizar una amplia gama de modelos de sustitución en el programa , desde el modelo estándar de sustitución de ADN 4x4, también llamado JC69, en el que se supone que las frecuencias de base son iguales y todas las sustituciones de nucleótidos se producen con la misma probabilidad [17] , hasta el modelo más general Modelo GTR, en el cual y frecuencias base y probabilidades de sustitución. El programa también incluye varios modelos de sustitución de aminoácidos de 20x20, modelos de sustitución de ADN de codones y dobletes. El programa ofrece varios métodos para debilitar la suposición de tasas de sustitución iguales en las posiciones de nucleótidos [18] . MrBayes también puede generar estados hereditarios que contienen la incertidumbre del árbol filogenético y los parámetros del modelo.
MrBayes 3 [19] es una versión completamente refactorizada y de ingeniería inversa del programa original de MrBayes. La principal innovación es la capacidad del programa para adaptarse a la heterogeneidad de los conjuntos de datos. Esta estructura permite al usuario mezclar modelos y aprovechar el rendimiento del análisis MCMC bayesiano cuando se trata de diferentes tipos de datos (p. ej., proteínas, nucleótidos, datos morfológicos). De forma predeterminada, el programa utiliza el algoritmo Metropolis MSMS.
MrBayes 3.2 es una nueva versión de MrBayes lanzada en 2012 [20] . La nueva versión permite al usuario ejecutar múltiples análisis en paralelo. También proporciona cálculos de probabilidad más rápidos y la capacidad de usar recursos de GPU para realizar estos cálculos. La versión 3.2 proporciona más opciones de salida que son compatibles con FigTree y otros visores de árboles.
El nombre del programa | Descripción | Método | Los autores | Enlace |
---|---|---|---|---|
Plataforma de flujo de trabajo Armadillo | Un programa diseñado para el análisis filogenético y bioinformático general | Derivación de árboles filogenéticos utilizando ML, MP, enfoque bayesiano, etc. | E. Lord, M. Leclercq, A. Boc, AB Diallo, V. Makarenkov [21] | https://web.archive.org/web/20161024081942/http://www.bioinfo.uqam.ca/armadillo/ . |
Fisioterapia de Bali | Obtener la alineación y el árbol simultáneamente según el enfoque bayesiano | Inferencia bayesiana de alineaciones y árboles filogenéticos | MA Suchard, BD Redelings [22] | http://www.bali-phy.org Archivado el 22 de marzo de 2021 en Wayback Machine . |
MURCIÉLAGO | Inferencia de árboles por método bayesiano con creación de nodos internos | Análisis bayesiano, historia demográfica, método de división de la población | IJ Wilson, D. Weale, D. Balding [23] | http://heidi.chnebu.ch/doku.php?id=batwing Archivado el 5 de mayo de 2016 en Wayback Machine . |
filogenias bayesianas | Inferencia del árbol bayesiano utilizando métodos de Monte Carlo para cadenas de Markov y Metropolis combinados con MCMC | Análisis bayesiano, modelos múltiples y mixtos (con partición automática) | M. Pagel, A. Meade [24] | http://www.evolution.rdg.ac.uk/BayesPhy.html Archivado el 19 de febrero de 2020 en Wayback Machine . |
PhyloBayes/PhyloBayes MPI | Muestreador MCMC para reconstrucciones filogenéticas. | MCMC, un modelo CAT probabilístico que considera nucleótidos o aminoácidos específicos del sitio | N. Lartillot, N. Rodrigue, D. Stubbs, J. Richer [25] | https://web.archive.org/web/20181218053945/http://www.phylobayes.org/ |
BESTIA | Análisis de secuencias moleculares con MCMC (Bayesian Evolutionary Analysis Sampling Trees) | Análisis bayesiano, reloj molecular relajado, historia demográfica | A. J. Drummond, A. Rambaut y M. A. Suchard [26] | http://beast.bio.ed.ac.uk Archivado el 22 de diciembre de 2007 en Wayback Machine . |
BUCKy | Coincidencia bayesiana de árboles filogenéticos para genes | Coincidencia bayesiana utilizando consenso codicioso modificado para cuartetos no rooteados | C. Ané, B. Larget, DA Baum, SD Smith, A. Rokas, B. Larget, SK Kotha, CN Dewey, C. Ané [27] | http://www.stat.wisc.edu/~ane/bucky/ Archivado el 24 de febrero de 2019 en Wayback Machine . |
Geneious (complemento de MrBayes) | Herramientas para el estudio de genomas y proteomas | Unión de vecinos , UPGMA, complementos de MrBayes, PHYML, RAxML, FastTree, GARLi, PAUP* | AJ Drummond, M. Suchard, V. Lefort y otros [28] | http://www.geneious.com Archivado el 26 de enero de 2021 en Wayback Machine . |
TOPALi | Inferencia filogenética | Selección de modelos filogenéticos, análisis bayesiano y evaluación de máxima verosimilitud de árboles filogenéticos, determinación de sitios bajo selección positiva, análisis de posición de puntos de recombinación | I. Milne, D. Lindner y otros [29] | http://www.topali.org Archivado el 9 de abril de 2021 en Wayback Machine . |
El enfoque bayesiano es ampliamente utilizado por filogenéticos moleculares para varias aplicaciones: