Ensamblaje del genoma

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 16 de diciembre de 2019; las comprobaciones requieren 5 ediciones .

El ensamblaje del genoma es el proceso de combinar una gran cantidad de fragmentos cortos de ADN (lecturas) en una o más secuencias largas ( contigs y andamios) para restaurar las secuencias de ADN de los cromosomas de los que surgieron estos fragmentos durante la secuenciación .

El ensamblaje de un genoma es una tarea computacional muy compleja, en particular, complicada por el hecho de que los genomas a menudo contienen una gran cantidad de secuencias repetitivas idénticas (las llamadas repeticiones genómicas). Estas repeticiones pueden tener varios miles de nucleótidos de largo y también ocurren en miles de lugares diferentes en el genoma. Los grandes genomas de plantas y animales, incluido el genoma humano, son especialmente ricos en repeticiones.

Enfoques algorítmicos

Existen dos enfoques para ensamblar genomas: uno basado en consenso de diseño superpuesto (utilizado para fragmentos largos) y otro basado en gráficos de Bruijn (utilizado para fragmentos cortos) [1] [2] .

Superposición-Diseño-Consenso

En la secuenciación de escopeta , todo el ADN de un organismo se corta primero en millones de pequeños fragmentos de hasta 1000 nucleótidos de longitud. Luego, los algoritmos de ensamblaje del genoma consideran los fragmentos resultantes simultáneamente, encontrando sus superposiciones (overlap), combinándolos por superposiciones (layout) y corrigiendo errores en la cadena combinada (consenso). Estos pasos se pueden repetir varias veces durante el proceso de construcción.

Este enfoque fue más común para el ensamblaje del genoma hasta el advenimiento de la secuenciación de próxima generación .

Condes de Bruijn

Con el desarrollo de tecnologías de secuenciación de última generación, la obtención de fragmentos se ha vuelto mucho más económica, pero el tamaño de los fragmentos se ha reducido (hasta 150 nucleótidos) y el número de errores en la lectura de fragmentos ha aumentado (hasta un 3 %). ). Al ensamblar tales datos, los métodos [3] basados ​​en gráficos de Bruijn se han generalizado .

Colectores disponibles

Lista de ensambladores genómicos populares:

Nombre Tecnologías compatibles Los autores Introducido Actualizado Licencia* Página principal
Abismo Solexa, SÓLIDO Simpson, J. et al. 2008 2011 NC-A Enlace
ALLPATHS-LG Solexa, SÓLIDO Gnerre, S. et al. 2011 2011 sistema operativo Enlace
Banco de trabajo de genómica CLC Sanger, 454, Solexa, SÓLIDO Biografía de CVX 2008 2010 C Enlace
Euler Sanger, 454 (¿Solexa?) Pevzner, P. et al. 2001 2006 (¿C/NC-A?) Enlace
Euler-sr 454 Chaisson, MJ. et al. 2008 2008 NC-A Enlace
BID Sanger,454,Solexa Yu Peng, Henry CM Leung, Siu-Ming Yiu, Francis YL Chin 2010 2010 (¿C/NC-A?) Enlace
MIRA Sanger, 454, Solexa Chevreux, B. 1998 2011 sistema operativo Enlace
Newbler 454 454/Roche 2009 2009 C Enlace
SOPRA Illumina, SÓLIDO, Sanger, 454 Dayarian, A. et al. 2010 2011 sistema operativo Enlace
JABÓN Denovo Solexa Li, R. et al. 2009 2009 sistema operativo Enlace
Espadas Illumina, Solexa Bankevich, A et al. 2012 2012 sistema operativo Enlace
Terciopelo Sanger, 454, Solexa, SÓLIDO Zerbino, D. et al. 2007 2009 sistema operativo Enlace
Puedes PacBio, Oxford nanoporo Koren, S. et al. 2017 2020 sistema operativo Enlace
* Licencias: OS = Open Source; C = Comercial; C/NC-A = Comercial pero libre para uso académico y no comercial; Corchetes = desconocido, pero probablemente C/NC-A

Notas

  1. Zhenyu Li et al. Comparación de las dos clases principales de algoritmos de ensamblaje: superposición-diseño-consenso y de-bruijn-graph  (inglés)  // Briefings in Functional Genomics: revista. - 2012. - vol. 11 , núm. 1 . - P. 25-37 . -doi : 10.1093 / bfgp/elr035 .
  2. Miller JR, Koren S., Sutton G. Algoritmos de ensamblaje para datos de secuenciación de próxima generación  // Genomics  :  revista. - Prensa Académica , 2010. - Vol. 95 , núm. 6 _ - Pág. 315-327 . Archivado desde el original el 22 de enero de 2022.
  3. Pavel A. Pevzner, Haixu Tang, Michael S. Waterman. Un enfoque de vía Euleriana para el ensamblaje de fragmentos de ADN  // Actas de la Academia Nacional de Ciencias de los Estados Unidos de América  : revista  . - 2001. - vol. 98 , núm. 17 _ - Pág. 9748-9753 . -doi : 10.1073/ pnas.171285098 . Archivado desde el original el 25 de agosto de 2014.