El ensamblaje del genoma es el proceso de combinar una gran cantidad de fragmentos cortos de ADN (lecturas) en una o más secuencias largas ( contigs y andamios) para restaurar las secuencias de ADN de los cromosomas de los que surgieron estos fragmentos durante la secuenciación .
El ensamblaje de un genoma es una tarea computacional muy compleja, en particular, complicada por el hecho de que los genomas a menudo contienen una gran cantidad de secuencias repetitivas idénticas (las llamadas repeticiones genómicas). Estas repeticiones pueden tener varios miles de nucleótidos de largo y también ocurren en miles de lugares diferentes en el genoma. Los grandes genomas de plantas y animales, incluido el genoma humano, son especialmente ricos en repeticiones.
Existen dos enfoques para ensamblar genomas: uno basado en consenso de diseño superpuesto (utilizado para fragmentos largos) y otro basado en gráficos de Bruijn (utilizado para fragmentos cortos) [1] [2] .
En la secuenciación de escopeta , todo el ADN de un organismo se corta primero en millones de pequeños fragmentos de hasta 1000 nucleótidos de longitud. Luego, los algoritmos de ensamblaje del genoma consideran los fragmentos resultantes simultáneamente, encontrando sus superposiciones (overlap), combinándolos por superposiciones (layout) y corrigiendo errores en la cadena combinada (consenso). Estos pasos se pueden repetir varias veces durante el proceso de construcción.
Este enfoque fue más común para el ensamblaje del genoma hasta el advenimiento de la secuenciación de próxima generación .
Con el desarrollo de tecnologías de secuenciación de última generación, la obtención de fragmentos se ha vuelto mucho más económica, pero el tamaño de los fragmentos se ha reducido (hasta 150 nucleótidos) y el número de errores en la lectura de fragmentos ha aumentado (hasta un 3 %). ). Al ensamblar tales datos, los métodos [3] basados en gráficos de Bruijn se han generalizado .
Lista de ensambladores genómicos populares:
Nombre | Tecnologías compatibles | Los autores | Introducido | Actualizado | Licencia* | Página principal |
---|---|---|---|---|---|---|
Abismo | Solexa, SÓLIDO | Simpson, J. et al. | 2008 | 2011 | NC-A | Enlace |
ALLPATHS-LG | Solexa, SÓLIDO | Gnerre, S. et al. | 2011 | 2011 | sistema operativo | Enlace |
Banco de trabajo de genómica CLC | Sanger, 454, Solexa, SÓLIDO | Biografía de CVX | 2008 | 2010 | C | Enlace |
Euler | Sanger, 454 (¿Solexa?) | Pevzner, P. et al. | 2001 | 2006 | (¿C/NC-A?) | Enlace |
Euler-sr | 454 | Chaisson, MJ. et al. | 2008 | 2008 | NC-A | Enlace |
BID | Sanger,454,Solexa | Yu Peng, Henry CM Leung, Siu-Ming Yiu, Francis YL Chin | 2010 | 2010 | (¿C/NC-A?) | Enlace |
MIRA | Sanger, 454, Solexa | Chevreux, B. | 1998 | 2011 | sistema operativo | Enlace |
Newbler | 454 | 454/Roche | 2009 | 2009 | C | Enlace |
SOPRA | Illumina, SÓLIDO, Sanger, 454 | Dayarian, A. et al. | 2010 | 2011 | sistema operativo | Enlace |
JABÓN Denovo | Solexa | Li, R. et al. | 2009 | 2009 | sistema operativo | Enlace |
Espadas | Illumina, Solexa | Bankevich, A et al. | 2012 | 2012 | sistema operativo | Enlace |
Terciopelo | Sanger, 454, Solexa, SÓLIDO | Zerbino, D. et al. | 2007 | 2009 | sistema operativo | Enlace |
Puedes | PacBio, Oxford nanoporo | Koren, S. et al. | 2017 | 2020 | sistema operativo | Enlace |
* Licencias: OS = Open Source; C = Comercial; C/NC-A = Comercial pero libre para uso académico y no comercial; Corchetes = desconocido, pero probablemente C/NC-A |