Método de escopeta

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 15 de mayo de 2019; las comprobaciones requieren 5 ediciones .

La secuenciación de escopeta es una  técnica utilizada para secuenciar tramos largos de ADN . La esencia del método es obtener una muestra aleatoria masiva de fragmentos de ADN clonados de un organismo dado, sobre la base de los cuales se puede restaurar la secuencia de ADN original [1] .

El requisito previo para la aparición del método de escopeta fue el hecho de que los primeros métodos de secuenciación solo podían recuperar pequeñas secuencias de ADN del orden de 1000 nucleótidos [2] , por lo tanto, se requería un nuevo enfoque para secuenciar secuencias más largas. En la secuenciación de escopeta, el ADN se fragmenta aleatoriamente en pequeñas secciones, que luego se secuencian mediante cualquier método disponible, como la secuenciación de Sanger . Los fragmentos aleatorios de ADN superpuestos obtenidos se ensamblan luego utilizando un software especial en una secuencia completa [1] .

El método de la escopeta se utilizó para obtener los primeros genomas completos de organismos [1] .

Ejemplo

Por ejemplo, digamos que tenemos dos fragmentos de escopeta aleatorios:

Cadena subsecuencia
Inicial AGCATGCTGCAGTCATGCTTAGGCTA
primer fragmento AGCATGCTGCAGTCATGCT-------
-------------------TAGGCTA
Segundo fragmento AGCATG--------------------
------CTGCAGTCATGCTTAGGCTA
Secuencia restaurada AGCATGCTGCAGTCATGCTTAGGCTA

Este ejemplo está extremadamente simplificado. Sin embargo, refleja una de las características más importantes del proceso de secuenciación de escopeta. Es decir, ninguna de las cuatro lecturas presentadas en la tabla cubre completamente la secuencia original completa. Sin embargo, la secuencia original se puede restaurar basándose en el hecho de que cada nucleótido de la secuencia original aparece en al menos una lectura y, debido a la superposición parcial de lecturas, en más de una. [1] .

La secuenciación instantánea de moléculas de ADN reales produce millones de lecturas [3] , algunas de las cuales pueden contener errores, que luego deben ensamblarse en la secuencia original. Por supuesto, un trabajo de esta magnitud no se puede realizar manualmente, por lo que se utiliza un software especial para ensamblar la secuencia de ADN a partir de las lecturas . La tarea se complica por el hecho de que el ADN a menudo contiene secuencias repetitivas , lo que significa que se pueden obtener lecturas similares de partes del ADN que están distantes entre sí [4] .

Para hacer frente a este problema, la secuenciación suele llevarse a cabo de tal manera que cada nucleótido de la secuencia original se produzca no en una, sino en muchas lecturas a la vez. Por ejemplo, al secuenciar el genoma humano, se utilizó una cobertura de 12 veces, es decir, cada nucleótido se encontró en promedio en 12 lecturas [5] .

Secuenciación de escopeta de todo el genoma

Historia

La idea de utilizar el método de escopeta para secuenciar genomas pequeños (4000–7000 kb) se propuso en 1979 [1] . Y dos años más tarde, en 1981, se utilizó por primera vez en la práctica el método de la escopeta para secuenciar todo el genoma del virus del mosaico de la coliflor [6] [7] .

Método

El proceso de secuenciación de escopeta consta de varios pasos. En primer lugar, el ADN que se va a secuenciar se somete a una amplificación . Las copias de ADN resultantes se cortan en fragmentos utilizando nucleasas no específicas del sitio. La no especificidad del sitio es importante para obtener fragmentos superpuestos [8] [9] . Se construye una biblioteca genómica a partir de los fragmentos obtenidos incrustando los fragmentos en algún vector . Un determinado subconjunto de fragmentos se selecciona aleatoriamente de la biblioteca genómica resultante, cada uno de los cuales se secuencia, por ejemplo, mediante el método de Sanger . Luego, utilizando un software especial , la secuencia de nucleótidos del ADN original se ensambla a partir de las secuencias de nucleótidos obtenidas de los fragmentos, llamados lecturas [1] .

Asamblea

Durante el proceso de ensamblaje de la secuencia de ADN original, las lecturas superpuestas se ensamblan en secuencias más grandes llamadas contigs. Los cóntigos son partes contiguas de la secuencia de ADN que se está reconstruyendo. Los contigs, a su vez, se combinan en secuencias aún más grandes, andamios, que ya no son necesariamente partes continuas del ADN original y pueden contener lagunas. Si la secuenciación se llevó a cabo utilizando el método de lecturas emparejadas , la distancia entre contigs en el andamio se puede derivar en función de la información sobre la posición de las lecturas emparejadas [10] . Dependiendo de la distancia entre los contigs, se pueden usar diferentes métodos para llenar los huecos en los andamios. Si la brecha es pequeña (5–20 kb), la región se amplifica mediante PCR y luego se secuencia. Si la brecha es grande (> 20 kb), el fragmento faltante se clona en vectores especiales, como el cromosoma artificial bacteriano , seguido de la secuenciación del vector [11] .

Secuenciación de lectura emparejada

A medida que se empezaron a secuenciar secuencias de ADN cada vez más largas, quedó claro que era útil secuenciar ambas cadenas de ADN. En primer lugar, hay casos en los que, debido a las peculiaridades de la conformación del ADN, la determinación de un nucleótido en una posición determinada de una de las cadenas es extremadamente difícil, mientras que en la segunda hebra se puede determinar fácilmente el nucleótido en la misma posición. En segundo lugar, la información sobre la posición relativa de lecturas emparejadas se puede utilizar para determinar la distancia entre contigs en el andamio. Una modificación del método de escopeta que secuencia ambas hebras de ADN se denomina secuenciación de lectura pareada o método de escopeta de "doble cañón". Este método se ha generalizado y se ha utilizado, en particular, en la secuenciación del genoma humano [5] .

En la secuenciación de lectura por pares, el ADN se corta en fragmentos aleatorios, que luego se agrupan por peso (típicamente 2, 10, 50 y 150 kb) y se clonan en vectores . Los clones se secuencian en ambos extremos utilizando el método de terminación de cadena , que da como resultado dos secuencias cortas. Cada secuencia se denomina lectura final o simplemente lectura, y dos secuencias de lectura del mismo clon son terminales emparejadas. Dado que la longitud de las lecturas cuando se usa el método de terminación de cadena generalmente no supera los 1000 pares de bases, en todos los clones excepto en los más pequeños, los extremos emparejados rara vez se superpondrán [12] .

La primera descripción publicada del uso del método de secuenciación de extremos emparejados se remonta a 1990 [13] . Este trabajo se centró en la secuenciación del gen de la hipoxantina-guanina fosforribosiltransferasa humana , pero los extremos emparejados se usaron solo para corregir las lagunas en la secuencia después de aplicar el método clásico de escopeta. En 1991, se publicó la primera descripción teórica de la secuenciación de extremos pareados en su forma completa [14] , que implicaba el uso de fragmentos de longitud constante. En ese momento, se creía que al secuenciar extremos emparejados, lo óptimo era usar fragmentos cuya longitud fuera tres veces la longitud de las lecturas. En 1995, se demostró [12] que es posible usar fragmentos de diferentes tamaños cuando se secuencian extremos emparejados, lo que demuestra que este enfoque se puede usar para secuenciar secuencias largas de ADN. Posteriormente, este enfoque se utilizó activamente en la secuenciación de los genomas de varios organismos: el genoma de Haemophilus influenzae en 1995 [15] , el genoma de Drosophila ( mosca de la fruta ) en 2000 [16] y, finalmente, el genoma humano [5] en 2001.

Cobertura

La cobertura es el número promedio de lecturas que cubren una posición en la secuencia reconstruida. Se puede calcular a partir de la longitud del genoma original ( ), el número de lecturas ( ) y la longitud de lectura promedio ( ), como: . A veces también se hace referencia a la cobertura como la proporción de posiciones del genoma cubiertas por las lecturas. Es necesaria una alta cobertura en el método de escopeta porque le permite deshacerse de los errores de ensamblaje asociados con la presencia de secuencias repetitivas en el ADN [17] .

Secuenciación de escopeta jerárquica

Motivación

Teóricamente, el método de la escopeta se puede aplicar a genomas de cualquier tamaño, pero inicialmente se cuestionó la posibilidad de su aplicación real para la secuenciación del genoma completo, tanto por las dificultades técnicas que surgen al procesar grandes cantidades de datos, como por las dificultades adicionales que surgen debido a la presencia de un gran número de regiones repetidas en genomas grandes [18] . El advenimiento de la secuenciación jerárquica hizo posible aplicar en la práctica el método de escopeta a genomas grandes.

Método

El genoma amplificado primero se corta en pedazos grandes (50–200 kb) y se clona en un huésped bacteriano utilizando un cromosoma bacteriano artificial . Dado que se cortaron aleatoriamente varias copias del genoma, los fragmentos, también llamados contigs BAC, contenidos en estos clones tienen extremos diferentes, lo que significa que se puede encontrar un andamio que tenga una cobertura satisfactoria y cubra todo el genoma. Tal andamio se llama camino de cobertura [19] .

Una vez que se ha encontrado un camino de cobertura, los contigs de BAC que forman este camino se cortan al azar en fragmentos más pequeños, que luego se secuencian utilizando el método de escopeta. Aunque se desconocen las secuencias de nucleótidos de los contigs de BAC, se pueden determinar sus posiciones relativas y esta información se puede utilizar para construir una vía de cobertura [19] .

Los clones superpuestos se pueden identificar de varias maneras. Una forma es usar una pequeña secuencia de ADN marcada radiactiva o químicamente (STS). Tal secuencia se hibrida en una micromatriz , en la que se reproducen los clones [19] . Por lo tanto, se identifican todos los clones que contienen la secuencia marcada. El final de uno de estos clones se secuencia y se usa como una nueva secuencia STS. Este proceso iterativo se denomina caminata cromosómica [20] .

Otra forma de identificar clones entrecruzados es mediante el uso de enzimas de restricción . Una determinada sección del genoma es procesada por un conjunto de nucleasas de restricción, después de lo cual se compara el tamaño de los fragmentos de ADN resultantes. Esto le permite construir un mapa de restricción, que indica la posición de cada sitio de restricción en relación con otros sitios [19] . Este método de mapeo genómico se llama mapeo de restricción porque identifica el conjunto de sitios de restricción contenidos en cada clon [21] .

La necesidad de construir una biblioteca BAC extensa y seleccionar una ruta de cobertura hace que la secuenciación jerárquica sea mucho más lenta y laboriosa que la secuenciación del genoma de escopeta. Y ahora, cuando las tecnologías permiten realizar los volúmenes necesarios de cálculos con la suficiente rapidez y los datos se han vuelto bastante confiables, la secuenciación del genoma completo está reemplazando a la secuenciación jerárquica, ya que es más eficiente tanto por consideraciones de velocidad como de costo [18] .

Método de escopeta y métodos de secuenciación de última generación

El método de escopeta clásico se basó en el método de Sanger y fue el método más avanzado de secuenciación del genoma hasta aproximadamente 2005. El método de escopeta todavía se usa hoy en día, pero ha sido reemplazado por nuevas tecnologías de secuenciación, a menudo denominadas colectivamente  tecnología de secuenciación de próxima generación . Estas tecnologías producen lecturas más cortas (del orden de 25 a 500 pb), pero a una velocidad muy alta (del orden de un millón de lecturas por día) [3] . Como resultado, la cobertura aumenta , pero el proceso de ensamblaje del genoma a partir de las lecturas consume más tiempo computacional. En total, los métodos de secuenciación de próxima generación, en comparación con el método de escopeta, requieren grandes recursos computacionales, sin embargo, permiten obtener una secuencia completa del genoma en un tiempo más corto [22] .

Notas

  1. 1 2 3 4 5 6 Staden R. Una estrategia de secuenciación de ADN empleando un programa informático  //  Nucleic Acids Research. - 1979. - vol. 6 , núm. 7 . Archivado desde el original el 5 de marzo de 2016.
  2. Sanger F., Nicklen S., Coulson AR Secuenciación de ADN con inhibidores de terminación de cadena   // PNAS . - 1977. - vol. 74 , núm. 12 _ - Pág. 5463-5467 . Archivado desde el original el 2 de abril de 2017.
  3. 1 2 Voelkerding KV, Dames SA, Durtschi JD Secuenciación de próxima generación: de la investigación básica al diagnóstico  //  Química clínica. - 2009. - Vol. 55 , núm. 4 . - Pág. 41-47 . Archivado desde el original el 14 de mayo de 2016.
  4. Jason de Koning AP, Gu W., Castoe TA et al. Los elementos repetitivos pueden comprender más de dos tercios del genoma humano  //  PLoS Genetics. - 2011. - vol. 7 , núm. 12 _ Archivado desde el original el 2 de julio de 2017.
  5. 1 2 3 Lander ES, Linton LM, Birren B. et al. Secuenciación inicial y análisis del genoma humano   // Naturaleza . - 2001. - vol. 409 , núm. 6822 . - Pág. 860-921 . Archivado desde el original el 15 de junio de 2018.
  6. Gardner RC, Howarth AJ, Hahn P., Brown-Luedi M., Shepherd RJ, Messing J. La secuencia de nucleótidos completa de un clon infeccioso del virus del mosaico de la coliflor mediante secuenciación de escopeta M13mp7  //  Nucleic Acids Research. - 1981. - vol. 9 , núm. 12 _ - Pág. 2871-2888 . Archivado desde el original el 15 de septiembre de 2019.
  7. Doctrow B. Perfil de Joachim Messing  //  PNAS. - 2016. - Vol. 113 , núm. 29 . - Pág. 7935-7937 . Archivado desde el original el 26 de mayo de 2018.
  8. Staden R. Una estrategia de secuenciación de ADN empleando programas informáticos  //  Nucleic Acids Research. - 1979. - vol. 6 , núm. 7 . - Pág. 2601-2610 . Archivado el 1 de diciembre de 2020.
  9. Anderson S. Shotgun DNA Sequencing usando fragmentos clonados generados por DNase I  //  Nucleic Acids Research. - 1981. - vol. 9 , núm. 13 _ - Pág. 3015-3027 . Archivado desde el original el 22 de diciembre de 2015.
  10. Fullwood MJ, Wei CL, Liu ET et al. Secuenciación de ADN de próxima generación de etiquetas de extremos emparejados (PET) para análisis de transcriptomas y genomas  //  Genome Research. - 2009. - Vol. 19 , núm. 4 . - pág. 521-532 . Archivado desde el original el 20 de mayo de 2016.
  11. ↑ Asamblea de Gregory S. Contig  //  Enciclopedia de las ciencias de la vida. - 2005. Archivado el 24 de julio de 2017.
  12. 1 2 Roach JC, Boysen C., Wang K., Hood L. Secuenciación final por pares: un enfoque unificado para el mapeo y la secuenciación genómicos   // Genomics . - 1995. - vol. 26 , núm. 2 . - P. 345-353 . Archivado desde el original el 2 de octubre de 2016.
  13. Edwards A., Caskey T. Estrategias de cierre para la secuenciación aleatoria de ADN  //  A Companion to Methods in Enzymology. - 1991. - vol. 3 , núm. 1 . - Pág. 41-47 . Archivado desde el original el 24 de septiembre de 2015.
  14. Edwards A., Voss H., Rice P., Civitello A., Stegemann J., Schwager C., Zimmerman J., Erfle H., Caskey T., Ansorge W. Secuenciación automática de ADN del locus HPRT humano  .)  // Genómica. - 1990. - vol. 6 , núm. 4 . - Pág. 593-608 . Archivado desde el original el 24 de diciembre de 2013.
  15. Fleischmann R.D. et al. Secuenciación aleatoria del genoma completo y ensamblaje de Haemophilus influenzae Rd   // Science . - 1995. - vol. 269 , núm. 5223 . - pág. 496-512 . Archivado desde el original el 7 de marzo de 2016.
  16. Adams MD et al. La secuencia del genoma de Drosophila melanogaster  (inglés)  // Science. - 2000. - vol. 287 , núm. 5461 . - Pág. 2185-2195 . Archivado desde el original el 12 de abril de 2016.
  17. Meyerson M., Gabriel S., Getz G. Avances en la comprensión de los genomas del cáncer a través de la secuenciación de segunda generación.  (Inglés)  // Nature Reviews Genetics. - 2010. - Vol. 11 , núm. 10 _ - P. 685-696 . Archivado desde el original el 14 de diciembre de 2015.
  18. ↑ 1 2 Venter JC Escopetar el genoma humano: una visión personal  //  Enciclopedia de ciencias de la vida. — 2006.
  19. ↑ 1 2 3 4 Estimado Mapeo del Genoma PH  //  Enciclopedia de Ciencias de la Vida. - 2005. Archivado el 3 de junio de 2016.
  20. Chinault AC, Carbon J. Detección de hibridación superpuesta: Aislamiento y caracterización de fragmentos de ADN superpuestos que rodean el gen leu2 en el cromosoma III de levadura   // Gene . - 1979. - vol. 5 , núm. 2 . - P. 111-126 .
  21. Gibson G., Muse SV Introducción a la ciencia del genoma. (Inglés)  // Enciclopedia de Ciencias de la Vida. - 2006. - vol. 3º , núm. 84 .
  22. ↑ Tecnologías de secuenciación ML de Metzker : la próxima generación  //  Nature Reviews Genetics. - 2010. - Vol. 11 , núm. 1 . - P. 31-46 . Archivado desde el original el 4 de marzo de 2016.

Enlaces