La secuenciación de escopeta es una técnica utilizada para secuenciar tramos largos de ADN . La esencia del método es obtener una muestra aleatoria masiva de fragmentos de ADN clonados de un organismo dado, sobre la base de los cuales se puede restaurar la secuencia de ADN original [1] .
El requisito previo para la aparición del método de escopeta fue el hecho de que los primeros métodos de secuenciación solo podían recuperar pequeñas secuencias de ADN del orden de 1000 nucleótidos [2] , por lo tanto, se requería un nuevo enfoque para secuenciar secuencias más largas. En la secuenciación de escopeta, el ADN se fragmenta aleatoriamente en pequeñas secciones, que luego se secuencian mediante cualquier método disponible, como la secuenciación de Sanger . Los fragmentos aleatorios de ADN superpuestos obtenidos se ensamblan luego utilizando un software especial en una secuencia completa [1] .
El método de la escopeta se utilizó para obtener los primeros genomas completos de organismos [1] .
Por ejemplo, digamos que tenemos dos fragmentos de escopeta aleatorios:
Cadena | subsecuencia |
---|---|
Inicial | AGCATGCTGCAGTCATGCTTAGGCTA |
primer fragmento | AGCATGCTGCAGTCATGCT------- -------------------TAGGCTA |
Segundo fragmento | AGCATG-------------------- ------CTGCAGTCATGCTTAGGCTA |
Secuencia restaurada | AGCATGCTGCAGTCATGCTTAGGCTA |
Este ejemplo está extremadamente simplificado. Sin embargo, refleja una de las características más importantes del proceso de secuenciación de escopeta. Es decir, ninguna de las cuatro lecturas presentadas en la tabla cubre completamente la secuencia original completa. Sin embargo, la secuencia original se puede restaurar basándose en el hecho de que cada nucleótido de la secuencia original aparece en al menos una lectura y, debido a la superposición parcial de lecturas, en más de una. [1] .
La secuenciación instantánea de moléculas de ADN reales produce millones de lecturas [3] , algunas de las cuales pueden contener errores, que luego deben ensamblarse en la secuencia original. Por supuesto, un trabajo de esta magnitud no se puede realizar manualmente, por lo que se utiliza un software especial para ensamblar la secuencia de ADN a partir de las lecturas . La tarea se complica por el hecho de que el ADN a menudo contiene secuencias repetitivas , lo que significa que se pueden obtener lecturas similares de partes del ADN que están distantes entre sí [4] .
Para hacer frente a este problema, la secuenciación suele llevarse a cabo de tal manera que cada nucleótido de la secuencia original se produzca no en una, sino en muchas lecturas a la vez. Por ejemplo, al secuenciar el genoma humano, se utilizó una cobertura de 12 veces, es decir, cada nucleótido se encontró en promedio en 12 lecturas [5] .
La idea de utilizar el método de escopeta para secuenciar genomas pequeños (4000–7000 kb) se propuso en 1979 [1] . Y dos años más tarde, en 1981, se utilizó por primera vez en la práctica el método de la escopeta para secuenciar todo el genoma del virus del mosaico de la coliflor [6] [7] .
El proceso de secuenciación de escopeta consta de varios pasos. En primer lugar, el ADN que se va a secuenciar se somete a una amplificación . Las copias de ADN resultantes se cortan en fragmentos utilizando nucleasas no específicas del sitio. La no especificidad del sitio es importante para obtener fragmentos superpuestos [8] [9] . Se construye una biblioteca genómica a partir de los fragmentos obtenidos incrustando los fragmentos en algún vector . Un determinado subconjunto de fragmentos se selecciona aleatoriamente de la biblioteca genómica resultante, cada uno de los cuales se secuencia, por ejemplo, mediante el método de Sanger . Luego, utilizando un software especial , la secuencia de nucleótidos del ADN original se ensambla a partir de las secuencias de nucleótidos obtenidas de los fragmentos, llamados lecturas [1] .
Durante el proceso de ensamblaje de la secuencia de ADN original, las lecturas superpuestas se ensamblan en secuencias más grandes llamadas contigs. Los cóntigos son partes contiguas de la secuencia de ADN que se está reconstruyendo. Los contigs, a su vez, se combinan en secuencias aún más grandes, andamios, que ya no son necesariamente partes continuas del ADN original y pueden contener lagunas. Si la secuenciación se llevó a cabo utilizando el método de lecturas emparejadas , la distancia entre contigs en el andamio se puede derivar en función de la información sobre la posición de las lecturas emparejadas [10] . Dependiendo de la distancia entre los contigs, se pueden usar diferentes métodos para llenar los huecos en los andamios. Si la brecha es pequeña (5–20 kb), la región se amplifica mediante PCR y luego se secuencia. Si la brecha es grande (> 20 kb), el fragmento faltante se clona en vectores especiales, como el cromosoma artificial bacteriano , seguido de la secuenciación del vector [11] .
A medida que se empezaron a secuenciar secuencias de ADN cada vez más largas, quedó claro que era útil secuenciar ambas cadenas de ADN. En primer lugar, hay casos en los que, debido a las peculiaridades de la conformación del ADN, la determinación de un nucleótido en una posición determinada de una de las cadenas es extremadamente difícil, mientras que en la segunda hebra se puede determinar fácilmente el nucleótido en la misma posición. En segundo lugar, la información sobre la posición relativa de lecturas emparejadas se puede utilizar para determinar la distancia entre contigs en el andamio. Una modificación del método de escopeta que secuencia ambas hebras de ADN se denomina secuenciación de lectura pareada o método de escopeta de "doble cañón". Este método se ha generalizado y se ha utilizado, en particular, en la secuenciación del genoma humano [5] .
En la secuenciación de lectura por pares, el ADN se corta en fragmentos aleatorios, que luego se agrupan por peso (típicamente 2, 10, 50 y 150 kb) y se clonan en vectores . Los clones se secuencian en ambos extremos utilizando el método de terminación de cadena , que da como resultado dos secuencias cortas. Cada secuencia se denomina lectura final o simplemente lectura, y dos secuencias de lectura del mismo clon son terminales emparejadas. Dado que la longitud de las lecturas cuando se usa el método de terminación de cadena generalmente no supera los 1000 pares de bases, en todos los clones excepto en los más pequeños, los extremos emparejados rara vez se superpondrán [12] .
La primera descripción publicada del uso del método de secuenciación de extremos emparejados se remonta a 1990 [13] . Este trabajo se centró en la secuenciación del gen de la hipoxantina-guanina fosforribosiltransferasa humana , pero los extremos emparejados se usaron solo para corregir las lagunas en la secuencia después de aplicar el método clásico de escopeta. En 1991, se publicó la primera descripción teórica de la secuenciación de extremos pareados en su forma completa [14] , que implicaba el uso de fragmentos de longitud constante. En ese momento, se creía que al secuenciar extremos emparejados, lo óptimo era usar fragmentos cuya longitud fuera tres veces la longitud de las lecturas. En 1995, se demostró [12] que es posible usar fragmentos de diferentes tamaños cuando se secuencian extremos emparejados, lo que demuestra que este enfoque se puede usar para secuenciar secuencias largas de ADN. Posteriormente, este enfoque se utilizó activamente en la secuenciación de los genomas de varios organismos: el genoma de Haemophilus influenzae en 1995 [15] , el genoma de Drosophila ( mosca de la fruta ) en 2000 [16] y, finalmente, el genoma humano [5] en 2001.
La cobertura es el número promedio de lecturas que cubren una posición en la secuencia reconstruida. Se puede calcular a partir de la longitud del genoma original ( ), el número de lecturas ( ) y la longitud de lectura promedio ( ), como: . A veces también se hace referencia a la cobertura como la proporción de posiciones del genoma cubiertas por las lecturas. Es necesaria una alta cobertura en el método de escopeta porque le permite deshacerse de los errores de ensamblaje asociados con la presencia de secuencias repetitivas en el ADN [17] .
Teóricamente, el método de la escopeta se puede aplicar a genomas de cualquier tamaño, pero inicialmente se cuestionó la posibilidad de su aplicación real para la secuenciación del genoma completo, tanto por las dificultades técnicas que surgen al procesar grandes cantidades de datos, como por las dificultades adicionales que surgen debido a la presencia de un gran número de regiones repetidas en genomas grandes [18] . El advenimiento de la secuenciación jerárquica hizo posible aplicar en la práctica el método de escopeta a genomas grandes.
El genoma amplificado primero se corta en pedazos grandes (50–200 kb) y se clona en un huésped bacteriano utilizando un cromosoma bacteriano artificial . Dado que se cortaron aleatoriamente varias copias del genoma, los fragmentos, también llamados contigs BAC, contenidos en estos clones tienen extremos diferentes, lo que significa que se puede encontrar un andamio que tenga una cobertura satisfactoria y cubra todo el genoma. Tal andamio se llama camino de cobertura [19] .
Una vez que se ha encontrado un camino de cobertura, los contigs de BAC que forman este camino se cortan al azar en fragmentos más pequeños, que luego se secuencian utilizando el método de escopeta. Aunque se desconocen las secuencias de nucleótidos de los contigs de BAC, se pueden determinar sus posiciones relativas y esta información se puede utilizar para construir una vía de cobertura [19] .
Los clones superpuestos se pueden identificar de varias maneras. Una forma es usar una pequeña secuencia de ADN marcada radiactiva o químicamente (STS). Tal secuencia se hibrida en una micromatriz , en la que se reproducen los clones [19] . Por lo tanto, se identifican todos los clones que contienen la secuencia marcada. El final de uno de estos clones se secuencia y se usa como una nueva secuencia STS. Este proceso iterativo se denomina caminata cromosómica [20] .
Otra forma de identificar clones entrecruzados es mediante el uso de enzimas de restricción . Una determinada sección del genoma es procesada por un conjunto de nucleasas de restricción, después de lo cual se compara el tamaño de los fragmentos de ADN resultantes. Esto le permite construir un mapa de restricción, que indica la posición de cada sitio de restricción en relación con otros sitios [19] . Este método de mapeo genómico se llama mapeo de restricción porque identifica el conjunto de sitios de restricción contenidos en cada clon [21] .
La necesidad de construir una biblioteca BAC extensa y seleccionar una ruta de cobertura hace que la secuenciación jerárquica sea mucho más lenta y laboriosa que la secuenciación del genoma de escopeta. Y ahora, cuando las tecnologías permiten realizar los volúmenes necesarios de cálculos con la suficiente rapidez y los datos se han vuelto bastante confiables, la secuenciación del genoma completo está reemplazando a la secuenciación jerárquica, ya que es más eficiente tanto por consideraciones de velocidad como de costo [18] .
El método de escopeta clásico se basó en el método de Sanger y fue el método más avanzado de secuenciación del genoma hasta aproximadamente 2005. El método de escopeta todavía se usa hoy en día, pero ha sido reemplazado por nuevas tecnologías de secuenciación, a menudo denominadas colectivamente tecnología de secuenciación de próxima generación . Estas tecnologías producen lecturas más cortas (del orden de 25 a 500 pb), pero a una velocidad muy alta (del orden de un millón de lecturas por día) [3] . Como resultado, la cobertura aumenta , pero el proceso de ensamblaje del genoma a partir de las lecturas consume más tiempo computacional. En total, los métodos de secuenciación de próxima generación, en comparación con el método de escopeta, requieren grandes recursos computacionales, sin embargo, permiten obtener una secuencia completa del genoma en un tiempo más corto [22] .