La secuenciación del exoma es la secuenciación de todos los genes que codifican proteínas en el genoma (es decir, el exoma ) . La secuenciación del exón se refiere a dos operaciones: primero, la selección del exón . Según el organismo, los exones cubren del 1 al 2 % del genoma [1] . En humanos, hay alrededor de 180.000 de ellos, aproximadamente el 1% del genoma total , o aproximadamente 30 millones de pares de bases (pb). En segundo lugar, la secuenciación de exones utilizando cualquier plataforma de secuenciación de ADN de alto rendimiento y el análisis de los resultados obtenidos [2] .
La secuenciación del exoma permite detectar cambios genéticos que conducen a cambios en las secuencias de proteínas, que a su vez pueden conducir a enfermedades como la aterosclerosis , la enfermedad de Alzheimer y otras. La principal ventaja de la secuenciación del exoma es la capacidad de realizar cribados masivos de genes y detectar mutaciones asociadas a enfermedades, mientras que este procedimiento es más sencillo y económico que la secuenciación del genoma completo [1] .
La secuenciación del exoma incluye cuatro etapas: extracción de ADN del material proporcionado, selección de la fracción de ADN de interés (enriquecimiento de la muestra), secuenciación del material seleccionado y análisis de los resultados obtenidos [3] .
El primer paso es preparar preparaciones de ADN genómico de alta calidad a partir de las muestras proporcionadas separando el ADN de proteínas , lípidos , etc. El método estándar para el aislamiento de ADN es la extracción con una mezcla de fenol-cloroformo [4] .
Las estrategias de enriquecimiento de muestras permiten la selección selectiva de regiones genómicas deseadas, es decir, exones, de muestras de ADN antes del paso de secuenciación. Desde la descripción del primer método original en 2005, se han desarrollado varias estrategias de enriquecimiento de muestras adecuadas para la secuenciación del exoma [5] . La elección de un método específico depende del tamaño de las regiones de interés, la necesidad de cobertura de secuenciación, el equipo disponible y otras razones [6] .
Reacción en cadena de la polimerasaLa reacción en cadena de la polimerasa (PCR) se ha utilizado ampliamente para amplificar los fragmentos de ADN necesarios durante más de 20 años [7] . Por lo general, solo se usan 2 cebadores en la PCR , sin embargo, se han desarrollado métodos de PCR multiplex Los enfoques de PCR son muy eficientes, pero no permiten trabajar con regiones del genoma de varios millones de pb de longitud. debido al alto precio y la baja calidad de las muestras resultantes [1] .
Método de inversión molecularEl método de inversión molecular es una técnica que permite obtener muestras de ADN enriquecidas con regiones invertidas amplificadas de secuencias diana . La selección de las secuencias deseadas se produce por el cierre de la zona de interés en el ring. El cebador aquí es un oligonucleótido de ADN monocatenario , en la parte central del cual contiene una secuencia universal con sitios de restricción , y los extremos son complementarios a dos secciones de ADN genómico, entre las cuales se encuentra la secuencia de interés. Las muestras que no han reaccionado permanecen lineales y son eliminadas por exonucleasas [5] [8] . El método puede ser útil para trabajar con una pequeña cantidad de objetivos en una gran cantidad de muestras. La principal desventaja es la uniformidad de las muestras obtenidas, así como el alto precio, si es necesario, para cubrir un gran conjunto de áreas [7] .
Enriquecimiento de hibridaciónPara el enriquecimiento por hibridación de muestras con regiones del exoma, se crean micromatrices especiales que contienen oligonucleótidos monocatenarios ( sondas ) fijados en un sustrato con secuencias del genoma que pueden cubrir las regiones de interés. El ADN genómico se corta en fragmentos. Los extremos de los fragmentos se despuntan con enzimas de restricción , se añaden adaptadores con cebadores universales . Después de la hibridación de fragmentos con sondas en micromatrices, los fragmentos no hibridados se lavan del sustrato y los restantes se amplifican mediante PCR [5] . Las limitaciones del método están relacionadas con el alto costo del equipo, la cantidad de sondas que se pueden colocar en la matriz y la necesidad de cantidades suficientemente grandes de ADN para el análisis [1] .
Enriquecimiento en soluciónSe sintetiza un conjunto de sondas en la solución, que se fijan en perlas de estreptavidina . Las perlas se colocan en una solución con ADN genómico fragmentado, donde se produce la hibridación selectiva de las sondas con las regiones genómicas deseadas, después de lo cual se precipitan y lavan las perlas con los fragmentos de interés. A continuación, se secuencian las secciones restantes. Este método se desarrolló para mejorar el método de enriquecimiento de hibridación: le permite crear un exceso de sondas para los sitios objetivo en comparación con la cantidad de muestra requerida. El tamaño óptimo de la región de ADN diana es de aproximadamente 3,5 millones de pb, por lo que la secuenciación posterior da como resultado una buena cobertura [7] .
Plataformas utilizadas para el enriquecimiento del exomaLos principales proveedores de plataformas de enriquecimiento de exomas son NimbleGen , Agilent e Illumina [1] .
Biblioteca de exomas SeqCap EZ de NimbleGen | Sure Select Human All Exon Kit de Agilent | Kit de enriquecimiento de exomas TruSeq de Illumina | Kit de exomas de captura rápida Nextera de Illumina | |
---|---|---|---|---|
Longitud de la sonda | 55 - 105 [9] | 114 - 126 [9] | 95 | 95 |
Cantidad recomendada de muestra de ADN | 3 microgramos [10] | 3 microgramos [10] | 500 ng [10] | 50ng [10] |
Tipo de sonda de ácido nucleico | ADN | ARN | ADN | ADN |
Estrategia de cobertura de la sonda para un fragmento de interés | Sondas superpuestas [9] | Más a menudo sondas estrictamente secuenciales que superpuestas | Brechas entre las secuencias de la sonda (las sondas están a cierta distancia entre sí a lo largo de la secuencia del fragmento) | Brechas entre secuencias de sonda |
método de fragmentación | Ultrasonido | Ultrasonido | Ultrasonido | transposasa |
Tamaño de fragmento objetivo (humano) | 64 | cincuenta | 62 | 62 |
Lecturas restantes después del filtrado | 66% | 71,7% | 54,8% [11] | 40,1% |
Principales puntos fuertes | Alta sensibilidad y especificidad. Cobertura más uniforme en regiones difíciles [9] [12] [13] . | Buena cobertura de indels [9] [13] [11] . Alta velocidad de nivelación . Menos relecturas que otras plataformas [13] . | Buena cobertura de regiones no traducidas y miRNAs [9] | Buena cobertura de regiones no traducidas y miRNAs |
Principales debilidades | Más relecturas que Agilent. Velocidad de nivelación más lenta. | Menos lecturas de calidad que NimbleGen [12] | Alto nivel de enriquecimiento no dirigido [9] | Alto nivel de enriquecimiento no dirigido. Cobertura compensada para áreas con alto contenido de GC , reduciendo la uniformidad. |
Usos más allá de las secuencias humanas | Sí | Sí | No | No |
Actualmente, además de los kits solo para humanos, NimbleGen ofrece kits para exomas de maíz , cebada , trigo , soja , ratón y porcino , mientras que Agilent ofrece kits para exomas de ratón, ganado y pez cebra . Ambos proveedores también ofrecen la posibilidad de diseñar kits personalizados para otras especies. Los kits para especies no humanas utilizan protocolos y sondas similares a los kits humanos de los proveedores. Ambos fabricantes ofrecen un proceso de diseño flexible que permite realizar cambios para mejorar la cobertura para regiones y fines específicos [1] .
Existen varias tecnologías de secuenciación, incluido el método de secuenciación clásico de Sanger . Los métodos de secuenciación de última generación utilizan las plataformas Illumina , SOLiD e Ion-Torrent . Todos estos métodos también se pueden utilizar para la secuenciación del exoma [14] .
Los datos de secuenciación primaria son un gran conjunto de pequeñas secuencias (lecturas), cuya longitud y calidad dependen de las características técnicas del secuenciador y del método de preparación de la muestra. La calidad de las lecturas se puede controlar, por ejemplo, utilizando el paquete de software FastQC [15] . Las lecturas resultantes se filtran: se cortan las secciones finales, que a menudo tienen una gran cantidad de errores, se eliminan las secuencias del adaptador (por ejemplo, usando Trimmomatic [16] o la hoz [17] ); luego se corrigen los errores (por ejemplo, usando los programas Blucoo [18] y Lighter [19] ). Las lecturas filtradas se mapean en el genoma, donde se ensamblan en secuencias correspondientes a los exones. Actualmente existen muchos programas que realizan cada etapa de preparación y análisis de los datos de secuenciación, la mayoría de ellos requieren de una gran potencia de cómputo , ya que la cantidad de datos recibidos es muy grande [20] .
Usando la secuenciación del exoma, en estudios de costo fijo, podemos secuenciar secuencias con una profundidad de cobertura significativamente mayor en comparación con la cobertura obtenida por los métodos de secuenciación del genoma completo. Debido a esto, la secuenciación del exoma se usa con más frecuencia para resolver problemas que requieren una determinación confiable de polimorfismos de un solo nucleótido [21] .
El 29 de septiembre de 2011, Ambry Genetics se convirtió en la primera empresa certificada en ofrecer la secuenciación del exoma y el diagnóstico de enfermedades basándose en ella [22] . La empresa afirma que los resultados de la secuenciación del exoma permitirán a los empleados diagnosticar enfermedades en las que los enfoques de diagnóstico tradicionales no son aplicables [23] .
La identificación de mutaciones causantes de enfermedades puede contribuir significativamente a los enfoques diagnósticos y terapéuticos, ayudar a predecir el desarrollo de la enfermedad y permitir la realización de pruebas en familiares en riesgo [2] [24] [25] [26] [27] [28 ] . Hay varias razones por las que se prefiere la secuenciación del exoma al análisis monogénico: la capacidad de identificar mutaciones en genes que no se prueban debido a una presentación clínica atípica [28] y la identificación de casos clínicos en los que mutaciones en diferentes genes causan diferentes manifestaciones en el mismo paciente [24] . Además, el método permite diagnosticar enfermedades en una etapa temprana y en pacientes jóvenes antes de que aparezca todo el espectro de síntomas característicos; también se utiliza para el diagnóstico prenatal [1] En algunos casos, la secuenciación del exoma prenatal puede detectar enfermedades genéticas , mientras que los métodos estándar ( cariotipo y micromatrices) son ineficaces [29] .
Los autores de una publicación histórica revisada por pares sobre la secuenciación del exoma destacan la utilidad de este método para la práctica clínica. Los autores, que usaron la secuenciación del exoma para identificar la mutación que causa el síndrome de Bartter y la diarrea congénita por cloruro , afirman: “Visualizamos un futuro en el que dicha información se convertirá en parte de la evaluación clínica de rutina de pacientes con sospecha de enfermedades genéticas con un diagnóstico poco claro... Prevemos que la secuenciación del exoma completo hará una gran contribución a la comprensión de qué genes y de qué manera están involucrados en el desarrollo de enfermedades humanas raras y frecuentes, así como en la práctica clínica” [25] .
Mapeo de polimorfismos raros en trastornos complejos y enfermedades mendelianasGrandes estudios internacionales en curso tienen como objetivo identificar polimorfismos frecuentes en el genoma que se identifican más fácilmente con los métodos modernos. Sin embargo, debido a la selección negativa, los polimorfismos que causan enfermedades extremadamente graves, en particular, las enfermedades mendelianas , ocurren con una frecuencia alélica significativamente más baja y pueden pasar desapercibidos durante la búsqueda de genes candidatos utilizando métodos modernos de genotipado estándar , y la mayoría de las veces ubicado dentro del exoma. Dado que una gran cantidad de genes están asociados con el riesgo de enfermedad en trastornos complejos, se requieren tamaños de muestra muy grandes para detectarlos, por lo que, desde el punto de vista del costo, la secuenciación del genoma completo no es óptima. Además, los polimorfismos en las regiones codificantes se estudian con gran detalle y su significado funcional es más fácil de determinar [30] Un modelo exitoso para la identificación de genes mendelianos implica la identificación de polimorfismos de novo que surgen de la secuenciación de los genes de dos padres y un descendiente [31] .
Los genomas de las plantas pueden ser extremadamente complejos, repetitivos y, a menudo , poliploides ; como resultado, algunos de los cultivos más importantes desde el punto de vista económico no pueden investigarse mediante la secuenciación del genoma completo. Se desarrolló un kit para el enriquecimiento del exoma de trigo basado en los datos acumulados del transcriptoma [32] , con el cual se llevaron a cabo estudios sobre la heterogeneidad genética intracultural no deseada exoma, que afecta el fenotipo de la planta , en particular, la tasa de crecimiento, la capacidad de vivir en diversas condiciones, y otros rasgos importantes para la reproducción . Se utilizaron kits similares en el estudio del arroz Oryza sativa [33] y la soja Glycine max [34] . También es posible identificar marcadores genéticos que son responsables de la resistencia específica de cultivos de plantas a ciertos patógenos [35] .
En algunos casos, la secuenciación del exoma se puede utilizar como una alternativa a la secuenciación del genoma completo más costosa, por ejemplo, en el estudio de variaciones genéticas dentro y entre poblaciones [36] .
Las técnicas de micromatrices requieren sondas de hibridación con una secuencia conocida, por lo que están limitadas por los requisitos para el diseño de sondas y no pueden detectar algunos cambios genéticos. Las tecnologías de secuenciación de alto rendimiento utilizadas para la secuenciación del exoma permiten reconocer simultáneamente las secuencias de un número mucho mayor de loci e identificar fuentes hasta ahora desconocidas de muchas enfermedades [37] , es decir, pueden sortear las limitaciones de los chips de genotipado y los clásicos. secuenciación [38] .
La secuenciación del exoma es un procedimiento más costoso, pero a medida que disminuyen los costos financieros y aumenta la productividad de los métodos de secuenciación, este método se usa cada vez más en la práctica para el diagnóstico de enfermedades genéticas raras [39] .
Algunas enfermedades pueden estar asociadas con mutaciones en regiones no codificantes o reordenamientos estructurales que la secuenciación del exoma no detectará [2] . Pero debido al alto costo de la secuenciación del genoma completo en la etapa actual de desarrollo de la ciencia y la tecnología, la secuenciación del exoma parece ser el mejor método para el diagnóstico clínico de enfermedades hereditarias raras no detectadas por microarrays [25] .
El análisis estadístico de grandes cantidades de datos durante la secuenciación del exoma es una tarea separada que requiere mucho tiempo. Hay varios enfoques para mejorar la calidad de los datos del exoma [2] :
Para algunas especies biológicas, la calidad del ensamblaje del genoma y su anotación es mucho peor que para los humanos (o no hay ningún genoma secuenciado). Esto limita significativamente la aplicación de la secuenciación del exoma a otros organismos, ya que complica el enriquecimiento de las muestras de ADN y el mapeo de los resultados de la secuenciación en el genoma [1] .