GENCODE | |
---|---|
Contenido | |
Descripción | Enciclopedia de genes y variantes genéticas |
Tipo de datos | Anotaciones de genes humanos y de ratón en formato GTF/GFF3 |
Contactos | |
Centro de Investigación | Instituto Sanger (Bienvenida Confianza Instituto Sanger) |
Los autores | Harrow J, et al [1] |
Fecha de lanzamiento | septiembre 2012 |
Disponibilidad | |
Sitio web | GENCODE |
Otro | |
Licencia | Acceso abierto |
Frecuencia de lanzamiento |
Genoma humano - una vez cada 3 meses Genoma de ratón - una vez cada 6 meses |
Versión | GENCODE 28 (genoma humano), M17 (genoma de ratón) |
GENCODE es un proyecto de investigación genómica que forma parte del proyecto Encyclopedia of DNA Elements (ENCODE) [2] .
GENCODE fue creado como parte de la fase piloto del proyecto ENCODE para identificar y mapear todos los genes codificadores de proteínas de la biblioteca ENCODE [3] . Ahora el proyecto tiene como objetivo crear una enciclopedia de genes y sus variantes con una descripción completa de sus características estructurales en genomas humanos y de ratón utilizando métodos de análisis computacional, anotación manual y verificación experimental [4] .
El objetivo final del proyecto es crear una base de anotaciones que incluya todos los loci codificadores de proteínas con transcripciones alternativas [5] , loci no codificantes con transcripciones detectadas [6] y pseudogenes [7] .
En septiembre de 2003, el Instituto Nacional de Investigación del Genoma Humano ( NHGRI ) lanzó el consorcio público de investigación ENCODE para emprender un proyecto para identificar todos los elementos funcionales del genoma humano. Este proyecto es una continuación del Proyecto del Genoma Humano [ 8] , lanzado en 1990 por la Organización Nacional de la Salud de EE.UU. ( NIH ). El objetivo del proyecto era descifrar la secuencia del ADN humano . En 2003 se publicaron los resultados y la comunidad científica expresó interés en estudiar los elementos funcionales del genoma humano para comprender mejor los mecanismos de desarrollo de ciertas enfermedades. Para ello se puso en marcha el proyecto ENCODE. Se dividió en tres fases: la fase piloto (inicial), el desarrollo de la metodología y la fase productiva [9] . Durante la fase piloto, estaba previsto estudiar unos 30 Mb del genoma humano , y los resultados obtenidos se tendrán en cuenta en el futuro a la hora de analizar el resto del genoma humano [9] . Para asignar genes codificadores de proteínas conocidos a este fragmento del genoma, se creó el proyecto GENCODE [3] .
En abril de 2005, se publicó la primera versión de GENCODE anotada en 44 loci del genoma humano [3] . Describió 416 loci genómicos conocidos, 26 nuevos loci codificadores de proteínas, 82 transcritos y 170 loci pseudogénicos . La segunda publicación (14 de octubre de 2005) actualizó y confirmó la información sobre loci previamente anotados, principalmente debido a los datos experimentales de RACE y RT-PCR [3] .
En junio de 2007, se completó la fase piloto de ENCODE [10] . El proyecto se consideró un éxito y el Instituto Welcome Trust Sanger recibió una subvención del NHGRI para ampliar el proyecto GENCODE [11] .
En 2012, se lanzó la versión más grande de GENCODE 7 (basado en datos de diciembre de 2011), que combinaba la anotación automática de Ensembl y la anotación manual. Desde 2013, GENCODE ha recibido una segunda subvención para continuar trabajando en la anotación del genoma humano, así como la anotación del genoma de ratón para estudios comparativos de genomas humanos y de ratón [11] .
En abril de 2018, se publicó GENCODE 28 (que contiene datos procesados hasta noviembre de 2017) [12] .
Las tareas que se resolvieron en el proyecto GENCODE surgieron ante la comunidad científica a medida que se ampliaba el conocimiento en el campo de la genética. Por regla general, estas tareas estaban asociadas con el refinamiento de las definiciones de los términos genéticos y con el estudio de las funciones de las regiones genómicas que no habían sido objeto de una consideración detallada anteriormente. Los siguientes son ejemplos de preguntas y temas interesantes que se exploran dentro de GENCODE [11] .
La tarea de definir el concepto de " gen " se ha enfrentado a los científicos a lo largo del tiempo desde que los investigadores han reflexionado sobre las cuestiones de la herencia. En la década de 1900, el gen se consideraba como una especie de unidad discreta de herencia, luego el gen comenzó a considerarse la base para la biosíntesis de proteínas y, recientemente, este concepto se ha ampliado a un fragmento genómico transcrito en ARN [13] . Aunque la definición de un gen ha evolucionado significativamente durante el último siglo, sigue siendo un tema complejo y controvertido para muchos científicos. Durante el desarrollo de los proyectos ENCODE y, en particular, GENCODE, se describieron con más detalle aspectos aún más problemáticos de la definición, como empalmes alternativos , regiones intergénicas, así como patrones complejos de regulación dispersa , conservadurismo de regiones no codificantes. y la abundancia de genes que producen ARN no codificante . Dado que el objetivo global del proyecto GENCODE es crear una enciclopedia de genes y variantes de genes, estos problemas han planteado la necesidad de que el proyecto proporcione una definición actualizada del concepto de gen [13] .
Los pseudogenes son secuencias de ADN que codifican proteínas (o similares) en las que se ha producido una deleción o un cambio de marco [14] . Se enumeran en la mayoría de las bases de datos genómicas como subproductos de anotación de secuencias de codificación de proteínas más familiares. Sin embargo, análisis recientes han demostrado que algunos de los pseudogenes no solo se expresan, sino que también funcionan, desempeñando un papel en varios procesos biológicos [15] . Para hacer frente a las complejidades de describir pseudogenes, dentro de GENCODE, los investigadores han creado una ontología de pseudogenes utilizando métodos automatizados, manuales y experimentales para vincular sus diversas propiedades, incluidas las propiedades de secuencia, la evolución y la posible función biológica [4] . El número de pseudogenes anotados crece con cada nueva versión de GENCODE (ver estadísticas principales ).
Una de las áreas de investigación clave del proyecto GENCODE es el estudio de la importancia biológica del ARN largo no codificante (lncRNA). Para comprender y estudiar mejor la expresión de lncRNA humano, se lanzó un subproyecto dentro de GENCODE para desarrollar micromatrices personalizadas para cuantificar dichas transcripciones en la anotación de lncRNA [6] . Varias de estas plataformas se han creado utilizando el sistema eArray de Agilent Technologies y están disponibles en el formato estándar de Agilent [ 16] .
El conjunto de datos de ARN largos no codificantes presentado en GENCODE (en particular, en la versión GENCODE 7) se considera el más grande de todos los conjuntos de datos de lncRNA presentados. Al mismo tiempo, se superpone poco con otros conjuntos de datos existentes [6] . Las transcripciones anotadas como lncRNA se pueden clasificar en los siguientes tipos según su posición en el genoma en relación con los genes que codifican proteínas:
La tabla muestra las instituciones cuya participación fue anunciada en el sitio web de GENCODE [18] .
Fase piloto | Escalado de proyectos | Segunda fase (en curso) |
---|---|---|
Instituto Sanger , Cambridge, Reino Unido | Instituto Sanger , Cambridge, Reino Unido | Instituto Sanger , Cambridge, Reino Unido |
Instituto Municipal de Investigaciones Médicas (IMIM), Barcelona, Cataluña | Centro de Regulación Genómica ( CRG ), Barcelona, Cataluña | Centro de Regulación Genómica ( CRG ), Barcelona, Cataluña |
Universidad de Ginebra , Suiza | Universidad de Lausana , Suiza | Universidad de Lausana , Suiza |
Universidad de California , Berkeley, EE. UU. | Universidad de Santa Cruz ( UCSC ), California, EE. UU. | Universidad de Santa Cruz ( UCSC ), California, EE. UU. |
Instituto Europeo de Bioinformática, Hinkston, Reino Unido | Instituto de Tecnología de Massachusetts (MIT), Boston EE. UU. | Instituto Tecnológico de Massachusetts (MIT), Boston, EE. UU. |
Universidad de Yale , New Haven, EE. UU. | Universidad de Yale , New Haven, EE. UU. | |
Centro Nacional de Investigaciones Oncológicas ( CNIO ), Madrid, España | Centro Nacional de Investigaciones Oncológicas ( CNIO ), Madrid, España | |
Universidad de Washington ( WashU ), St. Louis, EE. UU. | Instituto Europeo de Bioinformática , Cambridge, Reino Unido |
La integridad de los datos en las anotaciones GENCODE crece constantemente. A continuación se muestran las estadísticas de la versión GENCODE 28 [19] . Esta versión corresponde a la versión Ensembl 92 y contiene una anotación realizada en el ensamblaje del genoma humano GRCh38 , pero también disponible para el ensamblaje GRCh37 ).
Categorías | Total | Categorías | Total |
---|---|---|---|
Número total de genes | 58 381 | Transcripciones totales | 203 835 |
Genes que codifican proteínas | 19 901 | Transcripciones de codificación de proteínas: | 82 335 |
Genes largos de ARN no codificante | 15 779 | - codifica una proteína completa | 56 541 |
Pequeños genes de ARN no codificantes | 7 569 | - codifica un fragmento de proteína | 25 794 |
Pseudogenes : | 14 723 | Transcripciones de descomposición mediadas por tonterías | 14 889 |
- pseudogenes procesados | 10 693 | Transcripciones de loci largos de ARN no codificante | 28 468 |
- pseudogenes crudos | 3 519 | ||
- pseudogenes unitarios | 218 | ||
- pseudogenes polimórficos | 38 | ||
- pseudogenes | Dieciocho | ||
Segmentos del gen del receptor de células T de inmunoglobulina : | 645 | Número total de anotaciones distintas | 61 132 |
- segmentos codificadores de proteínas | 408 | Número de genes con más de una anotación | 13 641 |
- pseudogenes | 237 |
Las estadísticas comparativas de las cuatro versiones principales de GENCODE se muestran en el gráfico de la derecha [20] .
Los datos sugieren que la cobertura del genoma (el número de loci detectados y anotados) está aumentando constantemente. Al mismo tiempo, la proporción de genes que codifican proteínas entre los anotados disminuye, principalmente debido a los resultados de la anotación del sitio poli(A) y el análisis de límite de expresión génica ( CAGE ) [4] . Simultáneamente, aumenta el número de pseudogenes y loci anotados como ARN no codificantes largos .
El proyecto GENCODE utilizó anotación manual y automática. Al verificar los resultados, se utilizaron datos de experimentos de laboratorio [21] .
La información sobre las transcripciones de Ensembl obtenidas mediante la anotación automática de genes se basó en datos experimentales sobre secuencias de proteínas y ARNm de bases de datos públicas [22] . Además de las regiones codificantes de proteínas, se anotaron regiones no traducidas, ARN largos no codificantes y ARN cortos no codificantes [4] .
HAVANA (Human and Vertebrate Analysis and Anotation) es un grupo de investigación que realiza la anotación manual de transcripciones en el proyecto GENCODE [3] [4] .
Además del grupo HAVANA, el consorcio GENCODE incluyó varios otros grupos que analizaron loci anotados utilizando programas Ensembl y ayudaron a los anotadores a identificar loci faltantes o anotados incorrectamente, incluidos los sitios de empalme . Se utilizó el sistema de seguimiento AnnoTrack [24] para intercambiar información entre grupos . El proceso también utilizó datos de experimentos de secuenciación de ARN , CAGE y Ditag [25] .
Además de los grupos involucrados oficialmente en el proyecto, investigadores independientes han estado trabajando para mejorar la calidad de la anotación GENCODE [26] .
Cuando se combinaron, todos los modelos de transcripción generados por anotación automática y manual se compararon en busca de transcripciones superpuestas. Las discrepancias encontradas se detectaron mediante el sistema AnnoTrack [4] .
La anotación automática no siempre puede considerarse correcta (por ejemplo, solo en el 45% de los casos de anotación automática todas las transcripciones alternativas se predicen correctamente [4] ). En caso de discrepancia de anotación, se dio prioridad a la anotación HAVANA, ya que la anotación manual en casos complejos involucraba el análisis del contexto genómico, la literatura y el uso de datos experimentales de Mus musculus . Sin embargo, para tales casos, la información obtenida por ambos métodos de anotación se conserva [4] .
A las transcripciones se les asigna un nivel de soporte basado en la comparación de la transcripción GENCODE con secuencias marcadoras de expresión y alineación de ARNm (EST) obtenidas de Ensembl y UCSC. Como resultado, las anotaciones de cada transcripción se dividen en anotaciones definidas manualmente, definidas automáticamente o combinadas, es decir, aquellas para las que tanto el método automático como el método de anotación manual dieron los mismos resultados [4] .
Se generaron ADNc de doble cadena de tejidos humanos ( cerebro , corazón , riñón , testículo , hígado , bazo , pulmón y músculo esquelético ) mediante amplificación de ADNc . El ADN purificado se utilizó para crear una biblioteca genómica utilizando el "kit de preparación de muestras de ADN genómico" de Illumina . La biblioteca se secuenció en la plataforma Illumina Genome Analyzer 2. Las cañas (35 o 75 nt cada una ) se mapearon en el genoma humano de referencia del ensamblaje hg19 y se predijeron los amplicones utilizando el software Bowtie. Las transcripciones se validaron solo mediante lecturas que se mapearon inequívocamente en el genoma. Los sitios de unión de exones se consideraron confiables si mapeaban al menos 10 lecturas que contenían al menos 4 (para lecturas de 35 nucleótidos de largo) u 8 (para lecturas de 75 nucleótidos de largo) nucleótidos en cada uno de los dos exones separados por un sitio de empalme [4] .
Otros enfoquesSe utilizó el servicio web APPRIS (CNIO) para anotar transcripciones de genes alternativos . APPRIS selecciona una variante como la "isoforma principal" en función de la información sobre el producto proteico del gen y sobre los ortólogos de especies estrechamente relacionadas. APPRIS se ha utilizado ampliamente para ampliar el proyecto ENCODE y anotar los genomas de otras especies ( Mus sp. , Danio sp. , Rattus sp. ) [27] .
El programa PhyloCSF se utilizó para buscar secuencias de codificación en transcripciones predichas automáticamente a partir de datos de secuenciación de ARN . Se basa en el análisis de patrones evolutivos mediante la alineación de la transcripción con exones de vertebrados de UCSC (incluidos 33 mamíferos placentarios ) [4] .
La versión actual del conjunto de genes humanos en GENCODE incluye archivos de anotación (en formatos GTF y GFF3 ), archivos FASTA y archivos METADATA asociados con la anotación GENCODE para todas las regiones genómicas [12] . Se correlacionan con el cromosoma de referencia y se almacenan en archivos separados que contienen: anotación de genes, sitios de poliadenilación anotados por el grupo HAVANA, pseudogenes predichos por los algoritmos de la Universidad de Yale y la Universidad de Santa Cruz (EE. UU.) , ARN largos no codificantes, y estructuras de ARNt predichas por tRNA-Scan [12] .
Todos los genes en el conjunto de datos GENCODE se clasifican en tres categorías según el tipo de anotación [4] :
A los genes y las transcripciones se les asigna el estado de "conocido", "nuevo" y "supuesto" en función de su representación en otras bases de datos importantes y de las bases utilizadas para construir sus transcripciones constituyentes [4] .
Conocido: Presente en las bases de datos HUGO Gene Nomenclature Committee (HGNC) y RefSeq [4] .
Novela: no presente en las bases de datos HGNC o RefSeq, pero bien respaldada por una transcripción específica de ese locus o por la evidencia de su presencia en un locus parálogo u ortólogo [4] .
Supuesto: No presente en las bases de datos GNNC o RefSeq, pero respaldado por evidencia de la existencia de una transcripción más corta y más rara [4] .
El proyecto Ensembl es una parte importante del proyecto ENCODE y es un navegador de genoma que le permite visualizar el ensamblaje del genoma y todos los datos del proyecto ENCODE, en particular, las regiones genómicas anotadas en el proyecto GENCODE [28] .
RGASP (Proyecto de Evaluación de Anotación del Genoma RNA-seq) es un proyecto organizado dentro del consorcio GENCODE después del taller EGASP (Proyecto de Evaluación de Anotación del Genoma ENCODE) sobre predicción de genes. Se realizaron dos sesiones de talleres para analizar los resultados de la secuenciación de ARN , así como para considerar sus diversos aspectos (metodológicos y técnicos). Uno de los hallazgos más significativos de las dos primeras fases del proyecto fue la importancia de relacionar la lectura con la calidad de la predicción genética resultante. En 2014, se llevó a cabo la tercera sesión de los talleres RGASP, donde el foco principal fue el mapeo de lecturas del genoma. El proyecto proporcionó software para la anotación de transcripciones (detección, reconstrucción y cálculo del número de transcripciones) [29] .