GENCODE

GENCODE
Contenido
Descripción Enciclopedia de genes y variantes genéticas
Tipo de datos Anotaciones de genes humanos y de ratón en formato GTF/GFF3
Contactos
Centro de Investigación Instituto Sanger (Bienvenida Confianza Instituto Sanger)
Los autores Harrow J, et al [1]
Fecha de lanzamiento septiembre 2012
Disponibilidad
Sitio web GENCODE
Otro
Licencia Acceso abierto
Frecuencia de lanzamiento Genoma humano - una vez cada 3 meses
Genoma de ratón - una vez cada 6 meses
Versión GENCODE 28 (genoma humano), M17 (genoma de ratón)

GENCODE  es un proyecto de investigación genómica que forma parte del proyecto Encyclopedia of DNA Elements (ENCODE) [2] .

GENCODE fue creado como parte de la fase piloto del proyecto ENCODE para identificar y mapear todos los genes codificadores de proteínas de la biblioteca ENCODE [3] . Ahora el proyecto tiene como objetivo crear una enciclopedia de genes y sus variantes con una descripción completa de sus características estructurales en genomas humanos y de ratón utilizando métodos de análisis computacional, anotación manual y verificación experimental [4] .

El objetivo final del proyecto es crear una base de anotaciones que incluya todos los loci codificadores de proteínas con transcripciones alternativas [5] , loci no codificantes con transcripciones detectadas [6] y pseudogenes [7] .

Historia

En septiembre de 2003, el Instituto Nacional de Investigación del Genoma Humano ( NHGRI ) lanzó el consorcio público de investigación ENCODE para emprender un proyecto para identificar todos los elementos funcionales del genoma humano. Este proyecto es una continuación del Proyecto del Genoma Humano [ 8] , lanzado en 1990 por la Organización Nacional de la Salud de EE.UU. ( NIH ). El objetivo del proyecto era descifrar la secuencia del ADN humano . En 2003 se publicaron los resultados y la comunidad científica expresó interés en estudiar los elementos funcionales del genoma humano para comprender mejor los mecanismos de desarrollo de ciertas enfermedades. Para ello se puso en marcha el proyecto ENCODE. Se dividió en tres fases: la fase piloto (inicial), el desarrollo de la metodología y la fase productiva [9] . Durante la fase piloto, estaba previsto estudiar unos 30 Mb del genoma humano , y los resultados obtenidos se tendrán en cuenta en el futuro a la hora de analizar el resto del genoma humano [9] . Para asignar genes codificadores de proteínas conocidos a este fragmento del genoma, se creó el proyecto GENCODE [3] .  

En abril de 2005, se publicó la primera versión de GENCODE anotada en 44 loci del genoma humano [3] . Describió 416 loci genómicos conocidos, 26 nuevos loci codificadores de proteínas, 82 transcritos y 170 loci pseudogénicos . La segunda publicación (14 de octubre de 2005) actualizó y confirmó la información sobre loci previamente anotados, principalmente debido a los datos experimentales de RACE y RT-PCR [3] .

En junio de 2007, se completó la fase piloto de ENCODE [10] . El proyecto se consideró un éxito y el Instituto Welcome Trust Sanger recibió una subvención del NHGRI para ampliar el proyecto GENCODE [11] .

En 2012, se lanzó la versión más grande de GENCODE 7 (basado en datos de diciembre de 2011), que combinaba la anotación automática de Ensembl y la anotación manual. Desde 2013, GENCODE ha recibido una segunda subvención para continuar trabajando en la anotación del genoma humano, así como la anotación del genoma de ratón para estudios comparativos de genomas humanos y de ratón [11] .

En abril de 2018, se publicó GENCODE 28 (que contiene datos procesados ​​hasta noviembre de 2017) [12] .

Tareas

Las tareas que se resolvieron en el proyecto GENCODE surgieron ante la comunidad científica a medida que se ampliaba el conocimiento en el campo de la genética. Por regla general, estas tareas estaban asociadas con el refinamiento de las definiciones de los términos genéticos y con el estudio de las funciones de las regiones genómicas que no habían sido objeto de una consideración detallada anteriormente. Los siguientes son ejemplos de preguntas y temas interesantes que se exploran dentro de GENCODE [11] .

Definición del término "gen"

La tarea de definir el concepto de " gen " se ha enfrentado a los científicos a lo largo del tiempo desde que los investigadores han reflexionado sobre las cuestiones de la herencia. En la década de 1900, el gen se consideraba como una especie de unidad discreta de herencia, luego el gen comenzó a considerarse la base para la biosíntesis de proteínas y, recientemente, este concepto se ha ampliado a un fragmento genómico transcrito en ARN [13] . Aunque la definición de un gen ha evolucionado significativamente durante el último siglo, sigue siendo un tema complejo y controvertido para muchos científicos. Durante el desarrollo de los proyectos ENCODE y, en particular, GENCODE, se describieron con más detalle aspectos aún más problemáticos de la definición, como empalmes alternativos , regiones intergénicas, así como patrones complejos de regulación dispersa , conservadurismo de regiones no codificantes. y la abundancia de genes que producen ARN no codificante . Dado que el objetivo global del proyecto GENCODE es crear una enciclopedia de genes y variantes de genes, estos problemas han planteado la necesidad de que el proyecto proporcione una definición actualizada del concepto de gen [13] .

Pseudogenes

Los pseudogenes son secuencias de ADN que codifican proteínas (o similares) en las que se ha producido una deleción o un cambio de marco [14] . Se enumeran en la mayoría de las bases de datos genómicas como subproductos de anotación de secuencias de codificación de proteínas más familiares. Sin embargo, análisis recientes han demostrado que algunos de los pseudogenes no solo se expresan, sino que también funcionan, desempeñando un papel en varios procesos biológicos [15] . Para hacer frente a las complejidades de describir pseudogenes, dentro de GENCODE, los investigadores han creado una ontología de pseudogenes utilizando métodos automatizados, manuales y experimentales para vincular sus diversas propiedades, incluidas las propiedades de secuencia, la evolución y la posible función biológica [4] . El número de pseudogenes anotados crece con cada nueva versión de GENCODE (ver estadísticas principales ).

ARN largo no codificante (lncRNA)

Una de las áreas de investigación clave del proyecto GENCODE es el estudio de la importancia biológica del ARN largo no codificante (lncRNA). Para comprender y estudiar mejor la expresión de lncRNA humano, se lanzó un subproyecto dentro de GENCODE para desarrollar micromatrices personalizadas para cuantificar dichas transcripciones en la anotación de lncRNA [6] . Varias de estas plataformas se han creado utilizando el sistema eArray de Agilent Technologies y están disponibles en el formato estándar de Agilent [ 16] .

El conjunto de datos de ARN largos no codificantes presentado en GENCODE (en particular, en la versión GENCODE 7) se considera el más grande de todos los conjuntos de datos de lncRNA presentados. Al mismo tiempo, se superpone poco con otros conjuntos de datos existentes [6] . Las transcripciones anotadas como lncRNA se pueden clasificar en los siguientes tipos según su posición en el genoma en relación con los genes que codifican proteínas:

  1. ARN antisentido : un locus para el que se ha encontrado al menos un transcrito que se superpone con un exón de un gen que codifica una proteína en la hebra opuesta, o hay datos publicados sobre la regulación antisentido de cualquier gen;
  2. ARN no codificante intergénico largo ( lincRNA [17] );
  3. "Superposición": un locus que contiene un gen que codifica una proteína dentro de un intrón en la misma hebra;
  4. "Intron": un locus ubicado dentro de un intrón, pero que no se superpone con exones en la misma hebra;
  5. Transcripción procesada: un locus para el que ninguna transcripción contiene un marco de lectura abierto , y que no puede asignarse a ninguna de las categorías anteriores debido a su compleja estructura.

Principales contribuyentes

La tabla muestra las instituciones cuya participación fue anunciada en el sitio web de GENCODE [18] .

Fase piloto Escalado de proyectos Segunda fase (en curso)
Instituto Sanger , Cambridge, Reino Unido Instituto Sanger , Cambridge, Reino Unido Instituto Sanger , Cambridge, Reino Unido
Instituto Municipal de Investigaciones Médicas (IMIM), Barcelona, ​​Cataluña Centro de Regulación Genómica ( CRG ), Barcelona, ​​Cataluña Centro de Regulación Genómica ( CRG ), Barcelona, ​​Cataluña
Universidad de Ginebra , Suiza Universidad de Lausana , Suiza Universidad de Lausana , Suiza
Universidad de California , Berkeley, EE. UU. Universidad de Santa Cruz ( UCSC ), California, EE. UU. Universidad de Santa Cruz ( UCSC ), California, EE. UU.
Instituto Europeo de Bioinformática, Hinkston, Reino Unido Instituto de Tecnología de Massachusetts (MIT), Boston EE. UU. Instituto Tecnológico de Massachusetts (MIT), Boston, EE. UU.
Universidad de Yale , New Haven, EE. UU. Universidad de Yale , New Haven, EE. UU.
Centro Nacional de Investigaciones Oncológicas ( CNIO ), Madrid, España Centro Nacional de Investigaciones Oncológicas ( CNIO ), Madrid, España
Universidad de Washington ( WashU ), St. Louis, EE. UU. Instituto Europeo de Bioinformática , Cambridge, Reino Unido

Estadísticas básicas

La integridad de los datos en las anotaciones GENCODE crece constantemente. A continuación se muestran las estadísticas de la versión GENCODE 28 [19] . Esta versión corresponde a la versión Ensembl 92 y contiene una anotación realizada en el ensamblaje del genoma humano GRCh38 , pero también disponible para el ensamblaje GRCh37 ).

Categorías Total Categorías Total
Número total de genes 58 381 Transcripciones totales 203 835
Genes que codifican proteínas 19 901 Transcripciones de codificación de proteínas: 82 335
Genes largos de ARN no codificante 15 779 - codifica una proteína completa 56 541
Pequeños genes de ARN no codificantes 7 569 - codifica un fragmento de proteína 25 794
Pseudogenes : 14 723 Transcripciones de descomposición mediadas por tonterías 14 889
- pseudogenes procesados 10 693 Transcripciones de loci largos de ARN no codificante 28 468
- pseudogenes crudos 3 519
- pseudogenes unitarios 218
- pseudogenes polimórficos 38
- pseudogenes Dieciocho
Segmentos del gen del receptor de células T de inmunoglobulina : 645 Número total de anotaciones distintas 61 132
- segmentos codificadores de proteínas 408 Número de genes con más de una anotación 13 641
- pseudogenes 237

Comparación de versiones de GENCODE

Las estadísticas comparativas de las cuatro versiones principales de GENCODE se muestran en el gráfico de la derecha [20] .

Los datos sugieren que la cobertura del genoma (el número de loci detectados y anotados) está aumentando constantemente. Al mismo tiempo, la proporción de genes que codifican proteínas entre los anotados disminuye, principalmente debido a los resultados de la anotación del sitio poli(A) y el análisis de límite de expresión génica ( CAGE ) [4] . Simultáneamente, aumenta el número de pseudogenes y loci anotados como ARN no codificantes largos .

Metodología

El proyecto GENCODE utilizó anotación manual y automática. Al verificar los resultados, se utilizaron datos de experimentos de laboratorio [21] .

Anotación Automática (ENSEMBL)

La información sobre las transcripciones de Ensembl obtenidas mediante la anotación automática de genes se basó en datos experimentales sobre secuencias de proteínas y ARNm de bases de datos públicas [22] . Además de las regiones codificantes de proteínas, se anotaron regiones no traducidas, ARN largos no codificantes y ARN cortos no codificantes [4] .

Anotación a mano (grupo HAVANA)

HAVANA (Human and Vertebrate Analysis and Anotation) es un grupo de investigación que realiza la anotación manual de transcripciones en el proyecto GENCODE [3] [4] .

Además del grupo HAVANA, el consorcio GENCODE incluyó varios otros grupos que analizaron loci anotados utilizando programas Ensembl y ayudaron a los anotadores a identificar loci faltantes o anotados incorrectamente, incluidos los sitios de empalme . Se utilizó el sistema de seguimiento AnnoTrack [24] para intercambiar información entre grupos . El proceso también utilizó datos de experimentos de secuenciación de ARN , CAGE y Ditag [25] .

Además de los grupos involucrados oficialmente en el proyecto, investigadores independientes han estado trabajando para mejorar la calidad de la anotación GENCODE [26] .

Combinación de anotaciones manuales y automáticas

Cuando se combinaron, todos los modelos de transcripción generados por anotación automática y manual se compararon en busca de transcripciones superpuestas. Las discrepancias encontradas se detectaron mediante el sistema AnnoTrack [4] .

La anotación automática no siempre puede considerarse correcta (por ejemplo, solo en el 45% de los casos de anotación automática todas las transcripciones alternativas se predicen correctamente [4] ). En caso de discrepancia de anotación, se dio prioridad a la anotación HAVANA, ya que la anotación manual en casos complejos involucraba el análisis del contexto genómico, la literatura y el uso de datos experimentales de Mus musculus . Sin embargo, para tales casos, la información obtenida por ambos métodos de anotación se conserva [4] .

Evaluación de la calidad

A las transcripciones se les asigna un nivel de soporte basado en la comparación de la transcripción GENCODE con secuencias marcadoras de expresión y alineación de ARNm (EST) obtenidas de Ensembl y UCSC. Como resultado, las anotaciones de cada transcripción se dividen en anotaciones definidas manualmente, definidas automáticamente o combinadas, es decir, aquellas para las que tanto el método automático como el método de anotación manual dieron los mismos resultados [4] .

Los principales enfoques utilizados en GENCODE 7

Amplificación, secuenciación, mapeo y validación de resultados

Se generaron ADNc de doble cadena de tejidos humanos ( cerebro , corazón , riñón , testículo , hígado , bazo , pulmón y músculo esquelético ) mediante amplificación de ADNc . El ADN purificado se utilizó para crear una biblioteca genómica utilizando el "kit de preparación de muestras de ADN genómico" de Illumina . La biblioteca se secuenció en la plataforma Illumina Genome Analyzer 2. Las cañas (35 o 75 nt cada una ) se mapearon en el genoma humano de referencia del ensamblaje hg19 y se predijeron los amplicones utilizando el software Bowtie. Las transcripciones se validaron solo mediante lecturas que se mapearon inequívocamente en el genoma. Los sitios de unión de exones se consideraron confiables si mapeaban al menos 10 lecturas que contenían al menos 4 (para lecturas de 35 nucleótidos de largo) u 8 (para lecturas de 75 nucleótidos de largo) nucleótidos en cada uno de los dos exones separados por un sitio de empalme [4] .

Otros enfoques

Se utilizó el servicio web APPRIS (CNIO) para anotar transcripciones de genes alternativos . APPRIS selecciona una variante como la "isoforma principal" en función de la información sobre el producto proteico del gen y sobre los ortólogos de especies estrechamente relacionadas. APPRIS se ha utilizado ampliamente para ampliar el proyecto ENCODE y anotar los genomas de otras especies ( Mus sp. , Danio sp. , Rattus sp. ) [27] .

El programa PhyloCSF se utilizó para buscar secuencias de codificación en transcripciones predichas automáticamente a partir de datos de secuenciación de ARN . Se basa en el análisis de patrones evolutivos mediante la alineación de la transcripción con exones de vertebrados de UCSC (incluidos 33 mamíferos placentarios ) [4] .

Organización de los datos

La versión actual del conjunto de genes humanos en GENCODE incluye archivos de anotación (en formatos GTF y GFF3 ), archivos FASTA y archivos METADATA asociados con la anotación GENCODE para todas las regiones genómicas [12] . Se correlacionan con el cromosoma de referencia y se almacenan en archivos separados que contienen: anotación de genes, sitios de poliadenilación anotados por el grupo HAVANA, pseudogenes predichos por los algoritmos de la Universidad de Yale y la Universidad de Santa Cruz (EE. UU.) , ARN largos no codificantes, y estructuras de ARNt predichas por tRNA-Scan [12] .

Definición de nivel de anotación

Todos los genes en el conjunto de datos GENCODE se clasifican en tres categorías según el tipo de anotación [4] :

  • Nivel 1 (locus validado): incluye transcripciones que se han anotado manualmente y verificado experimentalmente mediante secuenciación RT-PCR, así como pseudogenes validados mediante tres metodologías diferentes [4] .
  • Nivel 2 (locus anotado manualmente): esto incluye transcripciones anotadas manualmente solo por el equipo de HAVANA, así como transcripciones emparejadas con modelos obtenidos usando el protocolo Ensembl automatizado [4] .
  • Nivel 3 (locus anotado automáticamente): refleja transcripciones o pseudogenes predichos solo por la anotación automática de Ensembl [4] .

Determinar el estado de un gen/transcripción

A los genes y las transcripciones se les asigna el estado de "conocido", "nuevo" y "supuesto" en función de su representación en otras bases de datos importantes y de las bases utilizadas para construir sus transcripciones constituyentes [4] .

Conocido: Presente en las bases de datos HUGO Gene Nomenclature Committee (HGNC) y RefSeq [4] .

Novela: no presente en las bases de datos HGNC o RefSeq, pero bien respaldada por una transcripción específica de ese locus o por la evidencia de su presencia en un locus parálogo u ortólogo [4] .

Supuesto: No presente en las bases de datos GNNC o RefSeq, pero respaldado por evidencia de la existencia de una transcripción más corta y más rara [4] .

Proyectos relacionados con GENCODE

Conjunto

El proyecto Ensembl es una parte importante del proyecto ENCODE y es un navegador de genoma que le permite visualizar el ensamblaje del genoma y todos los datos del proyecto ENCODE, en particular, las regiones genómicas anotadas en el proyecto GENCODE [28] .

RGASP

RGASP (Proyecto de Evaluación de Anotación del Genoma RNA-seq) es un proyecto organizado dentro del consorcio GENCODE después del taller EGASP (Proyecto de Evaluación de Anotación del Genoma ENCODE) sobre predicción de genes. Se realizaron dos sesiones de talleres para analizar los resultados de la secuenciación de ARN , así como para considerar sus diversos aspectos (metodológicos y técnicos). Uno de los hallazgos más significativos de las dos primeras fases del proyecto fue la importancia de relacionar la lectura con la calidad de la predicción genética resultante. En 2014, se llevó a cabo la tercera sesión de los talleres RGASP, donde el foco principal fue el mapeo de lecturas del genoma. El proyecto proporcionó software para la anotación de transcripciones (detección, reconstrucción y cálculo del número de transcripciones) [29] .

Notas

  1. Williams FM , Scollen S. , Cao D. , Memari Y. , Hyde CL , Zhang B. , Sidders B. , Ziemek D. , Shi Y. , Harris J. , Harrow I. , Dougherty B. , Malarstig A. , McEwen R. , Stephens JC , Patel K. , Menni C. , Shin SY , Hodgkiss D. , Surdulescu G. , He W. , Jin X. , McMahon SB , Soranzo N. , John S. , Wang J. , Spector TD Genes que contribuyen a la sensibilidad al dolor en la población normal: un estudio de secuenciación del exoma.  (Inglés)  // PLoS Genética. - 2012. - vol. 8 , núm. 12 _ - P.e1003095-1003095 . -doi : 10.1371 / journal.pgen.1003095 . — PMID 23284290 .
  2. ↑ ENCODE : Enciclopedia de elementos de ADN  . CODIFICAR . Universidad Stanford. — El sitio web oficial del proyecto y el consorcio ENCODE del mismo nombre. Recuperado: 19 Mayo 2018.
  3. ↑ 1 2 3 4 5 Harrow J. , Denoeud F. , Frankish A. , Reymond A. , Chen CK , Chrast J. , Lagarde J. , Gilbert JG , Storey R. , Swarbreck D. , Rossier C. , Ucla C . , Hubbard T. , Antonarakis SE , Guigo R. GENCODE: producción de una anotación de referencia para ENCODE.  (inglés)  // Biología del genoma. - 2006. - vol. 7 Suplemento 1 . - Pág. 4-1 . -doi : 10.1186 / gb-2006-7-s1-s4 . —PMID 16925838 .
  4. ↑ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Harrow J. , Frankish A. , Gonzalez JM , Tapanari E. , Diekhans M. , Kokocinski F. , Aken BL , Barrell D. , Zadissa A. , Searle S. , Barnes I. , Bignell A. , Boychenko V. , Hunt T. , Kay M. , Mukherjee G. , Rajan J. , Despacio-Reyes G. , Saunders G. , Steward C. , Harte R. , Lin M. , Howald C. , Tanzer A. , Derrien T. , Chrast J. , Walters N. , Balasubramanian S. , Pei B. , Tress M. , Rodriguez JM , Ezkurdia I. , van Baren J . , Brent M. , Haussler D. , Kellis M. , Valencia A. , Reymond A. , Gerstein M. , Guigó R. , Hubbard TJ GENCODE: la anotación del genoma humano de referencia para el Proyecto ENCODE.  (inglés)  // Investigación del genoma. - 2012. - Septiembre ( vol. 22 , no. 9 ). - Pág. 1760-1774 . -doi : 10.1101/ gr.135350.111 . —PMID 22955987 .
  5. Frankish A. , Mudge JM , Thomas M. , Harrow J. La importancia de identificar empalmes alternativos en la anotación del genoma de vertebrados.  (Inglés)  // Base de datos: The Journal Of Biological Databases And Curation. - 2012. - vol. 2012 . - Pág. 014-014 . -doi : 10.1093 / base de datos/bas014 . — PMID 22434846 .
  6. ↑ 1 2 3 Derrien T. , Johnson R. , Bussotti G. , Tanzer A. , ​​Djebali S. , Tilgner H. , Guernec G. , Martin D. , Merkel A. , Knowles DG , Lagarde J. , Veeravalli L. , Ruan X. , Ruan Y. , Lassmann T. , Carninci P. , Brown JB , Lipovich L. , Gonzalez JM , Thomas M. , Davis CA , Shiekhattar R. , Gingeras TR , Hubbard TJ , Notredame C. , Harrow J . , Guigó R. El catálogo GENCODE v7 de ARN largos no codificantes humanos: análisis de su estructura génica, evolución y expresión.  (inglés)  // Investigación del genoma. - 2012. - Septiembre ( vol. 22 , no. 9 ). - Pág. 1775-1789 . -doi : 10.1101/ gr.132159.111 . —PMID 22955988 .
  7. Pei B. , Sisu C. , Frankish A. , Howald C. , Habegger L. , Mu XJ , Harte R. , Balasubramanian S. , Tanzer A. , ​​Diekhans M. , Reymond A. , Hubbard TJ , Harrow J. , Gerstein MB El recurso pseudogénico GENCODE.  (inglés)  // Biología del genoma. - 2012. - 26 de septiembre ( vol. 13 , núm. 9 ). - Pág. 51-51 . -doi : 10.1186 / gb-2012-13-9-r51 . —PMID 22951037 .
  8. Todo sobre el Proyecto Genoma Humano (HGP ) . Instituto Nacional de Investigación del Genoma Humano (1 de octubre de 2015). — Sobre el Proyecto Genoma Humano. Fecha de acceso: 12 de mayo de 2018.  
  9. ↑ 1 2 Consorcio del Proyecto ENCODE. Proyecto ENCODE (ENCyclopedia Of DNA Elements).  (Inglés)  // Ciencia (Nueva York, NY). - 2004. - 22 de octubre ( vol. 306 , núm. 5696 ). - Pág. 636-640 . -doi : 10.1126 / ciencia.1105136 . — PMID 15499007 .
  10. Consorcio del Proyecto ENCODE, Ewan Birney, John A. Stamatoyannopoulos, Anindya Dutta, Roderic Guigó. Identificación y análisis de elementos funcionales en el 1% del genoma humano por el proyecto piloto ENCODE  // Nature. — 2007-06-14. - T. 447 , n. 7146 . — S. 799–816 . — ISSN 1476-4687 . -doi : 10.1038/ naturaleza05874 .
  11. ↑ 1 2 3 The GENCODE Project: Encyclopædia of genes and gene variantes  (inglés)  (enlace no disponible) . Bienvenida Trust Sanger Institute. — Descripción del proyecto GENCODE en el sitio web oficial del proyecto. Consultado el 12 de mayo de 2018. Archivado desde el original el 29 de abril de 2018.
  12. ↑ 1 2 3 Versión actual de GENCODE  (inglés)  (enlace descendente) . Bienvenida Trust Sanger Institute. — Lanzamiento de GENCODE 28 (abril de 2018). Consultado el 12 de mayo de 2018. Archivado desde el original el 12 de abril de 2018.
  13. ↑ 1 2 Mark B. Gerstein, Can Bruce, Joel S. Rozowsky, Deyou Zheng, Jiang Du. ¿Qué es un gen, post-ENCODE? Historia y definición actualizada  // Genome Research. - Junio ​​2007. - T. 17 , núm. 6 _ — S. 669–681 . — ISSN 1088-9051 . - doi : 10.1101/gr.6339607 .
  14. EF Vanin. Pseudogenes procesados: características y evolución  // Revista Anual de Genética. - 1985. - T. 19 . — Pág. 253–272 . — ISSN 0066-4197 . -doi : 10.1146 / annurev.ge.19.120185.001345 .
  15. Jinrui Xu, Jianzhi Zhang. ¿Son funcionales los pseudogenes traducidos a humanos?  (Inglés)  // Biología Molecular y Evolución. — 2016-03-01. — vol. 33 , edición. 3 . — Pág. 755–760 . — ISSN 0737-4038 . -doi : 10.1093 / molbev/msv268 .
  16. GENCODE Custom lncRNA Expression Microarray Design  (inglés)  (enlace no disponible) . GENCODE . Bienvenida Trust Sanger Institute. — Diseño de microarrays para la expresión de RNAs largos no codificantes para el proyecto GENCODE. Consultado el 13 de mayo de 2018. Archivado desde el original el 8 de abril de 2018.
  17. Igor Ulitsky, David P. Bartel. lincRNAs: genómica, evolución y mecanismos  // Cell. — 2013-07-03. - T. 154 , n. 1 . — P. 26–46 . — ISSN 0092-8674 . -doi : 10.1016 / j.cell.2013.06.020 .
  18. Participantes, todo el personal subvencionado  (ing.)  (enlace no disponible) . Bienvenida Instituto Sanger. — Lista de participantes del proyecto GENCODE en el sitio web oficial del proyecto. Consultado el 13 de mayo de 2018. Archivado desde el original el 11 de mayo de 2018.
  19. Estadísticas sobre todos los lanzamientos de Human GENCODE  (inglés)  (enlace descendente) . GENCODE . Instituto Wellcome Sanger (abril de 2018). - Todos los lanzamientos de anotaciones del genoma humano en el sitio web oficial de GENCODE. Consultado el 13 de mayo de 2018. Archivado desde el original el 14 de abril de 2018.
  20. Estadísticas sobre la congelación actual de GENCODE (versión 21  ) . GENCODE . Bienvenida Trust Sanger Institute. — Estadísticas de publicación de GENCODE 21. Consultado el 13 de mayo de 2018.
  21. Objetivos de GENCODE de la fase 2  . GENCODE . Bienvenida Trust Sanger Institute. — Descripción de las tareas del proyecto GENCODE en el sitio web oficial del proyecto. Recuperado: 13 de mayo de 2018.
  22. Conjunto de genes de  conjunto . ¡Archivo!Conjunto . EMBL-EBI. — Descripción de los datos de Ensembl en el sitio web oficial del proyecto. Recuperado: 13 de mayo de 2018.
  23. Mudge JM , Harrow J. Creación de una anotación de genes de referencia para el ensamblaje del genoma C57BL6/J de ratón.  (inglés)  // Genoma de mamíferos: Revista oficial de la Sociedad Internacional del Genoma de Mamíferos. - 2015. - Octubre ( vol. 26 , no. 9-10 ). - pág. 366-378 . -doi : 10.1007 / s00335-015-9583-x . — PMID 26187010 .
  24. Kokocinski F. , Harrow J. , Hubbard T. AnnoTrack: un sistema de seguimiento para la anotación del genoma.  (Inglés)  // BMC Genomics. - 2010. - 5 de octubre ( vol. 11 ). - pág. 538-538 . -doi : 10.1186 / 1471-2164-11-538 . — PMID 20923551 .
  25. S. Searle, A. Frankish, A. Bignell, B. Aken, T. Derrien. El conjunto de genes humanos GENCODE  // Biología del genoma. — 2010-10-11. - T. 11 , n. 1 . - S. P36 . — ISSN 1474-760X . -doi : 10.1186 / gb-2010-11-s1-p36 .
  26. Wright JC , Mudge J. , Weisser H. , Barzine MP , Gonzalez JM , Brazma A. , Choudhary JS , Harrow J. Mejora de la anotación del gen de referencia GENCODE mediante un flujo de trabajo de proteogenómica de alta rigurosidad.  (Inglés)  // Nature Communications. - 2016. - 2 de junio ( vol. 7 ). - Pág. 11778-11778 . -doi : 10.1038/ ncomms11778 . —PMID 27250503 .
  27. José Manuel Rodríguez, Juan Rodríguez-Rivas, Tomás Di Domenico, Jesús Vázquez, Alfonso Valencia. APPRIS 2017: isoformas principales para conjuntos de genes múltiples  //  Investigación de ácidos nucleicos. — 2017-10-23. — vol. 46 , edición. D1 . — Pág. D213–D217 . — ISSN 1362-4962 0305-1048, 1362-4962 . doi : 10.1093 / nar/gkx997 .
  28. Datos de ENCODE en  Ensemble . conjunto _ EMBL-EBI. — Descripción del uso de los datos del proyecto ENCODE en el sitio web de Ensembl. Fecha de acceso: 12 de mayo de 2018.
  29. RGASP . Proyecto de evaluación de la anotación del genoma de RNA-seq  (inglés)  (enlace no disponible) . GENCODE . Bienvenida Instituto Sanger .  — Descripción del proyecto RGASP en el sitio web oficial de GENCODE. Consultado el 13 de mayo de 2018. Archivado desde el original el 8 de abril de 2018.

Enlaces