"Gene Ontology" ( Eng. Gene Ontology , o GO ) es un proyecto de bioinformática dedicado a la creación de una terminología unificada para la anotación de genes y productos génicos de todas las especies biológicas [1] .
El objetivo del proyecto es mantener y reponer una determinada lista de atributos de genes y sus productos, compilar anotaciones de genes y productos, desarrollar herramientas para trabajar con la base de datos del proyecto , así como para analizar nuevos datos experimentales, en particular, analizar la representación de grupos funcionales de genes . Vale la pena señalar que el proyecto GO creó un lenguaje de marcado para clasificar datos (información sobre genes y sus productos, es decir, ARN y proteínas, así como sus funciones), que le permite encontrar rápidamente información sistemática sobre productos de genes [2 ] [3] [ 4] .
"Gene Ontology" es parte de un proyecto de clasificación más grande - "Open Biomedical Ontology" ( OBO ) [5] .
Las ontologías en informática se utilizan para formalizar ciertas áreas de conocimiento utilizando un sistema de datos sobre objetos del mundo real y las relaciones entre ellos (la llamada base de conocimiento ). En biología y disciplinas afines ha surgido el problema de la falta de un estándar universal de terminología. Los términos que expresan conceptos similares , pero que se utilizan para diferentes especies biológicas , diferentes áreas de investigación, o incluso dentro de diferentes grupos de científicos, pueden tener significados fundamentalmente diferentes, lo que dificulta el intercambio de datos. En este sentido, la tarea del proyecto Gene Ontology era crear una ontología de términos que reflejaran las propiedades de los genes y sus productos y que fueran aplicables a cualquier organismo [2] [3] [4] .
"Gene Ontology" fue creada en 1998 por un consorcio de científicos que estudiaron los genomas de tres organismos modelo : Drosophila melanogaster (mosca de la fruta), Mus musculus (ratón) y Saccharomyces cerevisiae (levadura de panadería) [6] . Desde entonces, muchas bases de datos para otros organismos modelo se han unido al GO Consortium, contribuyendo así no solo a la expansión de la base de datos de anotaciones, sino también a la creación de servicios para ver y aplicar datos.
El GO Consortium ( GOC ) es un conjunto de bases de datos biológicas y grupos de investigación que participan activamente en el proyecto Gene Ontology [7] . Incluye varias bases de datos para varios organismos modelo, bases de datos generales de proteínas, equipos de desarrollo de software y editores de Gene Ontology.
Gene Ontology es un proyecto a gran escala y de rápido desarrollo. En septiembre de 2011, Gene Ontology contenía más de 33 mil términos y alrededor de 12 millones de anotaciones de productos genéticos aplicables a más de 360 mil organismos vivos [2] . Después de 2016, la cantidad de términos superó las 44 mil copias, mientras que la cantidad de organismos anotados en esta base de conocimiento superó los 460 mil individuos [3]
En los últimos años, GO Consortium ha implementado una serie de cambios de ontología para aumentar la cantidad, calidad y especificidad de las anotaciones GO. En 2013, el número de anotaciones superó los 96 millones. La calidad de las anotaciones se ha mejorado mediante controles de calidad automatizados. También se mejoró la anotación de los datos presentados en la base de datos GO, se agregaron nuevos términos. [4] . En 2007, se creó un nuevo servicio InterMine [8] , cuyo objetivo es integrar datos genómicos de un gran número de fuentes dispares y facilitar tareas computacionales como la búsqueda de regiones genómicas específicas y la realización de pruebas estadísticas. El proyecto se creó originalmente para integrar datos de Drosophila, pero ahora incluye una gran cantidad de organismos modelo. En los últimos años, ha estado en marcha el desarrollo del servicio LEGO (Linked Expressions using the Gene Ontology), que permite explorar la interacción de varias anotaciones en la base de datos GO, combinándolas en modelos más generales de genes y sus funciones [3 ] .
Debe entenderse que la "ontología génica" describe fenómenos biológicos complejos y no objetos biológicos específicos. La base de datos Gene Ontology incluye tres diccionarios independientes [1] [9] :
Cada término en "Gene Ontology" tiene una serie de atributos: un identificador digital único, un nombre, un diccionario al que pertenece el término y una definición. Los términos pueden tener sinónimos, que se dividen en exactamente correspondientes al significado del término, más amplios, más estrechos y que tienen alguna relación con el término. También pueden estar presentes atributos como enlaces a fuentes, otras bases de datos y comentarios sobre el significado y el uso del término [1] [9] .
La ontología se basa en el principio de un gráfico acíclico dirigido : cada término está conectado a uno o más términos a través de un tipo diferente de relación . Existen los siguientes tipos de relaciones [1] :
Un ejemplo de uno de los términos del proyecto GO [10] :
identificación: IR: 0043417 nombre: regulación negativa de la regeneración del tejido muscular esquelético espacio de nombres: proceso_biológico def: "Cualquier proceso que detenga, prevenga o reduzca la frecuencia, velocidad o extensión de la regeneración del músculo esquelético". [GOC: jl] sinónimo: "regulación a la baja de la regeneración del músculo esquelético" EXACTO [] sinónimo: "regulación a la baja de la regeneración del músculo esquelético" EXACTO [] sinónimo: "regulación a la baja de la regeneración del músculo esquelético" EXACTO [] sinónimo: "inhibición de la regeneración del músculo esquelético" ESTRECHO [] es_a:GO:0043416 ! regulación de la regeneración del tejido muscular esquelético es_a: IR: 0048640! regulación negativa del crecimiento del desarrollo relación: regula negativamente GO:0043403 ! regeneración del tejido muscular esqueléticoLa base de datos de Gene Ontology se modifica y complementa constantemente tanto por los curadores del proyecto GO como por otros investigadores. Las enmiendas propuestas por los usuarios son revisadas por los editores del proyecto y aplicadas si se aprueban las enmiendas [9] .
El archivo que contiene la base de datos completa [10] se puede obtener en varios formatos desde el sitio web oficial de Gene Ontology, y los términos también están disponibles en línea utilizando el navegador AmiGO Gene Ontology. Además, se puede usar para extraer una matriz de datos de productos genéticos relacionados con un término en particular. También en el sitio se pueden descargar mapas de la correspondencia de los términos GO con otros sistemas de clasificación [11] .
La anotación del genoma tiene como objetivo obtener información sobre las propiedades de los productos génicos. Las anotaciones GO usan los términos "Ontología de genes" para esto. Los miembros del Consorcio GO publican sus anotaciones en el sitio web de Gene Ontology, donde las anotaciones están disponibles para su descarga directa o para verlas en el navegador AmiGO [12] .
La anotación del gen contiene los siguientes datos: el nombre e identificador del producto del gen; el término GO correspondiente; el tipo de datos en los que se basa la anotación ( código de evidencia ); enlace a la fuente; y el creador y la fecha en que se creó la anotación. Para los tipos de datos que indican la validez de una anotación ( código de evidencia ), existe una ontología especial relacionada con el proyecto OBO [13] . Incluye varios métodos de anotación, tanto manuales como automáticos. Por ejemplo [1] :
A partir de septiembre de 2012, más del 99 % de todas las anotaciones de Gene Ontology se obtuvieron automáticamente [4] . Dado que dichas anotaciones no se verifican manualmente, GO Consortium las considera menos confiables y solo una fracción de ellas está disponible en el navegador AmiGO. La base de datos completa de anotaciones se puede descargar desde el sitio web de Gene Ontology.
AmiGO [9] es una aplicación web (servicio GO) que permite a los usuarios consultar, encontrar y visualizar términos GO y anotaciones de productos genéticos. Además, la aplicación contiene la herramienta BLAST (disponible en AmiGO 1, se eliminó en AmiGO 2), servicios que le permiten analizar grandes conjuntos de datos y una interfaz para buscar directamente en la base de datos GO [14] . AmiGO se puede usar en línea en el sitio web de Gene Ontology para acceder a los datos proporcionados por GO Consortium, o se puede descargar e instalar para una aplicación local en cualquier base de datos de estilo GO. AmiGO 2 es software libre y de código abierto .
La visualización brinda al usuario la oportunidad de construir un gráfico que caracterice la ontología del gen para un término GO específico. Hay dos formatos de entrada [15] :
Ejemplo de entrada JSON:
{"GO:0002244":{"title": "foo", "cuerpo": "barra", "rellenar": "#ccccf", "fuente": "#0000ff", "borde":"rojo"}, "GO:0005575":{"título":"solo", "cuerpo":""}, "IR:0033060":{}}Codificación de una relación con el color:
Actitud | Color |
---|---|
es un | azul |
parte de | azul claro |
desarrolla_desde | marrón |
regula | negro |
regula_negativamente | rojo |
regula_positivamente | verde |
La visualización de términos consiste en construir un gráfico desde un nodo que representa el término GO original hasta un nodo raíz, que está representado por el nombre de uno de los tres vocabularios principales: procesos biológicos , funciones moleculares y componentes celulares [1] [9] .
Resumen de datosAdemás de la capacidad de crear gráficos que muestran la ontología del gen GO de un término, AmiGO también implementa varias herramientas que pueden dar al usuario una idea de los datos GO del proyecto. Entre ellos [14] :
GOOSE [16] es un entorno de consulta SQL en línea disponible para los usuarios del servicio AmiGO para crear conjuntos de datos. Este servicio utiliza sintaxis SQL para realizar varias consultas a la base de datos GO. Los espejos EBI (Reino Unido, Cambridge), Berkeley BOP y Berkeley BOP (lite) (ambos ubicados en Berkeley, California) también están disponibles para reducir la carga del sistema.
Además de escribir directamente una consulta manualmente, es posible utilizar plantillas para simplificar parcialmente esta tarea. A continuación se muestra una consulta de base de datos típica (búsqueda de la profundidad máxima del árbol para un componente celular) [16] :
SELECCIONE la distancia como máximo desde graph_path, término DONDE graph_path.term2_id =term.id y term.term_type = 'componente_celular' ORDENAR POR distancia desc límite1;La base de datos en GO tiene una estructura compleja y consta de muchas tablas. Principales bases de datos [16] :
Los siguientes formatos de exportación de datos son posibles como resultado de una consulta [16] :
PANTHER ( Análisis de proteínas a través de relaciones evolutivas) es una enorme base de datos de familias y subfamilias de genes/proteínas que son funcionalmente similares a ellas, que se puede utilizar para clasificar el espectro funcional de productos génicos [ 17] . PANTHER forma parte del proyecto GO, cuyo objetivo principal es la clasificación de proteínas y sus genes.
En PANTHER, la base de datos es editada no solo por el personal del proyecto, sino también por los algoritmos de clasificación. Las proteínas se clasifican según su familia (y subfamilia), función molecular o proceso biológico [17] .
La principal aplicación de PANTHER es dilucidar las funciones de genes inexplicables en cualquier organismo en función de sus relaciones evolutivas con genes cuyas funciones se conocen en la base de datos. Usando funciones genéticas, ontología y métodos de análisis estadístico, PANTHER permite a los biólogos analizar grandes datos, genomas completos obtenidos a través de secuenciación o estudios de expresión génica [18] .
Las principales herramientas disponibles en el sitio web de PANTHER [18] son:
GO Slimmer [19] es una herramienta para mapear anotaciones detalladas de conjuntos de genes en uno o más términos parentales de nivel superior (términos GO slim). Los términos GO slim son versiones truncadas de la ontología GO que contienen un subconjunto de los términos de todo el GO sin una descripción detallada de los términos específicos de bajo nivel.
El uso de GO Slimmer hace posible presentar anotaciones del genoma GO, analizar los resultados de micromatrices de expresión o colecciones de ADN complementarias cuando se necesita una clasificación extensa de las funciones de los productos génicos [19] .
El resultado de este algoritmo está representado por tres columnas [19] :
La versión AmiGO de esta herramienta está escrita en el script de Perl map2slim [19] . Los curadores del proyecto señalan que el servicio GO Slimmer está actualmente cargado y que los datos de entrada de un tamaño impresionante pueden afectar negativamente su funcionamiento. El tiempo de funcionamiento del servicio para el procesamiento de secuencias de entrada es limitado.
EXPLOSIÓNBLAST ( Basic L ocal Alignment Search Tool ) es una familia de programas informáticos utilizados para buscar homólogos de proteínas o ácidos nucleicos para los que se conoce la secuencia, mediante alineación. Usando BLAST, el investigador puede comparar la secuencia que tiene con las secuencias de la base de datos y encontrar la más similar a la dada, que serán los homólogos putativos.
La implementación de esta herramienta en AmiGO 1 se presenta en forma del paquete WU-BLAST desarrollado por la Universidad de Washington en St. Louis (Universidad de Washington en St. Louis). [veinte]
En AmiGO 2, esta herramienta (GO BLAST) ha sido eliminada, pero puedes usar la búsqueda en AmiGO 1 . La herramienta le permite filtrar los resultados de búsqueda por producto genético, base de datos, afiliación taxonómica, diccionario GO, anotación OBO.
Matriz de términosTerm Matrix [21] (una matriz de términos) es una herramienta de AmiGO para estudiar información sobre la similitud de la producción genética de términos. El resultado de su trabajo es una matriz, cuyos elementos son el número de productos genéticos anotados para un par particular de términos GO. Para usar la función [21] , debe ingresar una lista de identificadores GO para ver las anotaciones conjuntas: la cantidad de productos genéticos comunes anotados por pares de términos. Es posible especificar especies o taxones específicos. La coloración del mapa de calor se puede realizar en forma de gradación de negro a blanco, o utilizando la paleta estándar del mapa.
OBO-Edit [22] es un editor de ontologías de código abierto desarrollado y mantenido por GO Consortium. Está implementado en Java y utiliza un enfoque basado en gráficos para visualizar y editar ontologías. OBO-Edit tiene una interfaz de búsqueda y filtro fácil de usar que le permite visualizar y separar subconjuntos de términos GO. La interfaz se puede personalizar según las preferencias del usuario. OBO-Edit también le permite crear automáticamente nuevas relaciones basadas en las relaciones existentes y sus propiedades. Aunque OBO-Edit se desarrolló para ontologías biomédicas, se puede utilizar para ver y editar cualquier ontología.
PAINT [23] ( Phylogenetic Anotation and IN ference Tool ) es una aplicación JAVA que forma parte del Proyecto de Anotación del Genoma de Referencia y se basa en el principio de “anotación transitiva ”. El concepto de anotación transitiva consiste en asignar la función establecida experimentalmente de un gen a otro, debido a la similitud de sus secuencias de nucleótidos.
Con PAINT, el usuario puede explorar anotaciones experimentales de genes de una familia en particular y usar esta información para inferir nuevas anotaciones para miembros de la familia de genes que aún no han sido suficientemente explorados [3] . La herramienta PAINT le permite construir un modelo que explicaría la herencia o pérdida de la funcionalidad de un gen particular dentro de ramas individuales de árboles filogenéticos . Las nuevas anotaciones generadas por este modelo se denominan Inferidas de ascendencia biológica (IBA) [1] .
Esta aplicación está disponible gratuitamente para su descarga en Github.