CUERDA | |
---|---|
Contenido | |
Descripción | Recurso de bioinformática sobre interacciones proteína-proteína conocidas y previstas |
organismos | Todos |
Contactos | |
Laboratorio | RCP , EMBL , KU , SIB , TUD , UZH |
Fecha de lanzamiento | 2000 |
Disponibilidad | |
Sitio web | CUERDA |
Otro | |
Versión | 10.5 (2017) |
STRING (abreviado Herramienta de búsqueda para la recuperación de genes/proteínas que interactúan ) es una base de datos y un recurso web para buscar información sobre interacciones proteína-proteína conocidas y previstas [1] [2] [3] [4] [5 ] [6] [7] [8] .
STRING resume información de varias fuentes: datos experimentales, datos de literatura y predicciones de novo . La versión 10 contiene información sobre las interacciones de 9.643.763 proteínas en 2031 especies de organismos, desde bacterias y arqueas hasta humanos. La base de datos se actualiza regularmente y está disponible para su descarga gratuita [1] .
STRING está desarrollado por un consorcio de universidades europeas CPR, EMBL , KU , SIB, TUD y UZH .
En STRING, la unidad básica es la relación funcional , es decir, relación funcional específica y biológicamente significativa entre dos proteínas [3] .
Para cada relación funcional, STRING calcula una puntuación de confianza que integra diferentes tipos de evidencia para esa relación (datos experimentales, datos de la literatura y predicciones de novo basadas en la ortología de proteínas estudiadas experimentalmente, así como en un análisis comparativo del contexto genómico [ 9] ). Tal enfoque integrado tiene las siguientes ventajas [6] :
Al calcular la evaluación de la confiabilidad de una relación funcional, los diferentes tipos de evidencia para esta relación se consideran independientes y la puntuación se calcula de acuerdo con la siguiente fórmula [6] :
donde es la contribución de un tipo de evidencia.
STRING no contiene información sobre el mecanismo de las interacciones proteína-proteína, así como sobre en qué momento del ciclo celular puede tener lugar esta interacción, cómo depende de las condiciones externas y qué tan específica es del tejido. Por el contrario, STRING contiene información sobre todas las posibles interacciones proteína-proteína en un organismo determinado, incluida la información predicha con cierta certeza, lo que convierte a STRING en el recurso más completo sobre interacciones proteína-proteína disponible en la actualidad, y especialmente útil para encontrar información sobre proteínas que no han ha sido estudiado experimentalmente [4] .
STRING integra información sobre interacciones de proteínas en complejos estructurales y rutas metabólicas tomadas de BIND, BioCarta, BioCyc, BioGRID, DIP, DISEASES, GO , HPRD, IntAct, KEGG , MINT, NCI-Nature Pathway Interaction Database, PDB , Reactome, TISSUES [ 1] [3] .
STRING extrae información sobre interacciones de proteínas de artículos de texto completo de las bases de datos PubMed , SGD, OMIM, FlyBase y de resúmenes de artículos de la base de datos MEDLINE . Para hacer esto, los textos se buscan automáticamente en busca de menciones conjuntas estadísticamente significativas de nombres de genes y sus sinónimos (los datos sobre sinónimos se toman de Swiss-Prot) utilizando el procesamiento de lenguaje natural . Para aumentar la precisión, se ha desarrollado un sistema de evaluación que tiene en cuenta la mención conjunta de nombres de genes en oraciones, párrafos y textos completos de artículos [2] .
STRING tiene como objetivo complementar la anotación funcional de genomas recién secuenciados mediante predicciones de novo de relaciones funcionales basadas en ortología para proteínas estudiadas experimentalmente, así como en análisis comparativos del contexto genómico [9] . STRING también da su propia evaluación de las relaciones funcionales estudiadas experimentalmente, complementando la información sobre ellas.
Importación de genomas completamente secuenciados
A partir de la versión 9 (2011), STRING importa genomas completamente secuenciados para su análisis, disponibles en las bases de datos RefSeq y Ensembl , así como en sitios especializados [3] . Los genomas importados se verifican previamente manualmente para verificar que estén completos y no sean redundantes. STRING no almacena información sobre las diferentes isoformas de una proteína resultantes de un empalme alternativo o una modificación postraduccional . Por el contrario, STRING asigna una isoforma de proteína (generalmente la isoforma más larga) a un locus [5] . Dicho filtrado es necesario para el funcionamiento normal de los algoritmos para predecir las interacciones proteína-proteína.
Predicciones de interacciones de proteínas basadas en ortología con proteínas estudiadas experimentalmente
STRING considera que las interacciones de proteínas involucradas en la misma vía metabólica KEGG son una referencia , ya que esta base de datos se selecciona manualmente y cubre una variedad de organismos y dominios funcionales. STRING transfiere las interacciones de proteínas descritas en las rutas metabólicas de KEGG a proteínas ortólogas de otros organismos y asigna un cierto peso a cada interacción proteína-proteína predicha, que corresponde a la probabilidad de que estas proteínas estén en la misma ruta metabólica de KEGG [6] y contribuye a la evaluación final de la fiabilidad de estas relaciones funcionales.
Antes de la versión 8 (2009), las predicciones basadas en la ortología con proteínas descritas en las rutas metabólicas de KEGG se realizaban utilizando grupos de grupos ortólogos de proteínas (COG) [10] , luego se comenzaron a utilizar grupos ortólogos de proteínas jerárquicos de la base de datos eggNOG [11]. .
A partir de la versión 9.1 (2013), las predicciones basadas en la ortología con proteínas descritas en las rutas metabólicas de KEGG se realizan teniendo en cuenta la taxonomía de los organismos, lo que permite evitar la transferencia errónea de la interacción de proteínas en un organismo a supuestos ortólogos. proteínas en otro organismo en presencia de parálogos de estas proteínas en otro organismo, que surgieron como resultado de la duplicación de los genes correspondientes en el proceso de evolución . Se utiliza la versión de la taxonomía mantenida por el NCBI. La transferencia de interacciones proteína-proteína entre organismos sobre la base de la ortología se lleva a cabo secuencialmente desde el nivel más bajo hasta el más alto de la jerarquía taxonómica [2] .
Predicciones basadas en un análisis comparativo del contexto genómico
Los genes cuyos productos proteicos cofuncionan en una vía metabólica o en un complejo estructural a menudo se encuentran bajo una regulación común y están sujetos a una presión de selección natural común . Dichos genes tienden a co-localizarse [12] e incluso formar un gen de fusión [13] . A menudo, estos genes están cerca unos de otros, presumiblemente siendo una sola unidad de transcripción ( operón ). En los operones de diferentes organismos, el conjunto de genes y su orden son similares, pero no necesariamente idénticos. STRING distingue los siguientes tipos de contexto genómico [9] :
Los eucariotas no tienen estructuras de operón, pero algunas proteínas eucariotas son ortólogas a las proteínas procariotas, por lo que STRING transfiere a las proteínas eucariotas las relaciones funcionales predichas a partir de un análisis comparativo del contexto genómico en procariotas [8] .
STRING busca grupos de genes conservados cuyas historias evolutivas son más similares de lo que cabría esperar por casualidad. STRING comienza con un solo gen semilla y, en su primera iteración, encuentra genes que a menudo ocurren con un gen dado en el mismo contexto genómico en muchos organismos filogenéticamente distantes. No se requiere una coincidencia perfecta entre la aparición de genes, aunque esta información está cuantificada. En la siguiente iteración, los nuevos genes encontrados en la iteración anterior se utilizan como semillas. Las iteraciones continúan hasta que no se encuentran nuevos genes (convergencia). Por lo tanto, hay muchos genes indirectamente relacionados con el gen cebador. Está permitido entrar en un contexto genómico solo genes, la distancia entre los cuales no es más de 300 pares de bases [8] . A partir de la versión 8, los genes ubicados en diferentes hebras de ADN pueden entrar en el mismo contexto genómico. En este último caso, a la relación funcional predicha se le asigna un peso más bajo, lo que contribuye menos a la evaluación final de la confiabilidad de esta relación, en comparación con la relación funcional predicha a partir de un contexto genómico que consta de genes ubicados en una sola cadena de ADN [4]. ] . El peso asignado se normaliza por el número de organismos en los que se predice esta relación [7] , y aumenta cuando se predice esta relación en organismos filogenéticamente distantes [6] .
Al ensamblar el entorno conservado del gen, a partir de la versión 8, se ignoran los genes cortos parcialmente superpuestos en la cadena de ADN no codificante, ya que pueden resultar ser predicciones falsas [4] .
Desde 2005, STRING ha tenido dos enfoques para predecir las interacciones proteína-proteína en función de un análisis comparativo del contexto genómico: cuando se le solicite, el usuario puede seleccionar el modo COG o el modo Proteínas. En el modo COG, la búsqueda de grupos de genes conservados se realiza con el requisito de que las proteínas sean ortólogas, es decir, las interacciones se predicen sobre la base de todo o nada. En el modo Proteínas, la búsqueda de grupos de genes conservadores se realiza mediante la similitud cuantitativa de las secuencias de aminoácidos de las proteínas, es decir, las interacciones predichas pueden extenderse a parálogos si existen en el organismo [6] . Anteriormente, en STRING, la similitud cuantitativa de las secuencias de aminoácidos de proteínas se determinaba mediante el algoritmo de Smith-Waterman . A partir de la versión 9 (2011), las matrices SIMAP [3] [14] se utilizan para cuantificar la similitud de las secuencias de aminoácidos de proteínas .
Para consultar la base de datos STRING, debe especificar el identificador o la secuencia de aminoácidos de una o más proteínas y seleccionar un organismo. En el caso de una solicitud de la secuencia de aminoácidos de una proteína, se realiza una búsqueda BLAST contra todas las proteínas del organismo seleccionado (valor E umbral = 10 −5 ) [8] y se solicita al usuario que seleccione una de las hallazgos para los cuales se mostrarán posibles interacciones con otras proteínas (modo Proteínas) o COG (modo COG) en un organismo dado.
Las interacciones experimentalmente conocidas y predichas de novo de una proteína dada con otras proteínas se presentan como un gráfico, cuyos vértices son proteínas y los bordes son diferentes tipos de evidencia de relaciones funcionales entre estas proteínas. Los vértices correspondientes a las proteínas cuya estructura cristalográfica se descifra (o se predice con cierta identidad) se muestran más grandes. Al hacer clic en la parte superior de la ventana emergente, se encuentran disponibles enlaces a recursos de terceros con información sobre esta proteína, como RefSeq, KEGG , UniProt , SMART y SWISS-MODEL, así como una vista previa de la arquitectura del dominio y estructura cristalográfica (descifrada o predicha con una identidad específica) de esta proteína. Es posible agrupar la red de interacciones, agregar otras proteínas a la red de interacciones cuando se reduce el umbral de confiabilidad de una relación funcional (y viceversa, eliminar proteínas de la red de interacciones cuando se aumenta el umbral), establecer crear tipos aceptables de evidencia de una relación funcional (por ejemplo, puede dejar en la red de interacciones solo aquellas proteínas para interacciones de las cuales hay evidencia experimental), así como guardar una lista de interacciones proteína-proteína encontradas como un archivo de texto y guardar una imagen de la red de interacciones [3] .
La lista de posibles relaciones funcionales para una determinada proteína contiene pruebas de cada relación y se clasifica según el nivel de confianza estimado en cada relación [2] .
Está disponible una vista de árbol filogenético , construida a partir de alineaciones de secuencias vinculadas de un pequeño número de familias de proteínas universales [5] [15] , con varios tipos de contexto genómico trazados en él. Hay enlaces a artículos que mencionan una proteína determinada, incluidos artículos experimentales.
Hay un complemento STRING para Cytoscape [16] . A partir de la versión 10 (2015), el paquete de software STRINGdb está disponible para su descarga desde Bioconductor y le permite consultar el servidor STRING desde el lenguaje de programación R [1] .