Análisis de enriquecimiento por afiliación funcional

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 14 de mayo de 2019; las comprobaciones requieren 2 ediciones .

El análisis de enriquecimiento funcional [1] ( Análisis de enriquecimiento de conjuntos de genes en inglés  , GSEA [2] ) es un conjunto de métodos para asociar un conjunto de genes con un cambio en el fenotipo [2] . Para formalizar los datos existentes sobre el fenotipo, dichos métodos suelen utilizar bases de datos de conjuntos de genes previamente anotados (por ejemplo, los términos del proyecto Gene ontology (GO): funciones moleculares, procesos biológicos o componentes celulares [3] ). El resultado de aplicar el método (emitir el programa) en este caso es un conjunto de conjuntos preanotados, cuya frecuencia en el conjunto de entrada es estadísticamente significativamente diferente del fondo (por ejemplo, la frecuencia en todo el genoma o en otro conjunto de genes). Dichos conjuntos preanotados se denominan sobrerrepresentados (si la frecuencia está por encima del fondo) o subrepresentados (si la frecuencia está por debajo del fondo).

Una innovación importante de GSEA en comparación con métodos de análisis anteriores es la capacidad de analizar datos no solo para genes individuales de forma independiente, sino también para tener en cuenta las relaciones funcionales de los genes entre sí. En algunos casos, por ejemplo, con un ligero cambio en la expresión individual de genes individuales, el uso de GSEA conduce a un aumento en la sensibilidad del método y una imagen más completa de la expresión diferencial [4] .

Este enfoque fue desarrollado en 2002-2003 de forma independiente por varios grupos de científicos y ha sido ampliamente adoptado. Al mismo tiempo, se propusieron los primeros programas para su implementación [5] [6] [7] [8] [9] [10] [11] .

Tenga en cuenta que el término GSEA se usa en varios significados: como el nombre de una amplia clase de métodos discutidos en este artículo [2] , como el nombre de una clase más estrecha de métodos [2] , como el nombre de un programa separado [4 ] .

Antecedentes

Con la llegada del Proyecto Genoma Humano , surgió el problema de cómo interpretar y analizar una gran cantidad de información nueva utilizando métodos antiguos. Debido a la aparición de métodos para analizar la expresión génica, los cambios en los tejidos de las personas con enfermedades. Los datos de micromatrices se han utilizado para clasificar tejidos por características moleculares y generar hipótesis sobre los mecanismos de la enfermedad, por ejemplo, en la investigación del cáncer , donde a menudo se han observado grandes cambios en la expresión de genes individuales [12] . Sin embargo, cuando los cambios en la expresión génica no son muy pronunciados, la gran cantidad de genes probados, la alta variabilidad interindividual y los tamaños de muestra limitados comunes en los estudios con humanos dificultan la separación de las verdaderas diferencias del ruido. Muchos genes pueden participar en la misma ruta metabólica y, por lo tanto, el cambio total en la expresión dentro de un grupo de genes conduce a una diferencia en la expresión fenotípica . El análisis de la representación de grupos funcionales de genes se centra en los cambios en la expresión de grupos de genes, por lo que este método resuelve el problema de encontrar pequeños cambios en la expresión de genes individuales [8] .

Aproximaciones

Para formalizar y resolver el problema GSEA, se utilizan métodos de estadística matemática : se estima la significación de algunas estadísticas calculadas para cada grupo previamente anotado [13] .

Algoritmo GSEA generalizado

El algoritmo GSEA generalizado incluye los siguientes pasos [13] :

  1. Cálculo de estadísticas de grupos de genes previamente anotados  : se utiliza una de dos formas:
    • Prueba global  : creación de estadísticas sobre el conjunto de entrada directamente para cada grupo previamente anotado, por ejemplo, en función de Hotelling o .
    • Combinación de estadísticas de genes  : construcción de estadísticas para genes individuales, sobre la base de las cuales se construyen estadísticas de grupo. Entonces se definen en secuencia los siguientes:
      1. Estadísticas de genes  : según el tipo de datos de entrada, es posible seleccionar diferentes estadísticas para los genes, por ejemplo, la relación señal-ruido el experimento o la relación de probabilidad que se obtiene del preprocesamiento
      2. Transformación de estadísticas de genes  : las estadísticas de genes se pueden transformar: por lo tanto, se puede realizar una transformación de rango de estadísticas o, según el valor de las estadísticas, se selecciona un determinado subconjunto de todos los genes para un análisis más detallado.
      3. Estadísticas de conjuntos  de genes: las estadísticas de genes obtenidas anteriormente se combinan para crear estadísticas de conjuntos de genes anotados previamente: por ejemplo, una estadística de grupo se define como el promedio de las estadísticas de los genes que contiene.
  2. Evaluación de la significancia  - formulación de las hipótesis principales y alternativas para las estadísticas construidas , evaluación de la significancia de las estadísticas. Debido a que una gran cantidad de hipótesis se prueban de esta manera (sobre la sobrerrepresentación o la subrepresentación de cada grupo de genes previamente anotado), la estimación de importancia a menudo incluye una corrección para múltiples pruebas .

Clasificación de métodos

Desde el punto de vista del algoritmo generalizado discutido anteriormente, la diferencia entre los métodos GSEA radica en la secuencia de procedimientos utilizados en las diferentes etapas. Los autores del algoritmo generalizado compararon 261 combinaciones de procedimientos [13] ; los autores de una revisión de 2008 [14] describen 68 programas separados que implementan estos métodos. Esta revisión propone una clasificación de métodos en tres categorías principales: análisis de enriquecimiento único (SEA), análisis de enriquecimiento de conjuntos de genes (GSEA en sentido estricto) y análisis de enriquecimiento modular (MEA), con algunos programas pertenecientes a más de una clase. Tenga en cuenta que no existe una formulación formal generalmente aceptada del problema GSEA (en sentido amplio), lo que dificulta la evaluación de los resultados y la comparación de métodos [2] .

Análisis de enriquecimiento único

Análisis de enriquecimiento singular :  métodos que reciben genes candidatos como entrada, genes relacionados con algún subconjunto de genes que son de interés para los investigadores (por ejemplo, genes que cambiaron significativamente la expresión ( estadísticas de genes ) en un nivel de significación dado), y solo entonces para estos genes se determina la sobrerrepresentación de grupos funcionales. Por lo tanto, estos métodos brindan al investigador la oportunidad de seleccionar estadísticas de genes y realizar la transformación : seleccione genes según el valor de la estadística, luego las estadísticas del conjunto anotado previamente se construyen en función de la cantidad de genes en el conjunto entre los genes candidatos. Como modelos estadísticos se utilizan distribución hipergeométrica , distribución binomial (utilizada para muestras grandes), χ² , prueba exacta de Fisher . En la mayoría de los casos, las diferencias entre los modelos estadísticos son insignificantes [15] .

Este es un método simple y efectivo, pero el resultado depende de los parámetros de los criterios de selección del gen candidato. Además, debido a la gran cantidad de genes (un resultado típico del experimento son varias decenas de miles de perfiles de expresión [9] ), las relaciones entre los grupos previamente anotados pueden perderse [14] .

Programas basados ​​en este método: GoStat, GoMiner, GOTM, BinGO, GOtoolBox, GFinder, Onto-Express, GARBAN, FatiGO, BayGO [14] .

Análisis de enriquecimiento de conjuntos de genes

El análisis de enriquecimiento de conjuntos de genes es un enfoque alternativo que incluye la clasificación ( transformación ) de todos los genes de acuerdo con el grado de manifestación del rasgo ( estadísticas de genes ) en el que se lleva a cabo el análisis .  En este caso, se considera todo el conjunto de genes, y no solo los genes más significativos. Se utilizan estadísticas de grupo como la estadística de Kolmogorov , la estadística t de Student , la estadística U de Mann-Whitney , la mediana de rango de grupo [2] .

La principal ventaja es que este método utiliza toda la información obtenida de los experimentos. Sin embargo, como entrada, requiere la definición de un grupo funcional para cada gen, lo que suele ser una tarea difícil. La suposición subyacente al método de que los genes de los extremos opuestos de la lista contribuyen más a la función biológica no siempre es cierta, las proteínas reguladoras a menudo cambian ligeramente su expresión, pero esto tiene grandes consecuencias [14] .

Programas basados ​​en este método: GSEA (nombre del programa), CapMap, FatiScan, ADGO, ermineJ, PAGE, iGA, GO-Mapper, GOdist, FINA, T-profiler, MetaGP [14] .

Análisis de enriquecimiento modular

Análisis de enriquecimiento modular ( ing.  análisis de enriquecimiento modular ): métodos que toman como entrada, como el análisis de enriquecimiento único, una lista de genes candidatos, pero, a diferencia de este, al evaluar la importancia de la sobrerrepresentación (es decir, en las etapas de determinación las estadísticas de un conjunto de genes y la evaluación de la significancia ) considera la relación de los términos GO. Para ello, por ejemplo, se utiliza la estadística Kappa . De esta forma, se puede describir una función del conjunto de genes de entrada que no corresponde a un solo término. Una limitación del método es que los genes sin fuertes relaciones de vecinos serán excluidos del análisis [14] .

Programas basados ​​en este método: ADGO, GeneCodis, ProfCom, topGO, Ontologizer, POSOC, DAVID, GoToolBox [14] .

Aplicaciones

Estos métodos se utilizan para analizar los resultados de los experimentos, que representan una determinada lista de genes que es diferente de la muestra completa de genes. Por ejemplo, el análisis de enriquecimiento funcional se usa a menudo para genes que se expresan diferencialmente en diferentes condiciones, en cuyo caso la tarea es extraer información sobre cualquier mecanismo biológico de los perfiles de expresión

Un área importante de aplicación de este método es [3] la búsqueda de asociación en todo el genoma : comparación de genotipos sanos y enfermos en un intento de encontrar polimorfismos de nucleótido único (SNP) que están sobrerrepresentados en el genoma del paciente y pueden estar asociados con un condición dada. Esta aplicación de análisis de la representación de grupos funcionales de genes no solo ayuda en el descubrimiento de SNP asociados con enfermedades, sino que también ayuda a dilucidar las vías y mecanismos relevantes de las enfermedades [16] . Por ejemplo, GSEA se ha utilizado para estudiar enfermedades como el parto prematuro espontáneo [17] , el cáncer de riñón [18] , la depresión [19] , la neosporosis [20] , la esquizofrenia [21] y muchas otras.

Notas

  1. Sun GP , Jiang T. , Xie PF , Lan J. , Sun GP , Jiang T. , Xie PF , Lan J. Identificación de genes asociados a la periodontitis mediante redes de coexpresión  // Biología molecular. - 2016. - T. 50 , N º 1 . - S. 143-150 . — ISSN 0026-8984 . -doi : 10.7868 / S0026898416010195 .
  2. ↑ 1 2 3 4 5 6 Hung J.-H. , Yang T.-H. , Hu Z. , Weng Z. , DeLisi C. Análisis de enriquecimiento de conjuntos de genes: evaluación del rendimiento y pautas de uso  //  Briefings in Bioinformatics. - 2011. - 7 de septiembre ( vol. 13 , núm. 3 ). - P. 281-291 . — ISSN 1467-5463 . doi : 10.1093 / bib/bbr049 .
  3. 1 2 Mooney Michael A. , Wilmot Beth. Análisis de conjuntos de genes: una guía paso a paso  //  Revista estadounidense de genética médica Parte B: Genética neuropsiquiátrica. - 2015. - 8 junio ( vol. 168 , n. 7 ). - Pág. 517-527 . — ISSN 1552-4841 . -doi : 10.1002/ ajmg.b.32328 .
  4. ↑ 1 2 Subramanian A. , Tamayo P. , Mootha VK , Mukherjee S. , Ebert BL , Gillette MA , Paulovich A. , Pomeroy SL , Golub TR , Lander ES , Mesirov JP Gene set enrichment analysis: A Knowledge-based approach for interpretación de perfiles de expresión de todo el genoma  (inglés)  // Actas de la Academia Nacional de Ciencias. - 2005. - 30 de septiembre ( vol. 102 , n. 43 ). - Pág. 15545-15550 . — ISSN 0027-8424 . -doi : 10.1073 / pnas.0506580102 .
  5. Rhodes Daniel R , Chinnaiyan Arul M. Análisis integrador del transcriptoma del cáncer  //  Nature Genetics. - 2005. - junio ( vol. 37 , no. S6 ). -P.S31- S37 . — ISSN 1061-4036 . -doi : 10.1038/ ng1570 .
  6. Doniger Scott W , Salomonis Nathan , Dahlquist Kam D , Vranizan Karen , Lawlor Steven C , Conklin Bruce R. [1]  //  Biología del genoma. - 2003. - vol. 4 , núm. 1 . — P.R7 . — ISSN 1465-6906 . -doi : 10.1186 / gb-2003-4-1-r7 .
  7. Zeeberg Barry R , Feng Weimin , Wang Geoffrey , Wang May D , Fojo Anthony T , Sunshine Margot , Narasimhan Sudarshan , Kane David W , Reinhold William C , Lababidi Samir , Bussey Kimberly J , Riss Joseph , Barrett J , Weinstein John N. [2]  (inglés)  // Biología del genoma. - 2003. - vol. 4 , núm. 4 . — P.R28 . — ISSN 1465-6906 . -doi : 10.1186 / gb-2003-4-4-r28 .
  8. ↑ 1 2 Mootha Vamsi K , Lindgren Cecilia M , Eriksson Karl-Fredrik , Subramanian Aravind , Sihag Smita , Lehar Joseph , Puigserver Pere , Carlsson Emma , Ridderstråle Martin , Laurila Esa , Houstis Nicholas , Daly Mark J , Patterson Nick , Mesirov Jill P , Golub Todd R , Tamayo Pablo , Spiegelman Bruce , Lander Eric S , Hirschhorn Joel N , Altshuler David , Groop Leif C. Los genes sensibles a PGC-1α involucrados en la fosforilación oxidativa están coordinadamente regulados a la baja en la diabetes humana  (inglés)  // Nature Genética. - 2003. - 15 de junio ( vol. 34 , no. 3 ). - pág. 267-273 . — ISSN 1061-4036 . -doi : 10.1038/ ng1180 .
  9. 1 2 Draghici S. Onto-Tools, el conjunto de herramientas del biólogo moderno: Onto-Express, Onto-Compare, Onto-Design y Onto-Translate  //  Nucleic Acids Research. - 2003. - 1 de julio ( vol. 31 , no. 13 ). - Pág. 3775-3781 . — ISSN 1362-4962 . -doi : 10.1093 / nar/gkg624 .
  10. Al-Shahrour F. , Diaz-Uriarte R. , Dopazo J. FatiGO: una herramienta web para encontrar asociaciones significativas de términos de ontología génica con grupos de genes   // Bioinformática . - 2004. - 22 de enero ( vol. 20 , no. 4 ). - Pág. 578-580 . — ISSN 1367-4803 . -doi : 10.1093 / bioinformática/btg455 .
  11. Volinia S. , Evangelisti R. , Francioso F. , Arcelli D. , Carella M. , Gasparini P. OBJETIVO: análisis automatizado de ontología génica de perfiles de expresión  //  Nucleic Acids Research. - 2004. - 1 de julio ( vol. 32 , núm. Servidor Web ). -P.W492 - W499 . — ISSN 0305-1048 . doi : 10.1093 / nar/gkh443 .
  12. ↑ Clasificación molecular del cáncer Golub TR : Descubrimiento de clases y predicción de clases mediante el control de la expresión génica   // Ciencia . - 1999. - 15 de octubre ( vol. 286 , núm. 5439 ). - Pág. 531-537 . — ISSN 0036-8075 . -doi : 10.1126 / ciencia.286.5439.531 .
  13. ↑ 1 2 3 4 Ackermann Marit , Strimmer Korbinian. Un marco modular general para el análisis de enriquecimiento de conjuntos de genes  (inglés)  // BMC Bioinformatics. - 2009. - 3 febrero ( vol. 10 , no. 1 ). — ISSN 1471-2105 . -doi : 10.1186/ 1471-2105-10-47 .
  14. ↑ 1 2 3 4 5 6 7 Huang Da Wei , Sherman Brad T. , Lempicki Richard A. Herramientas de enriquecimiento bioinformático: caminos hacia el análisis funcional integral de grandes listas de genes  //  Nucleic Acids Research. - 2008. - 25 de noviembre ( vol. 37 , no. 1 ). - P. 1-13 . — ISSN 1362-4962 . -doi : 10.1093 / nar/gkn923 .
  15. Khatri P. , Draghici S. Análisis ontológico de datos de expresión génica: herramientas actuales, limitaciones y problemas abiertos   // Bioinformática . - 2005. - 30 de junio ( vol. 21 , n. 18 ). - Pág. 3587-3595 . — ISSN 1367-4803 . -doi : 10.1093 / bioinformática/bti565 .
  16. Holden Marit , Deng Shiwei , Wojnowski Leszek , Kulle Bettina. GSEA-SNP: aplicación de análisis de enriquecimiento de conjuntos de genes a datos SNP de estudios de asociación de todo el genoma   // Bioinformática . - 2008. - 14 de octubre ( vol. 24 , no. 23 ). - Pág. 2784-2785 . — ISSN 1460-2059 . -doi : 10.1093 / bioinformática/btn516 .
  17. Manuck Tracy A. , Watkins Scott , Esplin M. Sean , Parry Samuel , Zhang Heping , Huang Hao , Biggio Joseph R. , Bukowski Radek , Saade George , Andrews William , Baldwin Don , Sadovsky Yoel , Reddy Uma , Ilekis John , Varner Michael W. , Jorde Lynn B. , Yandell Mark. 242: Investigación de enriquecimiento del conjunto de genes de la variación del exoma materno en el parto prematuro espontáneo (SPTB  )  // American Journal of Obstetrics and Gynecology. - 2016. - Enero ( vol. 214 , no. 1 ). - P.S142-S143 . — ISSN 0002-9378 . -doi : 10.1016/ j.ajog.2015.10.280 .
  18. Maruschke Matthias , Hakenberg Oliver W , Koczan Dirk , Zimmermann Wolfgang , Stief Christian G , Buchner Alexander. Perfil de expresión de carcinoma metastásico de células renales mediante análisis de enriquecimiento de conjuntos de genes  (inglés)  // International Journal of Urology. - 2013. - 2 de mayo ( vol. 21 , núm. 1 ). - P. 46-51 . — ISSN 0919-8172 . -doi : 10.1111/ iju.12183 .
  19. Elovainio Marko , Taipale Tuukka , Seppälä Ilkka , Mononen Nina , Raitoharju Emma , ​​Jokela Markus , Pulkki-Råback Laura , Illig Thomas , Waldenberger Melanie , Hakulinen Christian , Hintsa Taina , Kivimäki Mika , Kähönen Mika , Keltikangas -Järvinen , Raitariisa Terhos . Las vías inmunoinflamatorias activadas están asociadas con síntomas depresivos de larga data: evidencia de análisis de enriquecimiento de conjuntos de genes en el estudio Young Finns  //  Journal of Psychiatric Research. - 2015. - diciembre ( vol. 71 ). - P. 120-125 . — ISSN 0022-3956 . -doi : 10.1016/ j.jpsychires.2015.09.017 .
  20. Nishimura Maki , Tanaka Sachi , Ihara Fumiaki , Muroi Yoshikage , Yamagishi Junya , Furuoka Hidefumi , Suzuki Yutaka , Nishikawa Yoshifumi. Transcriptoma y cambios histopatológicos en cerebro de ratón infectado con Neospora caninum  //  Scientific Reports. - 2015. - 21 de enero ( vol. 5 , no. 1 ). — ISSN 2045-2322 . -doi : 10.1038/ srep07936 .
  21. Hass Johanna , Walton Esther , Wright Carrie , Beyer Andreas , Scholz Markus , Turner Jessica , Liu Jingyu , Smolka Michael N. , Roessner Veit , Sponheim Scott R. , Gollub Randy L. , Calhoun Vince D. , Ehrlich Stefan. Asociaciones entre la metilación del ADN y los fenotipos intermedios relacionados con la esquizofrenia: un análisis de enriquecimiento del conjunto de genes  //  Progreso en neuropsicofarmacología y psiquiatría biológica. - 2015. - junio ( vol. 59 ). - P. 31-39 . — ISSN 0278-5846 . -doi : 10.1016/ j.pnpbp.2015.01.006 .