Corrección para pruebas de hipótesis múltiples

Las comparaciones múltiples, la multiplicidad, la corrección de problemas de pruebas múltiples [1] es una  forma de eliminar el efecto de las comparaciones múltiples [2] que se produce cuando es necesario construir una familia de inferencias estadísticas. Durante la prueba de hipótesis estadísticas , cuando se rechaza la hipótesis principal (H 0 ), es posible que se produzca un error (falso rechazo de la hipótesis, error de primer tipo ). La probabilidad de tal evento está limitada por un pequeño valor preseleccionado: el nivel de significación (generalmente ). Entonces, al construir conclusiones, la estimación superior de la probabilidad de que al menos una de ellas sea incorrecta es igual a , que es suficientemente grande incluso para las pequeñas (por ejemplo, para , es igual a ). Se han desarrollado varios enfoques para eliminar este efecto [3] .

Historia

La primera mención del problema de las comparaciones múltiples puede considerarse el razonamiento de Antoine Augustine Cournot en Exposition de La Theorie Des Chances Et Des Probabilites (1843) de que al dividir una población en tantos grupos como sea posible, tarde o temprano habrá una grupo que es significativamente diferente del resto. Entonces el problema se consideró irresoluble [4] .

Después del trabajo de Bonferroni (Teoria statistica delle classi e calcolo delle probabilità, 1936), surgió una ola de interés en el problema de las pruebas múltiples en la década de 1950 en relación con el trabajo de John Tukey y Henry Scheffe . El trabajo posterior tuvo como objetivo aumentar el poder de las correcciones. Por lo tanto, en 1979 se desarrolló una corrección de Holm-Bonferroni más potente. En 1995, con un artículo de Benjamini y Hochberg, se comenzó a trabajar en FDR (tasa de falso rechazo de hipótesis), que permitió probar un gran número de hipótesis [4] .

En 1996, se llevó a cabo en Israel la primera conferencia sobre pruebas de hipótesis múltiples , después de lo cual se ha llevado a cabo cada dos años en todo el mundo [5] .

Notación

La hipótesis nula es verdadera La hipótesis nula es falsa Total
Aceptamos la hipótesis
Rechazamos la hipótesis
Total

Métodos para resolver el problema de las comparaciones múltiples

Con demasiados ensayos, aumenta la probabilidad de obtener un resultado falso positivo (un aumento en el número de errores cometidos del primer tipo ). El problema es elegir un método que permita el mínimo número de falsos rechazos de hipótesis y falsas aceptaciones . Para hacer esto, es necesario elegir otra regla para rechazar hipótesis. Para el problema de la prueba de hipótesis múltiples, existe un gran número de cantidades que generalizan la definición de un error de primer tipo. Los más famosos son los siguientes:

Cada una de las medidas anteriores tiene su propia forma de ajustar el umbral de importancia.

Probabilidad de grupo de error tipo I

Una de las medidas que generaliza el error de primer tipo, considerado al probar hipótesis estadísticas. El valor se define como la probabilidad de cometer al menos un error tipo I [6] . Por definición: [6] . Controlar la FWER a un nivel de significación fijo significa que se cumple la desigualdad [6] .

Hay varios métodos para controlar FWER.

Enmienda Bonferroni

El método de corrección de Bonferroni establece que para reducir los resultados falsos positivos, es necesario rechazar aquellas hipótesis para las cuales el valor de p según el criterio [8] [9] . Esta enmienda permite obtener , porque

La desigualdad de Boole implica que para un conjunto finito o numerable de eventos, la probabilidad de que al menos uno de ellos ocurra no es mayor que la suma de las probabilidades de los eventos individuales. Por lo tanto, si cada prueba individual se prueba en el nivel de significancia , donde se considera el número de hipótesis, entonces para toda la familia de hipótesis, el nivel de significancia se fija en el nivel :

,

donde  es el número de hipótesis verdaderas rechazadas [10] .

Notas

Con un aumento como resultado de la aplicación de la corrección de Bonferroni, el poder del procedimiento estadístico disminuye drásticamente: las posibilidades de rechazar hipótesis incorrectas disminuyen [7] .

Método de Holm (corrección de Holm-Bonferroni)

El método de Holm ( corrección de Holm-Bonferroni ) es uniformemente más potente que la corrección de Bonferroni y resuelve el problema de la caída de potencia a medida que crece el número de hipótesis [11] . Método de arriba hacia abajo [12] .

Sea  - , ordenado de menor a mayor.  - hipótesis pertinentes. El procedimiento de Holm se define como sigue [12] [13] .

  • Paso 1. Si , acepta las hipótesis y detente. De lo contrario, si , rechace la hipótesis y continúe probando las hipótesis restantes al nivel de significación .
  • Paso 2. Si , acepta las hipótesis y detente. De lo contrario, si , rechace la hipótesis y continúe probando las hipótesis restantes al nivel de significación .
  • Etc.

El procedimiento proporciona [12] . Es uniformemente más potente que el método de Bonferroni [11] .

Ejemplo

Considere probar 4 hipótesis para . Deje que se obtengan valores de p para ellos: 0.01; 0,04; 0,03 y 0,005. Ordenémoslos en orden ascendente: 1) 0.005; 2) 0,01; 3) 0,03; 4) 0,04. Se comprobarán las siguientes desigualdades:

  1. → rechazar esta hipótesis nula, seguir adelante.
  2. → rechazar esta hipótesis nula, seguir adelante.
  3. → aceptar esta y la siguiente hipótesis nula, parar.
El Método Shidak

El nivel de significación de las hipótesis se establece de la siguiente manera: . [14] El método produce FWER siempre que los estadísticos sean independientes o se cumpla la propiedad de "dependencia positiva" [15] [16] :

, [16]

Compongamos una serie variacional de p-valores: , donde están las hipótesis correspondientes. El procedimiento se ve así:

  1. Si , entonces aceptamos todas las hipótesis y nos detenemos, de lo contrario las rechazamos y continuamos;
  2. Si , entonces aceptamos todas las hipótesis y nos detenemos, de lo contrario las rechazamos y continuamos;
  3. … etc.
Método Shidak-Holm

procedimiento descendente. Los niveles de significación para las hipótesis se establecen de la siguiente manera [17] :

Controla FWER a un nivel de significancia si las estadísticas son independientes en la población. Si las estadísticas son independientes en la población, es imposible construir un procedimiento que controle FWER al nivel más poderoso que el método Shidak-Holm. En general , difiere poco del método de Holm [17] .

Tasa promedio de rechazo falso

Este valor se define como la expectativa matemática de la proporción de errores entre las hipótesis rechazadas.

Definir como la relación entre el número de hipótesis rechazadas incorrectamente y todas las hipótesis rechazadas : . Así FDR:

en [7] .

El control de nivel de FDR significa que:

[7] .

Método Benjamini-Hochberg

Este es un procedimiento ascendente con los siguientes niveles de significancia [7] :

.

Sean  los niveles de significación , ordenados de menor a mayor.  - hipótesis pertinentes. El procedimiento de Benjamini-Hochberg se define como sigue.

  • Paso 1. Si , acepta las hipótesis y detente. De lo contrario, si , rechace la hipótesis y continúe probando las hipótesis restantes al nivel de significación .
  • Paso 2. Si , acepta las hipótesis y detente. De lo contrario, si , rechace la hipótesis y continúe probando las hipótesis restantes al nivel de significación .
  • Etc.

Si las estadísticas son independientes, este método controla el FDR en el nivel [7] .

Pruebas múltiples masivas

En muchos estudios, por ejemplo en el campo de la genómica , es necesario probar miles o incluso muchas más hipótesis. En el campo de los estudios de asociación genética existe el problema de la no reproducibilidad de los resultados: un resultado que es muy significativo en un estudio no se repite en el siguiente. La razón de esto es, entre otras cosas, las consecuencias de múltiples pruebas [18] .

En diferentes campos de la ciencia, la actitud hacia las pruebas múltiples es ambigua. Existe la opinión de que el uso de una corrección por comparaciones múltiples, cuando hay buenas razones para creer que los resultados serán ciertos, no es necesario [19] . También se argumenta que el ajuste para pruebas múltiples es un método ineficiente para realizar investigaciones empíricas porque, al controlar los falsos positivos, conduce a una gran cantidad de falsos negativos. Sin embargo, por otro lado, se argumenta que las mejoras en los métodos de medición y la tecnología de la información han facilitado la aparición de grandes conjuntos de datos para el análisis exploratorio , lo que lleva a probar una gran cantidad de hipótesis sin asumir primero que la mayoría de ellas son verdaderas. Y esto se traduce en un gran número de falsos positivos si no se realiza la corrección por múltiples test.

En las pruebas a gran escala, si se van a obtener resultados precisos, lo mejor es FWER; sin embargo, si el estudio es exploratorio y se probarán resultados significativos en un estudio independiente, se prefiere FDR [7] [20] [21] . FDR, definido como la proporción esperada de falsos positivos entre todos los positivos (significativos), permite determinar el conjunto de "candidatos positivos" que pueden ser considerados en estudios posteriores [22] .

La práctica de hacer muchas comparaciones no ajustadas con la esperanza de encontrar algo significativo, ya sea que se aplique conscientemente o no, a veces se denomina "p-hacking" [23] [24] .

Aplicaciones en bioinformática

El problema de la comparación múltiple en biología es omnipresente en el análisis de datos ómicos [ [20] [25] [26] , ya que muchas variables se analizan simultáneamente. Por lo tanto, en los estudios de asociación del genoma completo y el análisis de la expresión génica diferencial , se prueban simultáneamente cientos de miles a millones de hipótesis. En la mayoría de los casos, se usa la corrección de Bonferroni o el umbral de valor p generalmente aceptado para GWAS [27] , sin embargo, esto da como resultado una caída en el poder del estudio con un aumento concomitante en el riesgo de resultados falsos negativos. También se viola el supuesto de la corrección de Bonferroni sobre la independencia de las comparaciones que se realizan, ya que existe un desequilibrio de ligamiento , cuando las frecuencias de las combinaciones de SNP difieren de las esperadas en ausencia de ligamiento, por lo que surge la pregunta de cuántos reales independientes se hacen comparaciones. Es posible definir el número de comparaciones independientes bajo condiciones tales como el número de componentes principales que colectivamente cubren más que la varianza de los datos bajo estudio, luego el valor p umbral, que proporciona significación estadística al nivel de , se vuelve a calcular como sigue:

[28] [29]

Además, las pruebas de permutación [28] [30] como Rank product se utilizan para resolver el problema de las comparaciones múltiples . La suposición de las pruebas de permutación es que si las muestras comparadas provienen de la misma población, entonces el intercambio de elementos entre las muestras no debería conducir a un cambio significativo en las estadísticas de la prueba. Un algoritmo general aproximado para las pruebas de permutación es el siguiente [30] :

  1. El valor de las estadísticas de prueba para muestras de datos experimentales se calcula
  2. Las muestras se combinan en un solo grupo
  3. Se forman aleatoriamente muestras del mismo tamaño a partir del conjunto de datos.
  4. El valor de la estadística de prueba para el nuevo conjunto de muestras se calcula
  5. Mediante la repetición repetida de los puntos 2 a 4, se construye la distribución de las estadísticas de prueba
  6. Con base en la distribución construida y el valor experimental de las estadísticas de prueba, se determina el valor p

Al aplicar pruebas de permutación, no se requiere la corrección real del nivel de significación o los valores p de prueba. Las pruebas de permutación no son sensibles al desequilibrio de la muestra, lo cual es útil en el análisis de datos biológicos [31] .

Véase también

Notas

  1. Procedimientos para Pruebas de Hipótesis Múltiple . Consultado el 1 de mayo de 2019. Archivado desde el original el 1 de marzo de 2018.
  2. Sobre el problema de las pruebas múltiples de hipótesis estadísticas . Consultado el 1 de mayo de 2019. Archivado desde el original el 17 de marzo de 2018.
  3. Pruebas Múltiples . Consultado el 1 de mayo de 2019. Archivado desde el original el 1 de mayo de 2019.
  4. ↑ 1 2 Bioestadística médica para enfermedades complejas . - Weinheim: Wiley-VCH, 2010. - 1 recurso en línea (400 páginas) p. ISBN 9783527630332 _
  5. Conferencia MCP 2019  (inglés) . Conferencia MCP 2019. Consultado el 12 de abril de 2019. Archivado desde el original el 12 de abril de 2019.
  6. ↑ 1 2 3 4 Hochberg Y. Tamhane, AC Procedimientos de comparación múltiple. Nueva York: Wiley. pags. 5. ISBN 978-0-471-82222-6 , 1987.
  7. ↑ 1 2 3 4 5 6 7 8 Yoav Benjamini, Yosef Hochberg. Control de la tasa de falsos descubrimientos: un enfoque práctico y poderoso para las pruebas múltiples  // Revista de la Royal Statistical Society: Serie B (Metodológica). — 1995-01. - T. 57 , n. 1 . - S. 289-300 . — ISSN 0035-9246 . -doi : 10.1111/ j.2517-6161.1995.tb02031.x .
  8. P. MIRONE. UN METODO APPROSSIMATO PER IL CALCOLO DELLE FREQUENZE DI VIBRAZIONE DI MOLECOLE CONTENENTI GRUPPI METILICI  // Avances en espectroscopia molecular. - Elsevier, 1962. - S. 293-296 . — ISBN 9781483213323 .
  9. Teoria Statistica Delle Classi e Calcolo Delle Probabilità  // Enciclopedia de diseño de investigación. - 2455 Teller Road, Thousand Oaks California 91320 Estados Unidos: SAGE Publications, Inc. - ISBN 9781412961271 , 9781412961288 .
  10. Yosef Hochberg. Un procedimiento de Bonferroni más nítido para múltiples pruebas de significancia  // Biometrika. — 1988-12. - T. 75 , n. 4 . - S. 800 . — ISSN 0006-3444 . -doi : 10.2307/ 2336325 .
  11. ↑ 1 2 Mikel Aickin y Helen Gensler. Ajuste para pruebas múltiples al informar los resultados de la investigación: los métodos Bonferroni vs Holm // American Journal of Public Health, Vol.86, No.5. - 1996. - Mayo.
  12. ↑ 1 2 3 Sture Holm. Un procedimiento simple de prueba múltiple secuencialmente rechazante // Scandinavian Journal of Statistics, vol. 6, núm. 2 (1979), págs. 65-70.
  13. Corrección: un procedimiento mejorado de prueba de Bonferroni secuencialmente rechazante  // Biometría. — 1987-09. - T. 43 , n. 3 . - S. 737 . — ISSN 0006-341X . -doi : 10.2307/ 2532027 .
  14. Zbyněk Šidak. Regiones rectangulares de confianza para las medias de distribuciones normales multivariadas  //  Revista de la Asociación Estadounidense de Estadística. — 1967-6. — vol. 62 , edición. 318 . - Pág. 626-633 . — ISSN 1537-274X 0162-1459, 1537-274X . doi : 10.1080/ 01621459.1967.10482935 . Archivado desde el original el 30 de enero de 2020.
  15. JP Shaffer. Pruebas de hipótesis múltiples  (inglés)  // Revisión anual de psicología. — 1995-1. — vol. 46 , edición. 1 . - Pág. 561-584 . — ISSN 1545-2085 0066-4308, 1545-2085 . -doi : 10.1146 / annurev.ps.46.020195.003021 . Archivado desde el original el 16 de abril de 2019.
  16. ↑ 1 2 Burt S. Holland, Margaret D. Copenhaver. Procedimientos mejorados de pruebas múltiples tipo Bonferroni  // Boletín Psicológico. - 1988. - T. 104 , núm. 1 . - S. 145-149 . — ISSN 0033-2909 . -doi : 10.1037 //0033-2909.104.1.145 .
  17. ↑ 1 2 Análisis estadístico de datos (curso de conferencias, K.V. Vorontsov) . www.machinelearning.ru Consultado el 18 de abril de 2019. Archivado desde el original el 10 de mayo de 2019.
  18. Hui-Qi Qu, Matthew Tien, Constantin Polychronakos. Importancia estadística en estudios de asociación genética  // Medicina clínica y de investigación. — 2010-10-01. - T. 33 , n. 5 . - art. 266 . — ISSN 1488-2353 . -doi : 10.25011 / cim.v33i5.14351 .
  19. Rothman, Kenneth J. No se necesitan ajustes para comparaciones múltiples  (indefinido)  // Epidemiología. - 1990. - T. 1 , N º 1 . - S. 43-46 . -doi : 10.1097 / 00001648-199001000-00010 . —PMID 2081237 . — .
  20. ↑ 1 2 J. D. Storey, R. Tibshirani. Importancia estadística para estudios de todo el genoma  (inglés)  // Actas de la Academia Nacional de Ciencias . - Academia Nacional de Ciencias , 2003-07-25. — vol. 100 , edición. 16 _ - Pág. 9440-9445 . - ISSN 1091-6490 0027-8424, 1091-6490 . -doi : 10.1073/ pnas.1530509100 . Archivado desde el original el 19 de julio de 2008.
  21. Efron, Bradley; Tibshirani, Robert; Piso, John D.; Tusher, Virginia. Análisis empírico de Bayes de un experimento de microarrays  //  Revista de la Asociación Estadounidense de Estadística  : revista. - 2001. - vol. 96 , núm. 456 . - P. 1151-1160 . -doi : 10.1198 / 016214501753382129 . — .
  22. William S. Noble. ¿Cómo funciona la corrección de pruebas múltiples?  (Inglés)  // Nature Biotechnology . - Grupo Editorial Naturaleza , 2009-12. — vol. 27 , edición. 12 _ - P. 1135-1137 . - ISSN 1546-1696 1087-0156, 1546-1696 . -doi : 10.1038/ nbt1209-1135 . Archivado desde el original el 12 de abril de 2019.
  23. Young, SS, Karr, A. Deming, datos y estudios observacionales  (neopr.)  // Significancia. - 2011. - T. 8 , N º 3 . - S. 116-120 . -doi : 10.1111/ j.1740-9713.2011.00506.x .
  24. Smith, GD, Shah, E. Dragado de datos, sesgo o confusión  // BMJ  :  revista. - 2002. - vol. 325 , núm. 7378 . - P. 1437-1438 . -doi : 10.1136 / bmj.325.7378.1437 . PMID 12493654 .
  25. Anjana Grandhi, Wenge Guo, Shyamal D. Peddada. Un procedimiento de prueba múltiple para comparaciones por pares multidimensionales con aplicación a estudios de expresión génica  // BMC Bioinformatics. — 2016-02-25. - T. 17 . — ISSN 1471-2105 . -doi : 10.1186/ s12859-016-0937-5 .
  26. ScienceDirect . www.sciencedirect.com. Fecha de acceso: 13 de abril de 2019.
  27. Gregory S. Barsh, Gregory P. Copenhaver, Greg Gibson, Scott M. Williams. Pautas para estudios de asociación de todo el genoma  // PLoS Genetics. — 2012-07-05. - T. 8 , núm. 7 . — ISSN 1553-7390 . -doi : 10.1371 / journal.pgen.1002812 . Archivado desde el original el 7 de enero de 2021.
  28. ↑ 1 2 Randall C Johnson, George W Nelson, Jennifer L Troyer, James A Lautenberger, Bailey D Kessing. Contabilización de múltiples comparaciones en un estudio de asociación del genoma completo (GWAS)  // BMC Genomics. — 2010-12-22. - T. 11 . - S. 724 . — ISSN 1471-2164 . -doi : 10.1186 / 1471-2164-11-724 .
  29. Xiaoyi Gao, Joshua Starmer, Eden R. Martin. Un método de corrección de pruebas múltiples para estudios de asociación genética utilizando polimorfismos de un solo nucleótido correlacionados  // Epidemiología genética. — 2008-5. - T. 32 , n. 4 . - S. 361-369 . — ISSN 0741-0395 . -doi : 10.1002/ gepi.20310 . Archivado desde el original el 13 de abril de 2019.
  30. ↑ 1 2 Ronglin Che, John R Jack, Alison A Motsinger-Reif, Chad C Brown. Un enfoque de permutación adaptativa para el estudio de asociación de todo el genoma: evaluación y recomendaciones de uso  // Minería de biodatos. — 2014-06-14. - T. 7 . - S. 9 . — ISSN 1756-0381 . -doi : 10.1186/ 1756-0381-7-9 .
  31. Benjamin T. Files, Vernon J. Lawhern, Anthony J. Ries, Amar R. Marathe. Una prueba de permutación para comparaciones pareadas no balanceadas de potencia de campo global  // Topografía cerebral. - 2016. - T. 29 . - S. 345-357 . — ISSN 0896-0267 . -doi : 10.1007/ s10548-016-0477-3 .

Literatura

  • E. L. Lehmann, J. P. Romano. Capítulo 9: Pruebas múltiples e inferencia simultánea // Prueba de hipótesis estadísticas : [ ing. ] . — 3ra ed. - Nueva York: Springer, 2005. - 786 p.
  • Peter H. Westfall, S. Stanley Young. Pruebas múltiples basadas en remuestreo: ejemplos y métodos para el ajuste del valor de p: [ ing. ] . - Wiley, 1993. - 360 p. - ISBN 978-0-471-55761-6 .