Las comparaciones múltiples, la multiplicidad, la corrección de problemas de pruebas múltiples [1] es una forma de eliminar el efecto de las comparaciones múltiples [2] que se produce cuando es necesario construir una familia de inferencias estadísticas. Durante la prueba de hipótesis estadísticas , cuando se rechaza la hipótesis principal (H 0 ), es posible que se produzca un error (falso rechazo de la hipótesis, error de primer tipo ). La probabilidad de tal evento está limitada por un pequeño valor preseleccionado: el nivel de significación (generalmente ). Entonces, al construir conclusiones, la estimación superior de la probabilidad de que al menos una de ellas sea incorrecta es igual a , que es suficientemente grande incluso para las pequeñas (por ejemplo, para , es igual a ). Se han desarrollado varios enfoques para eliminar este efecto [3] .
La primera mención del problema de las comparaciones múltiples puede considerarse el razonamiento de Antoine Augustine Cournot en Exposition de La Theorie Des Chances Et Des Probabilites (1843) de que al dividir una población en tantos grupos como sea posible, tarde o temprano habrá una grupo que es significativamente diferente del resto. Entonces el problema se consideró irresoluble [4] .
Después del trabajo de Bonferroni (Teoria statistica delle classi e calcolo delle probabilità, 1936), surgió una ola de interés en el problema de las pruebas múltiples en la década de 1950 en relación con el trabajo de John Tukey y Henry Scheffe . El trabajo posterior tuvo como objetivo aumentar el poder de las correcciones. Por lo tanto, en 1979 se desarrolló una corrección de Holm-Bonferroni más potente. En 1995, con un artículo de Benjamini y Hochberg, se comenzó a trabajar en FDR (tasa de falso rechazo de hipótesis), que permitió probar un gran número de hipótesis [4] .
En 1996, se llevó a cabo en Israel la primera conferencia sobre pruebas de hipótesis múltiples , después de lo cual se ha llevado a cabo cada dos años en todo el mundo [5] .
La hipótesis nula es verdadera | La hipótesis nula es falsa | Total | |
---|---|---|---|
Aceptamos la hipótesis | |||
Rechazamos la hipótesis | |||
Total |
Con demasiados ensayos, aumenta la probabilidad de obtener un resultado falso positivo (un aumento en el número de errores cometidos del primer tipo ). El problema es elegir un método que permita el mínimo número de falsos rechazos de hipótesis y falsas aceptaciones . Para hacer esto, es necesario elegir otra regla para rechazar hipótesis. Para el problema de la prueba de hipótesis múltiples, existe un gran número de cantidades que generalizan la definición de un error de primer tipo. Los más famosos son los siguientes:
Cada una de las medidas anteriores tiene su propia forma de ajustar el umbral de importancia.
Una de las medidas que generaliza el error de primer tipo, considerado al probar hipótesis estadísticas. El valor se define como la probabilidad de cometer al menos un error tipo I [6] . Por definición: [6] . Controlar la FWER a un nivel de significación fijo significa que se cumple la desigualdad [6] .
Hay varios métodos para controlar FWER.
Enmienda BonferroniEl método de corrección de Bonferroni establece que para reducir los resultados falsos positivos, es necesario rechazar aquellas hipótesis para las cuales el valor de p según el criterio [8] [9] . Esta enmienda permite obtener , porque
La desigualdad de Boole implica que para un conjunto finito o numerable de eventos, la probabilidad de que al menos uno de ellos ocurra no es mayor que la suma de las probabilidades de los eventos individuales. Por lo tanto, si cada prueba individual se prueba en el nivel de significancia , donde se considera el número de hipótesis, entonces para toda la familia de hipótesis, el nivel de significancia se fija en el nivel :
,
donde es el número de hipótesis verdaderas rechazadas [10] .
NotasCon un aumento como resultado de la aplicación de la corrección de Bonferroni, el poder del procedimiento estadístico disminuye drásticamente: las posibilidades de rechazar hipótesis incorrectas disminuyen [7] .
Método de Holm (corrección de Holm-Bonferroni)El método de Holm ( corrección de Holm-Bonferroni ) es uniformemente más potente que la corrección de Bonferroni y resuelve el problema de la caída de potencia a medida que crece el número de hipótesis [11] . Método de arriba hacia abajo [12] .
Sea - , ordenado de menor a mayor. - hipótesis pertinentes. El procedimiento de Holm se define como sigue [12] [13] .
El procedimiento proporciona [12] . Es uniformemente más potente que el método de Bonferroni [11] .
EjemploConsidere probar 4 hipótesis para . Deje que se obtengan valores de p para ellos: 0.01; 0,04; 0,03 y 0,005. Ordenémoslos en orden ascendente: 1) 0.005; 2) 0,01; 3) 0,03; 4) 0,04. Se comprobarán las siguientes desigualdades:
El nivel de significación de las hipótesis se establece de la siguiente manera: . [14] El método produce FWER siempre que los estadísticos sean independientes o se cumpla la propiedad de "dependencia positiva" [15] [16] :
, [16]
Compongamos una serie variacional de p-valores: , donde están las hipótesis correspondientes. El procedimiento se ve así:
procedimiento descendente. Los niveles de significación para las hipótesis se establecen de la siguiente manera [17] :
Controla FWER a un nivel de significancia si las estadísticas son independientes en la población. Si las estadísticas son independientes en la población, es imposible construir un procedimiento que controle FWER al nivel más poderoso que el método Shidak-Holm. En general , difiere poco del método de Holm [17] .
Este valor se define como la expectativa matemática de la proporción de errores entre las hipótesis rechazadas.
Definir como la relación entre el número de hipótesis rechazadas incorrectamente y todas las hipótesis rechazadas : . Así FDR:
en [7] .
El control de nivel de FDR significa que:
[7] .
Método Benjamini-HochbergEste es un procedimiento ascendente con los siguientes niveles de significancia [7] :
.
Sean los niveles de significación , ordenados de menor a mayor. - hipótesis pertinentes. El procedimiento de Benjamini-Hochberg se define como sigue.
Si las estadísticas son independientes, este método controla el FDR en el nivel [7] .
En muchos estudios, por ejemplo en el campo de la genómica , es necesario probar miles o incluso muchas más hipótesis. En el campo de los estudios de asociación genética existe el problema de la no reproducibilidad de los resultados: un resultado que es muy significativo en un estudio no se repite en el siguiente. La razón de esto es, entre otras cosas, las consecuencias de múltiples pruebas [18] .
En diferentes campos de la ciencia, la actitud hacia las pruebas múltiples es ambigua. Existe la opinión de que el uso de una corrección por comparaciones múltiples, cuando hay buenas razones para creer que los resultados serán ciertos, no es necesario [19] . También se argumenta que el ajuste para pruebas múltiples es un método ineficiente para realizar investigaciones empíricas porque, al controlar los falsos positivos, conduce a una gran cantidad de falsos negativos. Sin embargo, por otro lado, se argumenta que las mejoras en los métodos de medición y la tecnología de la información han facilitado la aparición de grandes conjuntos de datos para el análisis exploratorio , lo que lleva a probar una gran cantidad de hipótesis sin asumir primero que la mayoría de ellas son verdaderas. Y esto se traduce en un gran número de falsos positivos si no se realiza la corrección por múltiples test.
En las pruebas a gran escala, si se van a obtener resultados precisos, lo mejor es FWER; sin embargo, si el estudio es exploratorio y se probarán resultados significativos en un estudio independiente, se prefiere FDR [7] [20] [21] . FDR, definido como la proporción esperada de falsos positivos entre todos los positivos (significativos), permite determinar el conjunto de "candidatos positivos" que pueden ser considerados en estudios posteriores [22] .
La práctica de hacer muchas comparaciones no ajustadas con la esperanza de encontrar algo significativo, ya sea que se aplique conscientemente o no, a veces se denomina "p-hacking" [23] [24] .
El problema de la comparación múltiple en biología es omnipresente en el análisis de datos ómicos [ [20] [25] [26] , ya que muchas variables se analizan simultáneamente. Por lo tanto, en los estudios de asociación del genoma completo y el análisis de la expresión génica diferencial , se prueban simultáneamente cientos de miles a millones de hipótesis. En la mayoría de los casos, se usa la corrección de Bonferroni o el umbral de valor p generalmente aceptado para GWAS [27] , sin embargo, esto da como resultado una caída en el poder del estudio con un aumento concomitante en el riesgo de resultados falsos negativos. También se viola el supuesto de la corrección de Bonferroni sobre la independencia de las comparaciones que se realizan, ya que existe un desequilibrio de ligamiento , cuando las frecuencias de las combinaciones de SNP difieren de las esperadas en ausencia de ligamiento, por lo que surge la pregunta de cuántos reales independientes se hacen comparaciones. Es posible definir el número de comparaciones independientes bajo condiciones tales como el número de componentes principales que colectivamente cubren más que la varianza de los datos bajo estudio, luego el valor p umbral, que proporciona significación estadística al nivel de , se vuelve a calcular como sigue:
[28] [29]
Además, las pruebas de permutación [28] [30] como Rank product se utilizan para resolver el problema de las comparaciones múltiples . La suposición de las pruebas de permutación es que si las muestras comparadas provienen de la misma población, entonces el intercambio de elementos entre las muestras no debería conducir a un cambio significativo en las estadísticas de la prueba. Un algoritmo general aproximado para las pruebas de permutación es el siguiente [30] :
Al aplicar pruebas de permutación, no se requiere la corrección real del nivel de significación o los valores p de prueba. Las pruebas de permutación no son sensibles al desequilibrio de la muestra, lo cual es útil en el análisis de datos biológicos [31] .