El coeficiente bayesiano es una alternativa bayesiana a las pruebas de hipótesis estadísticas [1] [2] . La comparación de modelos bayesianos es un método para seleccionar modelos basados en coeficientes de Bayes. Los modelos discutidos son modelos estadísticos [3] . El propósito del coeficiente de Bayes es cuantificar el apoyo de un modelo sobre otro modelo, ya sea que los modelos sean correctos o no [4] . La definición técnica de "soporte" en el contexto de la inferencia bayesiana se da a continuación.
El coeficiente de Bayes es el cociente de verosimilitud de la verosimilitud marginal de dos hipótesis, generalmente la hipótesis nula y la alternativa [5] .
La probabilidad posterior de un modelo M dado por los datos D viene dada por el teorema de Bayes :
El término clave dependiente de los datos es la probabilidad del modelo M dados los datos D , y representa la probabilidad de que algunos de los datos se obtengan asumiendo que se acepta el modelo M. El cálculo correcto de este término es la clave para la comparación bayesiana de modelos.
Dado un problema de selección de modelos en el que tenemos que elegir entre dos modelos basados en los datos observados D , la verosimilitud relativa de dos modelos diferentes M 1 y M 2 , parametrizados por los vectores de parámetros y , viene dada por el coeficiente de Bayes K , definido como
Si dos modelos son a priori igualmente probables, entonces el coeficiente de Bayes es igual a la razón de las probabilidades posteriores de los modelos M 1 y M 2 . Si se utiliza la verosimilitud correspondiente a la estimación de máxima verosimilitud del parámetro para cada modelo estadístico en lugar de la integral del coeficiente de Bayes , entonces la prueba se convierte en una prueba clásica de razón de verosimilitud . A diferencia de la prueba de razón de verosimilitud, la comparación del modelo bayesiano no depende de ningún conjunto particular de parámetros, ya que se calcula integrando todos los parámetros en cada modelo (teniendo en cuenta las probabilidades previas ). Sin embargo, la ventaja de utilizar los coeficientes de Bayes es que automáticamente y de forma bastante natural incluyen una penalización por incorporar en exceso la estructura del modelo [6] . Esto protege contra el sobreentrenamiento . En el caso de modelos para los cuales se desconoce la forma explícita de la función de verosimilitud o su cálculo es demasiado costoso, se pueden utilizar cálculos bayesianos aproximados [7] para la selección del modelo bayesiano [en] [7] , aunque debería ser tenido en cuenta que la estimación bayesiana aproximada de los coeficientes de Bayes suele estar sesgada [8] .
Otros enfoques:
Un valor de K > 1 significa que la hipótesis M 1 está más fuertemente respaldada por los datos que la hipótesis M 2 . Tenga en cuenta que la prueba de hipótesis estadística clásica se basa de forma predeterminada en una sola hipótesis (o modelo) (la " hipótesis nula "), y solo considera la evidencia en su contra . Harold Jeffries da una tabla para interpretar el valor obtenido de K [9] :
k | dardo | pedacitos | Peso de la evidencia |
---|---|---|---|
< 10 0 | 0 | — | Negativo (soporta M 2 ) |
10 0 ... 10 1/2 | 0...5 | 0...1.6 | Apenas digno de mención |
10 1/2 ... 10 1 | 5...10 | 1.6...3.3 | Importante |
10 1 ... 10 3/2 | 10...15 | 3.3...5.0 | fuerte |
10 3/2 ... 10 2 | 15...20 | 5,0...6,6 | Muy fuerte |
> 10 2 | > 20 | > 6.6 | persuasivo |
La segunda columna proporciona los pesos de soporte correspondientes en unidades de decihartli (también conocidas como decibans ), bits agregados en la tercera columna para mayor claridad. Según I. J. Good , las personas en la vida cotidiana difícilmente pueden estimar razonablemente la diferencia en el grado de confianza en la hipótesis correspondiente a un cambio en el peso de 1 deciban o 1/3 de bit (por ejemplo, una relación de resultados de 4:5 en 9 ensayos con dos resultados posibles) [10 ] .
Kass y Raftery (1995) [6] han propuesto una tabla alternativa ampliamente citada :
registro 10 K | k | Peso de la evidencia |
---|---|---|
0 a 1 ⁄ 2 | 1 a 3.2 | Digno de solo una mención |
de 1 ⁄ 2 a 1 | de 3.2 a 10 | Positivo |
1 a 2 | de 10 a 100 | fuerte |
> 2 | > 100 | Muy fuerte |
El uso de coeficientes de Bayes o pruebas de hipótesis estadísticas clásicas ocurre en el contexto de la inferencia , no en la toma de decisiones bajo incertidumbre . Es decir, solo queremos encontrar qué hipótesis es correcta, en lugar de tomar una decisión real basada en esa información. Las estadísticas de frecuencia hacen una distinción estricta entre los dos enfoques, ya que los métodos clásicos de prueba de hipótesis no son coherentes en el sentido bayesiano. Los procedimientos bayesianos, incluidos los coeficientes de Bayes, son coherentes, por lo que no es necesario hacer esta distinción. Entonces, la inferencia se ve simplemente como un caso especial de toma de decisiones bajo incertidumbre, en el que la acción final es devolver un valor. Para la toma de decisiones, los estadísticos que utilizan el enfoque bayesiano pueden utilizar el coeficiente de Bayes junto con una distribución previa y una función de pérdida . En el contexto de la salida, la función de pérdida tomará la forma de la regla para calcular el resultado . El uso de la regla de puntuación logarítmica , por ejemplo, da como resultado la utilidad esperada , que toma la forma de la divergencia de Kullback-Leibler .
Digamos que tenemos una variable aleatoria que toma el éxito o el fracaso. Queremos comparar un modelo M 1 , donde la probabilidad de éxito es q = ½ , y otro modelo M 2 , donde se desconoce el valor de q , y tomamos como distribución previa para q la distribución uniforme en [0,1 ]. Hacemos 200 intentos y obtenemos 115 éxitos y 85 fracasos. La probabilidad se puede calcular de acuerdo con la distribución binomial :
Entonces tenemos para la hipótesis M 1
mientras que para M 2
La relación de estos valores es 1,197..., de ahí que la diferencia sea "apenas reseñable", aunque la elección se inclina ligeramente por M 1 .
Probar estas hipótesis estadísticas sobre la base de la inferencia de frecuencia M 1 (considerada aquí como la hipótesis nula ) dará un resultado completamente diferente. Tal prueba establece que la hipótesis M1 debe ser rechazada al nivel de significancia del 5%, ya que la probabilidad de obtener 115 o más éxitos de una muestra de 200 ítems en q = ½ es 0.0200, y la prueba de dos colas para obteniendo un extremo de 115 o más da 0.0400. Tenga en cuenta que 115 difiere de 100 en más de dos desviaciones estándar . Por lo tanto, mientras que la prueba de una hipótesis estadística basada en la inferencia de frecuencia produce una significancia estadística al nivel del 5%, es poco probable que el coeficiente de Bayes acepte esto como un resultado extremo. Tenga en cuenta, sin embargo, que una distribución previa no homogénea (por ejemplo, una que refleje la expectativa de que el número de éxitos y fracasos será del mismo orden de magnitud) puede dar como resultado un coeficiente bayesiano que es más consistente con las pruebas de inferencia de frecuencia. .
En una prueba clásica de razón de verosimilitud, se encontraría que la estimación de máxima verosimilitud para q es 115 ⁄ 200 = 0.575 , de donde
(en lugar de promediar todos los q posibles ). Esto da una razón de verosimilitud de 0.1045 y apunta a la hipótesis M 2 .
M 2 es un modelo más complejo que M 1 porque tiene un parámetro libre que le permite describir los datos de manera más consistente. La capacidad de los coeficientes de Bayes para tener esto en cuenta es la razón por la que se propone la inferencia bayesiana como justificación teórica y generalización de la navaja de Occam , en la que se reducen los errores de tipo I [11] .
Por otro lado, el método moderno de verosimilitud relativa tiene en cuenta el número de parámetros del modelo libre, en contraste con el cociente de verosimilitud clásico. El método de verosimilitud relativa se puede aplicar de la siguiente manera. El modelo M 1 tiene 0 parámetros y, por lo tanto, su valor del criterio de información de Akaike (AIC) es 2 · 0 − 2 ln 0.005956 ≈ 10.2467 . El modelo M 2 tiene 1 parámetro, y por lo tanto su valor AIC es 2 · 1 − 2 ln 0.056991 ≈ 7.7297 . Por lo tanto, es menos probable que M 1 minimice la pérdida de información que M 2 , aproximadamente por un factor de exp((7.7297 − 10.2467)/2) ≈ 0.284 veces. Por tanto, M 2 es ligeramente preferible, pero M 1 no se puede descartar.