Coeficiente de Bayes

El coeficiente bayesiano es una alternativa bayesiana a las pruebas de hipótesis estadísticas [1] [2] . La comparación de modelos bayesianos es un método para seleccionar modelos basados en coeficientes de Bayes. Los modelos discutidos son modelos estadísticos [3] . El propósito del coeficiente de Bayes es cuantificar el apoyo de un modelo sobre otro modelo, ya sea que los modelos sean correctos o no [4] . La definición técnica de "soporte" en el contexto de la inferencia bayesiana se da a continuación.

Definición

El coeficiente de Bayes es el cociente de verosimilitud de la verosimilitud marginal de dos hipótesis, generalmente la hipótesis nula y la alternativa [5] .

La probabilidad posterior de un modelo M dado por los datos D viene dada por el teorema de Bayes : ${\ estilo de visualización \ Pr (M | D)}$

\Pr(M|D)={\frac {\Pr(D|M)\Pr(M)}{\Pr(D))).

El término clave dependiente de los datos es la probabilidad del modelo M dados los datos D , y representa la probabilidad de que algunos de los datos se obtengan asumiendo que se acepta el modelo M. El cálculo correcto de este término es la clave para la comparación bayesiana de modelos. ${\ estilo de visualización \ Pr (D | M)}$

Dado un problema de selección de modelos en el que tenemos que elegir entre dos modelos basados en los datos observados D , la verosimilitud relativa de dos modelos diferentes M 1 y M 2 , parametrizados por los vectores de parámetros y , viene dada por el coeficiente de Bayes K , definido como ${\ estilo de visualización \ theta _ {1}}$ ${\ estilo de visualización \ theta _ {2}}$

K={\frac {\Pr(D|M_{1})}{\Pr(D|M_{2})))={\frac {\int \Pr(\theta _{1}| M_{1})\Pr(D|\theta _{1},M_{1})\,d\theta _{1}}{\int \Pr(\theta _{2}|M_{2}) \Pr(D|\theta _{2},M_{2})\,d\theta _{2))}={\frac {\Pr(M_{1}|D)}{\Pr(M_{ 2}|D))){\frac {\Pr(M_{2})}{\Pr(M_{1))))).

Si dos modelos son a priori igualmente probables, entonces el coeficiente de Bayes es igual a la razón de las probabilidades posteriores de los modelos M 1 y M 2 . Si se utiliza la verosimilitud correspondiente a la estimación de máxima verosimilitud del parámetro para cada modelo estadístico en lugar de la integral del coeficiente de Bayes , entonces la prueba se convierte en una prueba clásica de razón de verosimilitud . A diferencia de la prueba de razón de verosimilitud, la comparación del modelo bayesiano no depende de ningún conjunto particular de parámetros, ya que se calcula integrando todos los parámetros en cada modelo (teniendo en cuenta las probabilidades previas ). Sin embargo, la ventaja de utilizar los coeficientes de Bayes es que automáticamente y de forma bastante natural incluyen una penalización por incorporar en exceso la estructura del modelo [6] . Esto protege contra el sobreentrenamiento . En el caso de modelos para los cuales se desconoce la forma explícita de la función de verosimilitud o su cálculo es demasiado costoso, se pueden utilizar cálculos bayesianos aproximados [7] para la selección del modelo bayesiano [en] [7] , aunque debería ser tenido en cuenta que la estimación bayesiana aproximada de los coeficientes de Bayes suele estar sesgada [8] . $\Pr(M_{1})=\Pr(M_{2}),$

Otros enfoques:

tratar el modelo de comparación como un problema de decisión , calculando el valor esperado o el costo de cada elección de modelo;
utilice el principio de longitud mínima del mensaje ( ing. longitud mínima del mensaje , MML).

Interpretación

Un valor de K > 1 significa que la hipótesis M 1 está más fuertemente respaldada por los datos que la hipótesis M 2 . Tenga en cuenta que la prueba de hipótesis estadística clásica se basa de forma predeterminada en una sola hipótesis (o modelo) (la " hipótesis nula "), y solo considera la evidencia en su contra . Harold Jeffries da una tabla para interpretar el valor obtenido de K [9] :

k	dardo	pedacitos	Peso de la evidencia
< 10 0	0	—	Negativo (soporta M 2 )
10 0 ... 10 1/2	0...5	0...1.6	Apenas digno de mención
10 1/2 ... 10 1	5...10	1.6...3.3	Importante
10 1 ... 10 3/2	10...15	3.3...5.0	fuerte
10 3/2 ... 10 2	15...20	5,0...6,6	Muy fuerte
> 10 2	> 20	> 6.6	persuasivo

La segunda columna proporciona los pesos de soporte correspondientes en unidades de decihartli (también conocidas como decibans ), bits agregados en la tercera columna para mayor claridad. Según I. J. Good , las personas en la vida cotidiana difícilmente pueden estimar razonablemente la diferencia en el grado de confianza en la hipótesis correspondiente a un cambio en el peso de 1 deciban o 1/3 de bit (por ejemplo, una relación de resultados de 4:5 en 9 ensayos con dos resultados posibles) [10 ] .

Kass y Raftery (1995) [6] han propuesto una tabla alternativa ampliamente citada :

registro 10 K	k	Peso de la evidencia
0 a 1 ⁄ 2	1 a 3.2	Digno de solo una mención
de 1 ⁄ 2 a 1	de 3.2 a 10	Positivo
1 a 2	de 10 a 100	fuerte
> 2	> 100	Muy fuerte

El uso de coeficientes de Bayes o pruebas de hipótesis estadísticas clásicas ocurre en el contexto de la inferencia , no en la toma de decisiones bajo incertidumbre . Es decir, solo queremos encontrar qué hipótesis es correcta, en lugar de tomar una decisión real basada en esa información. Las estadísticas de frecuencia hacen una distinción estricta entre los dos enfoques, ya que los métodos clásicos de prueba de hipótesis no son coherentes en el sentido bayesiano. Los procedimientos bayesianos, incluidos los coeficientes de Bayes, son coherentes, por lo que no es necesario hacer esta distinción. Entonces, la inferencia se ve simplemente como un caso especial de toma de decisiones bajo incertidumbre, en el que la acción final es devolver un valor. Para la toma de decisiones, los estadísticos que utilizan el enfoque bayesiano pueden utilizar el coeficiente de Bayes junto con una distribución previa y una función de pérdida . En el contexto de la salida, la función de pérdida tomará la forma de la regla para calcular el resultado . El uso de la regla de puntuación logarítmica , por ejemplo, da como resultado la utilidad esperada , que toma la forma de la divergencia de Kullback-Leibler .

Ejemplo

Digamos que tenemos una variable aleatoria que toma el éxito o el fracaso. Queremos comparar un modelo M 1 , donde la probabilidad de éxito es q = ½ , y otro modelo M 2 , donde se desconoce el valor de q , y tomamos como distribución previa para q la distribución uniforme en [0,1 ]. Hacemos 200 intentos y obtenemos 115 éxitos y 85 fracasos. La probabilidad se puede calcular de acuerdo con la distribución binomial :

{{200 \elegir 115}q^{115}(1-q)^{85)).

Entonces tenemos para la hipótesis M 1

P(X=115\mid M_{1})={200 \elegir 115}\left({1 \over 2}\right)^{200}=0.005956...,\,

mientras que para M 2

P(X=115\mid M_{2})=\int_{0}^{1}{200 \elegir 115}q^{115}(1-q)^{85}dq={200 \elegir 115}\times \int _{0}^{1}q^{115}(1-q)^{85}dq={200 \elegir 115}\times

{\ estilo de visualización \ mathrm {B} (116,86)}

={200 \elegir 115}\veces

\Gamma (116)\times \Gamma (86) \over \Gamma (116+86)

={\frac {200!}{{115!}\times {85!}}}\times {\frac {{115!}\times {85!}}{201!}}={1 \ sobre 201}=0.004975....

La relación de estos valores es 1,197..., de ahí que la diferencia sea "apenas reseñable", aunque la elección se inclina ligeramente por M 1 .

Probar estas hipótesis estadísticas sobre la base de la inferencia de frecuencia M 1 (considerada aquí como la hipótesis nula ) dará un resultado completamente diferente. Tal prueba establece que la hipótesis M1 debe ser rechazada al nivel de significancia del 5%, ya que la probabilidad de obtener 115 o más éxitos de una muestra de 200 ítems en q = ½ es 0.0200, y la prueba de dos colas para obteniendo un extremo de 115 o más da 0.0400. Tenga en cuenta que 115 difiere de 100 en más de dos desviaciones estándar . Por lo tanto, mientras que la prueba de una hipótesis estadística basada en la inferencia de frecuencia produce una significancia estadística al nivel del 5%, es poco probable que el coeficiente de Bayes acepte esto como un resultado extremo. Tenga en cuenta, sin embargo, que una distribución previa no homogénea (por ejemplo, una que refleje la expectativa de que el número de éxitos y fracasos será del mismo orden de magnitud) puede dar como resultado un coeficiente bayesiano que es más consistente con las pruebas de inferencia de frecuencia. .

En una prueba clásica de razón de verosimilitud, se encontraría que la estimación de máxima verosimilitud para q es 115 ⁄ 200 = 0.575 , de donde

\textstyle P(X=115\mid M_{2})={{200 \elegir 115}q^{115}(1-q)^{85}}=0,056991

(en lugar de promediar todos los q posibles ). Esto da una razón de verosimilitud de 0.1045 y apunta a la hipótesis M 2 .

M 2 es un modelo más complejo que M 1 porque tiene un parámetro libre que le permite describir los datos de manera más consistente. La capacidad de los coeficientes de Bayes para tener esto en cuenta es la razón por la que se propone la inferencia bayesiana como justificación teórica y generalización de la navaja de Occam , en la que se reducen los errores de tipo I [11] .

Por otro lado, el método moderno de verosimilitud relativa tiene en cuenta el número de parámetros del modelo libre, en contraste con el cociente de verosimilitud clásico. El método de verosimilitud relativa se puede aplicar de la siguiente manera. El modelo M 1 tiene 0 parámetros y, por lo tanto, su valor del criterio de información de Akaike (AIC) es 2 · 0 − 2 ln 0.005956 ≈ 10.2467 . El modelo M 2 tiene 1 parámetro, y por lo tanto su valor AIC es 2 · 1 − 2 ln 0.056991 ≈ 7.7297 . Por lo tanto, es menos probable que M 1 minimice la pérdida de información que M 2 , aproximadamente por un factor de exp((7.7297 − 10.2467)/2) ≈ 0.284 veces. Por tanto, M 2 es ligeramente preferible, pero M 1 no se puede descartar.

Aplicación

El coeficiente bayesiano se aplicó para ordenar la expresión dinámica de los genes en lugar del valor q [12] .

Véase también

Criterio de información de Akaike
Cálculos bayesianos aproximados
Criterio de información bayesiano
Criterio de información de la suma de las desviaciones al cuadrado de la media
paradoja de lindley
Longitud mínima del mensaje
Selección de modelo

Indicadores estadísticos

Notas

↑ Goodman (1), 1999 , pág. 995–1004.
↑ Goodman (2), 1999 , pág. 1005–13.
↑ Morey, Romeijn, Rouder, 2016 , pág. 6–18.
↑ Ly, Verhagen, Wagenmakers, 2016 , pág. 19-32.
↑ Bueno, Hardin, 2012 , p. 129-131.
↑ 1 2 Kass, Raftery, 1995 , pág. 791.
↑ Toni, Stumpf, 2009 , pág. 104–10.
↑ Robert, Cornuet, Marin, Pillai, 2011 , pág. 15112–15117.
↑ Jeffreys, 1961 , pág. 432.
↑ Bueno, 1979 , p. 393-396.
↑ Afilando la Navaja de Ockham en una Correa Bayesiana . Consultado el 5 de enero de 2019. Archivado desde el original el 12 de septiembre de 2015. (indefinido)
↑ Hajiramezanali, Dadaneh, Figueiredo, Sze, Zhou, Qian, 2018 .

Literatura

Reenviar estadísticas médicas basadas en evidencia. 1: La falacia del valor P // Ann Intern Med. - 1999. - T. 130 , núm. 12 _ -doi : 10.7326 / 0003-4819-130-12-199906150-00008 . —PMID 10383371 .
Reenviar estadísticas médicas basadas en evidencia. 2: El factor de Bayes // Ann Intern Med. - 1999. - T. 130 , núm. 12 _ — S. 1005–13 . -doi : 10.7326 / 0003-4819-130-12-199906150-00019 . — PMID 10383350 .
Richard D. Morey, Jan-Willem Romeijn, Jeffrey N. Rouder. La filosofía de los factores de Bayes y la cuantificación de la evidencia estadística // Journal of Mathematical Psychology. - 2016. - T. 72 . -doi : 10.1016/ j.jmp.2015.11.001 .
Alexander Ly, Josine Verhagen, Eric-Jan Wagenmakers. Pruebas de hipótesis del factor de Bayes predeterminado de Harold Jeffreys: explicación, extensión y aplicación en psicología // Journal of Mathematical Psychology. - 2016. - T. 72 . — P. 19–32 . -doi : 10.1016/ j.jmp.2015.06.004 .
Robert E. Kass, Adrian E. Raftery. Factores de Bayes // Revista de la Asociación Estadounidense de Estadística. - 1995. - T. 90 , N º 430 . -doi : 10.2307/ 2291091 .
Toni T., Stumpf MPH Selección de modelos basada en simulación para sistemas dinámicos en sistemas y biología de poblaciones // Bioinformática. - 2009. - T. 26 , núm. 1 . -doi : 10.1093 / bioinformática/btp619 . - arXiv : 0911.1705 . —PMID 19880371 .
Robert CP, Cornuet J., Marin J., Pillai NS Falta de confianza en la elección del modelo de cálculo bayesiano aproximado // Actas de la Academia Nacional de Ciencias. - 2011. - T. 108 , núm. 37 . -doi : 10.1073/ pnas.1102900108 . - . —PMID 21876135 .
Jeffreys H. La teoría de la probabilidad . — 3er. —Oxford, 1961.
Buenos estudios IJ en la historia de la probabilidad y la estadística. XXXVII AM El trabajo estadístico de Turing en la Segunda Guerra Mundial // Biometrika . - 1979. - T. 66 , núm. 2 . -doi :/ biomet/66.2.393 .
Hajiramezanali E., Dadaneh SZ, Figueiredo P. d., Sze S., Zhou Z., Qian X. Análisis de expresión diferencial de datos de recuento de secuenciación dinámica con una cadena de Markov gamma . — 2018.
Phillip Good, James Hardin. Errores comunes en las estadísticas (y cómo evitarlos). — 4to. - Hoboken, Nueva Jersey: John Wiley & Sons, Inc., 2012. - ISBN 978-1118294390 .
Bernardo J., Smith A.F.M. Teoría bayesiana. - John Wiley, 1994. - ISBN 0-471-92416-4 .
Denison DGT, Holmes CC, Mallick BK, Smith AFM Métodos bayesianos para clasificación y regresión no lineales. - John Wiley, 2002. - ISBN 0-471-49036-9 .
Richard O. Duda, Peter E. Hart, David G. Stork. Sección 9.6.5 // Clasificación de patrones. — 2do. - Wiley, 2000. - S. 487-489. — ISBN 0-471-05669-3 .
Gelman A., Carlin J., Stern H., Rubin D. Análisis de datos bayesianos. — Londres: Chapman & Hall , 1995. — ISBN 0-412-03991-5 .
Jaynes ET capítulo 24: COMPARACIÓN DE MODELOS Y ROBUSTEZ // Teoría de la probabilidad: la lógica de la ciencia . — 1994.
Estadísticas bayesianas de Lee PM : una introducción. - Wiley, 2012. - ISBN 9781118332573 .
Roberto Winkler. Introducción a la Inferencia y Decisión Bayesianas. — 2do. - Probabilística, 2003. - ISBN 0-9647938-4-9 .

Enlace

BayesFactor : un paquete R para calcular los factores de Bayes en diseños de investigación comunes
Calculadoras de Bayes Factor : versión basada en web de gran parte del paquete BayesFactor