Evaluación bayesiana de una solución

En estadística matemática y teoría de decisiones, una estimación de decisión bayesiana es una estimación estadística que minimiza la expectativa posterior de una función de pérdida (es decir, la expectativa posterior de pérdida ). En otras palabras, maximiza la expectativa posterior de la función de utilidad . En el marco de la teoría bayesiana , esta estimación se puede definir como la estimación del máximo a posteriori .

Definición

Suponga que el parámetro desconocido tiene una distribución previa . Sea  una estimación de un parámetro basada en algunas mediciones de , y sea una función de pérdida  cuadrática de , y el riesgo bayesiano del parámetro  es , donde la media se toma sobre la distribución de : esto define la función de riesgo como una función de . Entonces, una estimación bayesiana se llamará una estimación que minimiza el riesgo bayesiano entre todas las demás estimaciones. Del mismo modo, el estimador que minimiza la pérdida esperada posterior para cada x también minimiza el riesgo bayesiano y, por lo tanto, es un estimador bayesiano. [una]

En el caso de una distribución previa incorrecta , una estimación que minimiza la expectativa de pérdida posterior para cada x se denomina estimación bayesiana generalizada . [2]

Ejemplos

Estimación del error cuadrático medio raíz mínimo

La función de riesgo más utilizada para la estimación bayesiana es la función de error cuadrático medio (referida en la literatura inglesa como MSE). El error cuadrático medio mínimo MSE se define como

donde la expectativa matemática se toma de la distribución conjunta y .

Media posterior

Si usamos el MSE como una función de riesgo, entonces la estimación bayesiana del parámetro desconocido es simplemente la media de la distribución posterior : [3]

Esto se conoce como la estimación del error cuadrático medio mínimo. El riesgo bayesiano, en este caso, es la varianza posterior.

Riesgo bayesiano para el conjugado previo

En los casos en que no hay una buena razón para preferir un anterior sobre otro, el conjugado anterior se usa por simplicidad . Se define como una distribución previa perteneciente a alguna familia paramétrica cuya distribución posterior resultante también pertenece a esa familia. Esta es una propiedad importante porque la estimación bayesiana así como sus características estadísticas ( varianza , intervalo de confianza , etc.) pueden derivarse de la distribución posterior.

Es particularmente aplicable en la estimación secuencial, donde la distribución posterior de las mediciones actuales se utiliza como anterior en la siguiente medición. Con cada nueva iteración de tales mediciones, la distribución posterior generalmente se vuelve más compleja y, a menudo, la estimación bayesiana no se puede calcular sin el uso de métodos numéricos .

Algunos ejemplos de anteriores conjugados:

Funciones alternativas de riesgo

Las funciones de riesgo se eligen en función de cómo se mide el intervalo entre la estimación y el parámetro desconocido. MSE es la función de riesgo más utilizada, principalmente debido a su simplicidad. Sin embargo, a veces se utilizan funciones de riesgo alternativas. Los siguientes son algunos ejemplos de tales alternativas. Además, la función de distribución generalizada posterior se denota como .

Mediana posterior y otros cuantiles
  • Una función de pérdida "lineal" con , eligiendo la mediana de la distribución posterior como la estimación bayesiana:
  • Otra función de pérdida "lineal" que asigna diferentes "pesos" a la parte superior o inferior de la estimación. Selecciona un cuantil de la distribución posterior y es una generalización de la función de pérdida anterior.
Estimación del máximo a posteriori
  • La siguiente función de pérdida es más compleja: establece una estimación del máximo posterior , o un punto cercano a él, en función de la curvatura y características de la distribución posterior. Se recomiendan valores de parámetros pequeños para usar el método como una aproximación

( ):

  • Aunque la función de error cuadrático medio es la más común y válida, se pueden usar otras funciones de pérdida.

Estimadores bayesianos generalizados

Hasta ahora se ha supuesto que la distribución previa  es la verdadera distribución de probabilidad, ya que

Sin embargo, a veces esto puede ser un requisito demasiado estricto. Por ejemplo, no existe tal distribución (que cubra todo el conjunto R de números reales) para la cual todos los números reales serían igualmente posibles. Sin embargo, en cierto sentido, tal distribución parece ser una elección natural para una distribución a priori no informativa , es decir, una distribución a priori que no favorece algún valor fijo del parámetro desconocido. Todavía es posible definir la función , pero ya no será una distribución de probabilidad correcta, ya que tiene una masa infinita.

Tales medidas fijas son distribuciones previas incorrectas .

El uso de anteriores incorrectos significa que el riesgo bayesiano no está definido (porque el anterior dado no es, de hecho, una distribución de probabilidad y no podemos tomar el valor esperado de él). Por lo tanto, es incorrecto hablar de un estimador bayesiano que minimiza el riesgo bayesiano. Sea como fuere, se puede calcular la distribución posterior como

Tenga en cuenta que el teorema de Bayes solo se aplica a distribuciones bien formadas, por lo que no es posible usarlo aquí. Sin embargo, a menudo hay casos en los que la distribución posterior resultante permitirá tales distribuciones de probabilidad. En este caso, la pérdida esperada posterior

bien definida y finita. Recuerde que para una distribución correcta, las estimaciones bayesianas minimizan la pérdida posterior. Cuando la distribución previa es incorrecta, el estimador que minimiza la expectativa posterior de la pérdida se denomina estimador bayesiano generalizado .

Estimaciones bayesianas empíricas

Los estimadores bayesianos producidos por el método empírico de Bayes se denominan estimadores empíricos bayesianos . Este método permite el uso de datos de apoyo en el desarrollo de un estimador bayesiano. Se pueden obtener empíricamente observando parámetros adyacentes. Esto se hace suponiendo que los parámetros estimados se toman de los mismos datos anteriores. Por ejemplo, si se realizan observaciones independientes para diferentes parámetros, a veces es posible mejorar la eficiencia de la estimación de un parámetro en particular mediante el uso de datos de otras observaciones.

Existen técnicas paramétricas y no paramétricas para estimaciones bayesianas empíricas. Los paramétricos son preferibles porque son más aplicables y más precisos en pequeñas cantidades de datos. [cuatro]

Propiedades

Permisibilidad

Las reglas bayesianas que tienen un riesgo bayesiano finito suelen ser válidas. Los siguientes son algunos ejemplos de teoremas de admisibilidad.

  • Si la regla de decisión bayesiana es única, entonces es aceptable. [5] Por ejemplo, como se indicó anteriormente, bajo el error cuadrático medio (MSE), la regla bayesiana es única y, por lo tanto, válida.
  • Si el parámetro θ pertenece a un conjunto discreto , todas las reglas bayesianas son válidas.
  • Si el parámetro θ pertenece a un conjunto continuo (no discreto) y la función de riesgo R(θ,δ) es continua en θ para cada δ, entonces todas las reglas bayesianas son válidas.

Al mismo tiempo, la regla bayesiana generalizada a menudo no define el riesgo bayesiano en el caso de una distribución previa incorrecta. Estas reglas a menudo no son válidas y validarlas puede ser difícil. Por ejemplo, una estimación bayesiana generalizada del desplazamiento del parámetro θ, basada en una muestra con una distribución normal, no es válida para . Esta paradoja se conoce como la paradoja de Stein. El ejemplo de

Ejemplos prácticos del uso de estimaciones bayesianas

Internet Movie Database utiliza una fórmula especial para calcular y comparar las clasificaciones de películas por parte de los usuarios . La siguiente fórmula bayesiana se usó originalmente para calcular el promedio ponderado de las 250 mejores películas, aunque la fórmula ha cambiado desde entonces:

dónde:

= calificación ponderada = calificación promedio de la película, expresada como un número del 1 al 10 = (calificación) = número de votos para la película = (votos) = peso dado por la calificación a priori (la estimación se basa en la distribución de la calificación promedio entre todas las películas) = calificación promedio en todas las películas (actualmente 7.0)

El enfoque de IMDB garantiza que una película calificada varios cientos de veces exclusivamente con una calificación de 10 no pueda subir más alto que, por ejemplo, El padrino, que tiene una calificación promedio de 9,2 entre más de 500 000 usuarios.

Véase también

Notas

  1. Lehmann y Casella, Teorema 4.1.1
  2. Lehmann y Casella, Definición 4.2.9
  3. Jaynes, E.T. Teoría de la probabilidad: la lógica de la ciencia  . - 5. impresión.. - Cambridge [ua]: Cambridge University Press , 2007. - P. 172. - ISBN 978-0-521-59271-0 .
  4. Berger (1980), sección 4.5.
  5. Lehmann y Casella (1998), Teorema 5.2.4.

Enlaces

  1. http://info.alnam.ru/book_osr.php?id=91 Archivado el 24 de julio de 2017 en Wayback Machine .
  2. http://lib.alnam.ru/book_inst.php?id=24 Archivado el 7 de diciembre de 2016 en Wayback Machine .
  3. Una explicación intuitiva del teorema de Bayes Archivado el 24 de agosto de 2015 en Wayback Machine .