En estadística matemática y teoría de decisiones, una estimación de decisión bayesiana es una estimación estadística que minimiza la expectativa posterior de una función de pérdida (es decir, la expectativa posterior de pérdida ). En otras palabras, maximiza la expectativa posterior de la función de utilidad . En el marco de la teoría bayesiana , esta estimación se puede definir como la estimación del máximo a posteriori .
Suponga que el parámetro desconocido tiene una distribución previa . Sea una estimación de un parámetro basada en algunas mediciones de , y sea una función de pérdida cuadrática de , y el riesgo bayesiano del parámetro es , donde la media se toma sobre la distribución de : esto define la función de riesgo como una función de . Entonces, una estimación bayesiana se llamará una estimación que minimiza el riesgo bayesiano entre todas las demás estimaciones. Del mismo modo, el estimador que minimiza la pérdida esperada posterior para cada x también minimiza el riesgo bayesiano y, por lo tanto, es un estimador bayesiano. [una]
En el caso de una distribución previa incorrecta , una estimación que minimiza la expectativa de pérdida posterior para cada x se denomina estimación bayesiana generalizada . [2]
La función de riesgo más utilizada para la estimación bayesiana es la función de error cuadrático medio (referida en la literatura inglesa como MSE). El error cuadrático medio mínimo MSE se define como
donde la expectativa matemática se toma de la distribución conjunta y .
Si usamos el MSE como una función de riesgo, entonces la estimación bayesiana del parámetro desconocido es simplemente la media de la distribución posterior : [3]
Esto se conoce como la estimación del error cuadrático medio mínimo. El riesgo bayesiano, en este caso, es la varianza posterior.
En los casos en que no hay una buena razón para preferir un anterior sobre otro, el conjugado anterior se usa por simplicidad . Se define como una distribución previa perteneciente a alguna familia paramétrica cuya distribución posterior resultante también pertenece a esa familia. Esta es una propiedad importante porque la estimación bayesiana así como sus características estadísticas ( varianza , intervalo de confianza , etc.) pueden derivarse de la distribución posterior.
Es particularmente aplicable en la estimación secuencial, donde la distribución posterior de las mediciones actuales se utiliza como anterior en la siguiente medición. Con cada nueva iteración de tales mediciones, la distribución posterior generalmente se vuelve más compleja y, a menudo, la estimación bayesiana no se puede calcular sin el uso de métodos numéricos .
Algunos ejemplos de anteriores conjugados:
Las funciones de riesgo se eligen en función de cómo se mide el intervalo entre la estimación y el parámetro desconocido. MSE es la función de riesgo más utilizada, principalmente debido a su simplicidad. Sin embargo, a veces se utilizan funciones de riesgo alternativas. Los siguientes son algunos ejemplos de tales alternativas. Además, la función de distribución generalizada posterior se denota como .
Mediana posterior y otros cuantiles( ):
Hasta ahora se ha supuesto que la distribución previa es la verdadera distribución de probabilidad, ya que
Sin embargo, a veces esto puede ser un requisito demasiado estricto. Por ejemplo, no existe tal distribución (que cubra todo el conjunto R de números reales) para la cual todos los números reales serían igualmente posibles. Sin embargo, en cierto sentido, tal distribución parece ser una elección natural para una distribución a priori no informativa , es decir, una distribución a priori que no favorece algún valor fijo del parámetro desconocido. Todavía es posible definir la función , pero ya no será una distribución de probabilidad correcta, ya que tiene una masa infinita.
Tales medidas fijas son distribuciones previas incorrectas .
El uso de anteriores incorrectos significa que el riesgo bayesiano no está definido (porque el anterior dado no es, de hecho, una distribución de probabilidad y no podemos tomar el valor esperado de él). Por lo tanto, es incorrecto hablar de un estimador bayesiano que minimiza el riesgo bayesiano. Sea como fuere, se puede calcular la distribución posterior como
Tenga en cuenta que el teorema de Bayes solo se aplica a distribuciones bien formadas, por lo que no es posible usarlo aquí. Sin embargo, a menudo hay casos en los que la distribución posterior resultante permitirá tales distribuciones de probabilidad. En este caso, la pérdida esperada posterior
bien definida y finita. Recuerde que para una distribución correcta, las estimaciones bayesianas minimizan la pérdida posterior. Cuando la distribución previa es incorrecta, el estimador que minimiza la expectativa posterior de la pérdida se denomina estimador bayesiano generalizado .
Los estimadores bayesianos producidos por el método empírico de Bayes se denominan estimadores empíricos bayesianos . Este método permite el uso de datos de apoyo en el desarrollo de un estimador bayesiano. Se pueden obtener empíricamente observando parámetros adyacentes. Esto se hace suponiendo que los parámetros estimados se toman de los mismos datos anteriores. Por ejemplo, si se realizan observaciones independientes para diferentes parámetros, a veces es posible mejorar la eficiencia de la estimación de un parámetro en particular mediante el uso de datos de otras observaciones.
Existen técnicas paramétricas y no paramétricas para estimaciones bayesianas empíricas. Los paramétricos son preferibles porque son más aplicables y más precisos en pequeñas cantidades de datos. [cuatro]
Las reglas bayesianas que tienen un riesgo bayesiano finito suelen ser válidas. Los siguientes son algunos ejemplos de teoremas de admisibilidad.
Al mismo tiempo, la regla bayesiana generalizada a menudo no define el riesgo bayesiano en el caso de una distribución previa incorrecta. Estas reglas a menudo no son válidas y validarlas puede ser difícil. Por ejemplo, una estimación bayesiana generalizada del desplazamiento del parámetro θ, basada en una muestra con una distribución normal, no es válida para . Esta paradoja se conoce como la paradoja de Stein. El ejemplo de
Internet Movie Database utiliza una fórmula especial para calcular y comparar las clasificaciones de películas por parte de los usuarios . La siguiente fórmula bayesiana se usó originalmente para calcular el promedio ponderado de las 250 mejores películas, aunque la fórmula ha cambiado desde entonces:
dónde:
= calificación ponderada = calificación promedio de la película, expresada como un número del 1 al 10 = (calificación) = número de votos para la película = (votos) = peso dado por la calificación a priori (la estimación se basa en la distribución de la calificación promedio entre todas las películas) = calificación promedio en todas las películas (actualmente 7.0)El enfoque de IMDB garantiza que una película calificada varios cientos de veces exclusivamente con una calificación de 10 no pueda subir más alto que, por ejemplo, El padrino, que tiene una calificación promedio de 9,2 entre más de 500 000 usuarios.