El modelado jerárquico bayesiano es un modelo estadístico , escrito en forma de varios niveles (en forma jerárquica), que estima los parámetros de la distribución posterior utilizando el método bayesiano [1] . Los submodelos se combinan en un modelo jerárquico y se usa el teorema de Bayes para combinarlos con los datos observados y dar cuenta de cualquier incertidumbre presente. El resultado de esta unión es la distribución posterior, también conocida como estimación de probabilidad refinada después de obtener más información sobre la probabilidad previa .
Las estadísticas de frecuencia , la base más popular de las estadísticas , pueden dar una conclusión aparentemente inconsistente con la conclusión que da la estadística bayesiana, ya que el enfoque bayesiano trata los parámetros como variables aleatorias y usa información subjetiva para establecer suposiciones sobre estos parámetros [2] . Dado que los enfoques responden a diferentes preguntas, los resultados formales no son técnicamente inconsistentes, pero los dos enfoques no están de acuerdo en cuanto a qué respuesta se aplica a aplicaciones particulares. Los bayesianos argumentan que la información relevante para la toma de decisiones y las actualizaciones de confianza no se pueden ignorar, y que el modelado jerárquico tiene el potencial de tener prioridad sobre los métodos clásicos en aplicaciones en las que el encuestado proporciona múltiples opciones de datos de observación. Además, se ha demostrado que el modelo es robusto con menos sensibilidad de la distribución posterior a los anteriores jerárquicos variables.
El modelado jerárquico se utiliza cuando la información está disponible en varios niveles diferentes de cantidades observadas. El tipo jerárquico de análisis y representación ayuda a comprender problemas de parámetros múltiples y juega un papel importante en el desarrollo de estrategias computacionales [3] .
Numerosas aplicaciones estadísticas utilizan múltiples parámetros que pueden considerarse dependientes o relacionados de tal manera que el problema asume que el modelo de probabilidad conjunta de estos parámetros es dependiente [4] .
Los grados individuales de confianza, expresados en forma de probabilidades, tienen su propia incertidumbre [5] . Además, el grado de certeza puede cambiar con el tiempo. Como han afirmado el profesor José M. Bernardo y el profesor Adrian F. Smith, "La relevancia del proceso de aprendizaje radica en la evolución de la confianza individual y subjetiva en la realidad". Estas probabilidades subjetivas están más directamente involucradas en la mente que las probabilidades físicas [6] . Por lo tanto, esto requiere una actualización de la confianza, y los bayesianistas han formulado un modelo estadístico alternativo que tiene en cuenta las ocurrencias a priori de un evento en particular [7] .
La supuesta recepción de un hecho real suele cambiar las preferencias entre determinadas opciones. Esto se hace cambiando el grado de confianza en los eventos que determinan las opciones [8] .
Suponga que al estudiar la eficacia de la terapia cardíaca para pacientes en el hospital j que tienen probabilidad de supervivencia , la probabilidad de supervivencia se actualiza en el evento y que genera un hipotético suero cuestionable que algunos piensan que aumenta la supervivencia de los pacientes con problemas cardíacos.
Para hacer afirmaciones actualizadas sobre la probabilidad de que ocurra el evento y , debemos comenzar con un modelo que proporcione una distribución de probabilidad conjunta para e y . Esto se puede escribir como el producto de dos distribuciones, a menudo denominadas distribución previa y de muestreo, respectivamente:
Si se usa la propiedad básica de probabilidad condicional , la distribución posterior dará:
La igualdad que muestra la relación entre la probabilidad condicional y los eventos individuales se conoce como teorema de Bayes. Esta simple expresión encarna el núcleo técnico de la inferencia bayesiana, cuyo objetivo es incluir la confianza actualizada de una manera relevante y resoluble [8] .
Un punto de partida común para el análisis estadístico es asumir que n valores se permutan. Si no se dispone de información distinta de los datos y para distinguir unos de otros, y no se puede ordenar ni agrupar los parámetros, se debe suponer la simetría de los parámetros con respecto a su probabilidad previa [9] . Esta simetría está representada por la permutabilidad probabilística. Por lo general, es útil y aceptable modelar los datos de una distribución de permutación como independientes y distribuidos equitativamente dado un vector desconocido de parámetros con distribución .
Para un número fijo n , un conjunto es permutable si la distribución conjunta es invariante bajo permutaciones de índice . Es decir, para cualquier permutación o de índices (1, 2,…, n ), [10]
A continuación se muestra un ejemplo de una secuencia permutable, pero no independiente, e idénticamente distribuida: Considere una urna con bolas rojas y azules con probabilidades de sacar bolas. Las bolas se sacan sin volver a la urna, es decir, después de sacar una de las n bolas, quedan n − 1 bolas en la urna para el siguiente sorteo.
Dejar | si la -ésima bola es roja |
de lo contrario. |
Dado que la probabilidad de sacar una bola roja en el primer sorteo y una bola azul en el segundo sorteo es igual a la probabilidad de sacar una bola azul en el primer sorteo y una bola roja en el segundo, que son ambos iguales a 1/2 (es decir , ), luego viajan .
Sin embargo, la probabilidad de sacar una bola roja en el segundo sorteo ya no será 1/2. Por lo tanto, y no son independientes.
Si son independientes e igualmente distribuidos, entonces son permutables, pero lo contrario no es necesariamente cierto [11] .
La permutabilidad infinita es una propiedad tal que cualquier subconjunto finito de una secuencia infinita es permutable. Es decir, para cualquier n la secuencia se permuta [11] .
El modelado jerárquico bayesiano utiliza dos conceptos importantes para derivar la distribución posterior [1] , a saber:
Supongamos que la variable aleatoria Y tiene una distribución normal con el parámetro θ como la media y el parámetro 1 como la varianza , es decir . Suponga que el parámetro tiene una distribución dada por una distribución normal con media y varianza 1, es decir, . Además, es otra distribución dada, por ejemplo, por la distribución normal estándar . El parámetro se denomina hiperparámetro, mientras que su distribución, dada como , es un ejemplo de una distribución hiperprior. La notación de Y cambia con la adición de otro parámetro, es decir, . Si hay otro nivel, digamos, es otra distribución normal con media y varianza , lo que significa , entonces y también pueden llamarse hiperparámetros, y sus distribuciones son distribuciones hiperpriores [4] .
Sean observaciones y sea un parámetro que controle el proceso de generación . Suponga además que los parámetros son generados por permutaciones de la población principal con una distribución controlada por el hiperparámetro .
El modelo jerárquico bayesiano contiene los siguientes niveles:
Nivel I: Nivel II: Nivel III:La probabilidad, vista desde el nivel I, es , c como su distribución previa. Tenga en cuenta que la probabilidad depende solo de through .
La distribución anterior del Nivel I se puede desglosar en:
[de la definición de probabilidad condicional]donde es un hiperparámetro con distribución de hiperprioridad .
Entonces la distribución posterior es proporcional a esta cantidad:
[usando el teorema de Bayes] [12]Para ilustrar, considere un ejemplo: Un maestro quiere evaluar qué tan bien le fue a un estudiante en su prueba SAT ( Prueba de Evaluación Escolástica [13] ) . Utiliza información sobre el estudiante en la escuela secundaria y su promedio de calificaciones (GPA) actual para obtener una calificación . El GPA actual, denotado por , tiene una probabilidad dada por alguna función de probabilidad con un parámetro , es decir, . Este parámetro es el puntaje SAT del estudiante. El puntaje del SAT se considera como una unidad muestral extraída de la muestra total derivada de la distribución de la población general, indexada por otro parámetro , que es el puntaje de secundaria del estudiante [14] . Es decir, . Además, el hiperparámetro tiene su propia distribución con la función , que se llama distribución hiperprior.
Para obtener el puntaje SAT de la información de GPA,
Toda la información del problema se utilizará para obtener la distribución posterior. En lugar de resolver usando solo la función previa y de probabilidad, el uso de distribuciones hiperpriorizadas proporciona más información, lo que conduce a una mayor confianza en el comportamiento del parámetro [15] .
En el caso general, la distribución posterior conjunta de modelos jerárquicos de 2 niveles de interés para nosotros es:
[quince]Para modelos jerárquicos de 3 niveles, la distribución posterior se da de la siguiente manera:
[quince]