Red bayesiana

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 29 de diciembre de 2021; las comprobaciones requieren 4 ediciones .

Red bayesiana (o red bayesiana , red de creencias bayesianas , red bayesiana inglesa  , red de creencias ): modelo probabilístico gráfico , que es un conjunto de variables y sus dependencias probabilísticas según Bayes . Por ejemplo, se puede utilizar una red bayesiana para calcular la probabilidad de que un paciente tenga una enfermedad en función de la presencia o ausencia de un conjunto de síntomas, en función de los datos sobre la relación entre síntomas y enfermedades. El aparato matemático de las redes bayesianas fue creado por el científico estadounidense Judah Pearl , ganador del Premio Turing (2011).

Formalmente, una red bayesiana es un gráfico acíclico dirigido , cada vértice del cual corresponde a una variable aleatoria, y los arcos del gráfico codifican relaciones de independencia condicional entre estas variables. Los vértices pueden representar variables de cualquier tipo, ya sean parámetros ponderados, variables latentes o hipótesis. Existen métodos eficientes que se utilizan para calcular y entrenar redes bayesianas. Si las variables de la red bayesiana son variables aleatorias discretas, dicha red se denomina red bayesiana discreta. Las redes bayesianas que modelan secuencias de variables se denominan redes bayesianas dinámicas . Las redes bayesianas que pueden tener variables discretas y continuas se denominan redes bayesianas híbridas . Una red bayesiana en la que los arcos, además de las relaciones de independencia condicional, también codifican relaciones de causalidad se denomina redes bayesianas causales [ 1] ) . 

Definiciones y principios de funcionamiento

Si un arco va de un vértice a un vértice , entonces se llama padre y se llama hijo . Si hay un camino dirigido desde el vértice al vértice , entonces se le llama ancestro y se le llama descendiente .

El conjunto de vértices-padres de un vértice se denotará como .

Un gráfico acíclico dirigido se denomina red bayesiana para una distribución de probabilidad definida sobre un conjunto de variables aleatorias , si cada vértice del gráfico está asociado con una variable aleatoria de y los arcos en el gráfico satisfacen la condición (condición de Markov [1] ): cualquier variable de debe ser condicionalmente independiente de todos los vértices que no sean sus descendientes, si se dan todos sus padres directos en el gráfico , es decir

justa:

donde  esta el valor ;  - configuración[ especificar ] ;  es el conjunto de todos los vértices que no son descendientes de ;  - configuración .

Entonces, la distribución conjunta completa de valores en los vértices se puede escribir convenientemente como una descomposición (producto) de distribuciones locales:

Si un vértice no tiene ancestros, entonces su distribución de probabilidad local se llama incondicional , de lo contrario, condicional . Si un vértice, una variable aleatoria, ha recibido un valor (por ejemplo, como resultado de la observación), ese valor se llama evidencia . Si el valor de la variable se estableció desde el exterior (y no se observó), entonces dicho valor se llama intervención ( acción en inglés ) o intervención ( intervención en inglés ) [1] .    

La independencia condicional en una red bayesiana está representada por la propiedad gráfica de separación d .

separación d

Un camino se denomina conjunto de vértices bloqueados o separados por d si y solo si   

  1. contiene una cadena o rama tal que pertenece a , o
  2. contiene una bifurcación invertida (colisionador) tal que no pertenece y el vértice no tiene hijos que pertenezcan a .

Sean  subconjuntos de vértices que no se intersecan en un gráfico dirigido acíclico . Se dice que un conjunto de vértices se separa en d si y solo si bloquea todos los caminos de cualquier vértice que pertenezca a cualquier vértice que pertenezca a , y se denota por . Un camino es una secuencia de aristas consecutivas (de cualquier dirección) en el gráfico [1] .

El teorema de separación d

Para tres subconjuntos de vértices que no se superponen en un gráfico dirigido acíclico y para todas las distribuciones de probabilidad , se cumple lo siguiente:

  1. si , entonces , si y son compatibles con Markov, y
  2. si la relación de independencia condicional se cumple para todas las distribuciones de probabilidad que son compatibles con Markov , entonces esto implica .

En otras palabras, si los vértices están separados en d, entonces son condicionalmente independientes; y si los vértices son condicionalmente independientes en todas las distribuciones de probabilidad compatibles con el gráfico , entonces están separados en d [1] .

( significa que los conjuntos de variables y son condicionalmente independientes para un conjunto dado ).

Evidencia

Evidencia  : declaraciones de la forma "un evento ocurrió en el nodo x". Por ejemplo: "la computadora no arranca" .

Consultas probabilísticas

La red bayesiana le permite obtener respuestas a los siguientes tipos de consultas probabilísticas [2] :

pronóstico , o inferencia directa , - determinación de la probabilidad de un evento por razones observables, diagnosticar , o inferencia inversa ( abducción ), - determinar la probabilidad de una causa con consecuencias observadas, inferencia intercausal (mixta) ( inglés  intercausal inference ) o transducción , - determinación de la probabilidad de una de las causas de un evento, siempre que ocurra una o más causas de este evento.

Ejemplo

Supongamos que puede haber dos razones por las que la hierba se puede mojar (HIERBA MOJADA): el aspersor ha funcionado o ha llovido. Suponga también que la lluvia afecta el funcionamiento del rociador (durante la lluvia, la unidad no se enciende). Entonces la situación puede ser modelada por la red bayesiana ilustrada. Cada una de las tres variables puede tomar sólo uno de dos valores posibles: T (verdadero - verdadero) y F (falso - falso), con las probabilidades indicadas en las tablas de la ilustración.

Función de probabilidad conjunta:

donde los tres nombres de variables significan G = Césped húmedo , S = Aspersor y R = Lluvia .

El modelo puede responder preguntas como "¿Cuál es la probabilidad de que lloviera si la hierba está mojada?" usando la fórmula de probabilidad condicional y sumando las variables:

Inferencia probabilística

Debido a que la red bayesiana es un modelo completo para las variables y sus relaciones, puede usarse para responder preguntas probabilísticas. Por ejemplo, la red se puede utilizar para obtener nuevos conocimientos sobre el estado de un subconjunto de variables mediante la observación de otras variables ( variables de evidencia ). Este proceso de calcular la distribución posterior de variables sobre variables de evidencia se llama inferencia probabilística. Este corolario nos da una estimación universal para aplicaciones donde necesitamos elegir los valores de un subconjunto de variables que minimiza la función de pérdida, por ejemplo, la probabilidad de una decisión errónea. La red bayesiana también se puede considerar como un mecanismo para construir automáticamente una extensión del teorema de Bayes para problemas más complejos.

Para realizar la inferencia probabilística en redes bayesianas, se utilizan los siguientes algoritmos [1] [3] :

Aplicaciones

Las redes bayesianas se utilizan para el modelado en bioinformática ( redes genéticas , estructura de proteínas ), medicina , clasificación de documentos , procesamiento de imágenes , procesamiento de datos , aprendizaje automático y sistemas de soporte de decisiones .

Información adicional

Software libre y de código abierto

Productos de software comercial

Véase también

Notas

  1. 1 2 3 4 5 6 Perla de Judea. Causalidad: modelos, razonamiento e inferencia. - 2ª edición. - Prensa de la Universidad de Cambridge, 2009. - 464 p. — ISBN 9780521895606 .
  2. Adnan Darwiche. Modelado y Razonamiento con Redes Bayesianas. - Prensa de la Universidad de Cambridge, 2009. - 526 p. — ISBN 978-0521884389 .
  3. Stuart Russel, Peter Norvig. Inteligencia artificial: un enfoque moderno (AIMA): [trad. De inglés]. - 2ª ed. - M .: Williams, 2005. - 1424 p.

Enlaces