Red bayesiana

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 29 de diciembre de 2021; las comprobaciones requieren 4 ediciones .

Red bayesiana (o red bayesiana , red de creencias bayesianas , red bayesiana inglesa , red de creencias ): modelo probabilístico gráfico , que es un conjunto de variables y sus dependencias probabilísticas según Bayes . Por ejemplo, se puede utilizar una red bayesiana para calcular la probabilidad de que un paciente tenga una enfermedad en función de la presencia o ausencia de un conjunto de síntomas, en función de los datos sobre la relación entre síntomas y enfermedades. El aparato matemático de las redes bayesianas fue creado por el científico estadounidense Judah Pearl , ganador del Premio Turing (2011).

Formalmente, una red bayesiana es un gráfico acíclico dirigido , cada vértice del cual corresponde a una variable aleatoria, y los arcos del gráfico codifican relaciones de independencia condicional entre estas variables. Los vértices pueden representar variables de cualquier tipo, ya sean parámetros ponderados, variables latentes o hipótesis. Existen métodos eficientes que se utilizan para calcular y entrenar redes bayesianas. Si las variables de la red bayesiana son variables aleatorias discretas, dicha red se denomina red bayesiana discreta. Las redes bayesianas que modelan secuencias de variables se denominan redes bayesianas dinámicas . Las redes bayesianas que pueden tener variables discretas y continuas se denominan redes bayesianas híbridas . Una red bayesiana en la que los arcos, además de las relaciones de independencia condicional, también codifican relaciones de causalidad se denomina redes bayesianas causales [ 1] ) .

Definiciones y principios de funcionamiento

Si un arco va de un vértice a un vértice , entonces se llama padre y se llama hijo . Si hay un camino dirigido desde el vértice al vértice , entonces se le llama ancestro y se le llama descendiente . $A$ $B$ $A$ $B$ $B$ $A$ $A$ $B$ $A$ $B$ $B$ $A$

El conjunto de vértices-padres de un vértice se denotará como . $V_i$ $\mathrm {padres} (V_{i})=\mathbf {PA} _{i}$

Un gráfico acíclico dirigido se denomina red bayesiana para una distribución de probabilidad definida sobre un conjunto de variables aleatorias , si cada vértice del gráfico está asociado con una variable aleatoria de y los arcos en el gráfico satisfacen la condición (condición de Markov [1] ): cualquier variable de debe ser condicionalmente independiente de todos los vértices que no sean sus descendientes, si se dan todos sus padres directos en el gráfico , es decir $GRAMO$ $PAG(\mathbf {v} )$ ${\mathbf{V}}$ ${\mathbf{V}}$ $V_i$ ${\mathbf{V}}$ ${\ estilo de visualización \ mathbf {PA} _ {i}}$ $GRAMO$

$\forall V_{i}\in \mathbf {V}$ justa: $P(v_{i}\mid \mathbf {pa} _{i},\mathbf {s} )=P(v_{i}\mid \mathbf {pa} _{i}),$

donde esta el valor ; - configuración $v_{i}$ $V_i$ ${\ matemáticas {s}}$ [ especificar ] ; es el conjunto de todos los vértices que no son descendientes de ; - configuración . $\mathbf {S}$ $\mathbf {S}$ $V_i$ ${\ estilo de visualización \ mathbf {pa} _ {i}}$ ${\ estilo de visualización \ mathbf {PA} _ {i}}$

Entonces, la distribución conjunta completa de valores en los vértices se puede escribir convenientemente como una descomposición (producto) de distribuciones locales:

\mathrm {P} (V_{1},\ldots,V_{n})=\prod _{i=1}^{n}\mathrm {P} (V_{i}\mid \operatorname { padres} (V_{i})).

Si un vértice no tiene ancestros, entonces su distribución de probabilidad local se llama incondicional , de lo contrario, condicional . Si un vértice, una variable aleatoria, ha recibido un valor (por ejemplo, como resultado de la observación), ese valor se llama evidencia . Si el valor de la variable se estableció desde el exterior (y no se observó), entonces dicho valor se llama intervención ( acción en inglés ) o intervención ( intervención en inglés ) [1] . $V_i$

La independencia condicional en una red bayesiana está representada por la propiedad gráfica de separación d .

separación d

Un camino se denomina conjunto de vértices bloqueados o separados por d si y solo si $pags$ $Z$

$pags$ contiene una cadena o rama tal que pertenece a , o $i\to m\to j$ $i\obtiene m\to j$ $metro$ $Z$
$pags$ contiene una bifurcación invertida (colisionador) tal que no pertenece y el vértice no tiene hijos que pertenezcan a . $i\to m\obtiene j$ $metro$ $Z$ $metro$ $Z$

Sean subconjuntos de vértices que no se intersecan en un gráfico dirigido acíclico . Se dice que un conjunto de vértices se separa en d si y solo si bloquea todos los caminos de cualquier vértice que pertenezca a cualquier vértice que pertenezca a , y se denota por . Un camino es una secuencia de aristas consecutivas (de cualquier dirección) en el gráfico [1] . ${\ estilo de visualización X, Y, Z}$ $GRAMO$ $Z$ $X$ $Y$ $Z$ $X$ $Y$ ${\displaystyle (\langle X\perp \!\!\!\perp Y\mid Z\rangle )_{G))$

El teorema de separación d

Para tres subconjuntos de vértices que no se superponen en un gráfico dirigido acíclico y para todas las distribuciones de probabilidad , se cumple lo siguiente: $(X, Y, Z)$ $GRAMO$ $PAGS$

si , entonces , si y son compatibles con Markov, y ${\displaystyle (\langle X\perp \!\!\!\perp Y\mid Z\rangle )_{G))$ ${\displaystyle (\langle X\perp \!\!\!\perp Y\mid Z\rangle )_{P))$ $GRAMO$ $PAGS$
si la relación de independencia condicional se cumple para todas las distribuciones de probabilidad que son compatibles con Markov , entonces esto implica . ${\displaystyle (\langle X\perp \!\!\!\perp Y\mid Z\rangle )_{P))$ $GRAMO$ ${\displaystyle (\langle X\perp \!\!\!\perp Y\mid Z\rangle )_{G))$

En otras palabras, si los vértices están separados en d, entonces son condicionalmente independientes; y si los vértices son condicionalmente independientes en todas las distribuciones de probabilidad compatibles con el gráfico , entonces están separados en d [1] . $GRAMO$

( significa que los conjuntos de variables y son condicionalmente independientes para un conjunto dado ). ${\displaystyle (\langle X\perp \!\!\!\perp Y\mid Z\rangle )_{P))$ $X$ $Y$ $Z$

Evidencia

Evidencia : declaraciones de la forma "un evento ocurrió en el nodo x". Por ejemplo: "la computadora no arranca" .

Consultas probabilísticas

La red bayesiana le permite obtener respuestas a los siguientes tipos de consultas probabilísticas [2] :

encontrar la probabilidad de evidencia,
determinación de probabilidades marginales a priori,
determinación de probabilidades marginales posteriores, incluyendo:

pronóstico , o inferencia directa , - determinación de la probabilidad de un evento por razones observables, diagnosticar , o inferencia inversa ( abducción ), - determinar la probabilidad de una causa con consecuencias observadas, inferencia intercausal (mixta) ( inglés intercausal inference ) o transducción , - determinación de la probabilidad de una de las causas de un evento, siempre que ocurra una o más causas de este evento.

cálculo de la explicación más probable del evento observado ( English most probable explicación , MPE ),
cálculo del máximo a posteriori ( ing. maximo a-posteriori, MAP ).

Ejemplo

Supongamos que puede haber dos razones por las que la hierba se puede mojar (HIERBA MOJADA): el aspersor ha funcionado o ha llovido. Suponga también que la lluvia afecta el funcionamiento del rociador (durante la lluvia, la unidad no se enciende). Entonces la situación puede ser modelada por la red bayesiana ilustrada. Cada una de las tres variables puede tomar sólo uno de dos valores posibles: T (verdadero - verdadero) y F (falso - falso), con las probabilidades indicadas en las tablas de la ilustración.

Función de probabilidad conjunta:

$\mathrm {P} (G,S,R)=\mathrm {P} (G\mid S,R)\cdot \mathrm {P} (S\mid R)\cdot \mathrm {P} ( R)$

donde los tres nombres de variables significan G = Césped húmedo , S = Aspersor y R = Lluvia .

El modelo puede responder preguntas como "¿Cuál es la probabilidad de que lloviera si la hierba está mojada?" usando la fórmula de probabilidad condicional y sumando las variables:

{\mathrm P}({\mathit {R}}=T\mid {\mathit {G}}=T)={\frac {{\mathrm P}({\mathit {G}}=T,{\ mathit {R}}=T)}{{\mathrm P}({\mathit {G}}=T)))={\frac {\sum_{({\mathit {S}}\in \{T ,F\}}}{\mathrm P}({\mathit {G}}=T,{\mathit {S}},{\mathit {R}}=T)}{\sum _{({\mathit {S)),{\mathit {R}}\in \{T,F\}}}{\mathrm P}({\mathit {G}}=T,{\mathit {S}},{\mathit {R}})))}}

={\frac {(0,99\times 0,01\times 0,2=0,00198_{TTT})+(0,8\times 0,99\times 0,2=0,1584_{TFT})}{0,00198_{TTT}+0,288_{ TTF}+0,1584_{TFT}+0_{TFF}}}\aproximadamente 35,77\%

Inferencia probabilística

Debido a que la red bayesiana es un modelo completo para las variables y sus relaciones, puede usarse para responder preguntas probabilísticas. Por ejemplo, la red se puede utilizar para obtener nuevos conocimientos sobre el estado de un subconjunto de variables mediante la observación de otras variables ( variables de evidencia ). Este proceso de calcular la distribución posterior de variables sobre variables de evidencia se llama inferencia probabilística. Este corolario nos da una estimación universal para aplicaciones donde necesitamos elegir los valores de un subconjunto de variables que minimiza la función de pérdida, por ejemplo, la probabilidad de una decisión errónea. La red bayesiana también se puede considerar como un mecanismo para construir automáticamente una extensión del teorema de Bayes para problemas más complejos.

Para realizar la inferencia probabilística en redes bayesianas, se utilizan los siguientes algoritmos [1] [3] :

Exacto:
- inferencia de fuerza bruta al marginar la distribución conjunta completa;
- algoritmos de eliminación de variables y cálculos simbólicos,
- agrupamiento,
- algoritmos para la propagación (transmisión) de mensajes entre nodos de red,
Aproximaciones basadas en el método de Monte Carlo :
- algoritmos de muestreo con exclusión,
- método de muestreo basado en la probabilidad,
- Algoritmo MCMS ( Eng. Markov chain Monte Carlo ), etc.

Aplicaciones

Las redes bayesianas se utilizan para el modelado en bioinformática ( redes genéticas , estructura de proteínas ), medicina , clasificación de documentos , procesamiento de imágenes , procesamiento de datos , aprendizaje automático y sistemas de soporte de decisiones .

Información adicional

Association for Uncertainty in Artificial Intelligence: http://www.auai.org/ Archivado el 2 de junio de 2007 en Wayback Machine .
Introducción a las redes bayesianas: http://www.niedermayer.ca/papers/bayesian/bayes.html Archivado el 21 de mayo de 2017 en Wayback Machine .
Tutorial en línea sobre redes bayesianas y probabilidad: http://www.dcs.qmw.ac.uk/%7Enorman/BBNs/BBNs.htm Archivado el 4 de mayo de 2009 en Wayback Machine .
Serguéi Nikolenko. Lectures #8 Archivado el 29 de diciembre de 2009 en Wayback Machine , #9 Archivado el 1 de enero de 2015 en Wayback Machine y #10 Archivado el 1 de enero de 2015 en Wayback Machine , en redes de creencias bayesianas. Curso "Sistemas de autoaprendizaje"

Software libre y de código abierto

OpenBayes https://github.com/abyssknight/OpenBayes-Fork (contiene una compilación parcheada de OpenBayes de openbayes.org)
RISO: http://sourceforge.net/projects/riso/ Archivado el 4 de marzo de 2007 en Wayback Machine (redes de creencias distribuidas)
BANSY3 Archivado el 20 de julio de 2011 en Wayback Machine - Freeware. Del Laboratorio de Dinámica No Lineal. Departamento de Matemáticas, Facultad de Ciencias, UNAM.
SamIam: http://reasoning.cs.ucla.edu/samiam Archivado el 24 de abril de 2007 en Wayback Machine .

Productos de software comercial

Herramienta de red bayesiana AgenaRisk: http://www.agenarisk.com Archivado el 16 de marzo de 2022 en Wayback Machine .
BayesFusion (GeNIe y SMILE): https://www.bayesfusion.com/ Archivado el 29 de noviembre de 2018 en Wayback Machine .
Biblioteca de aplicaciones de red bayesiana: http://www.norsys.com/netlibrary/index.htm Archivado el 11 de junio de 2007 en Wayback Machine .
Bayesia: http://www.bayesia.com Archivado el 8 de marzo de 2022 en Wayback Machine .
Hugin: http://www.hugin.com Archivado el 30 de mayo de 2020 en Wayback Machine .
Netica: http://www.norsys.com Archivado el 20 de mayo de 2007 en Wayback Machine .
BNet: http://www.cra.com/bnet Archivado el 5 de julio de 2008 en Wayback Machine .
Dezide: http://www.dezide.com Archivado el 8 de marzo de 2022 en Wayback Machine .
MSBNx: un kit de herramientas centrado en componentes para el modelado y la inferencia con Bayesian Network (de Microsoft Research ): https://www.microsoft.com/en-us/download/details.aspx?id=52299 Archivado el 29 de noviembre de 2018 en Wayback Máquina
Bayes Net Toolbox para Matlab: http://bnt.sourceforge.net/ Archivado el 10 de mayo de 2007 en Wayback Machine .
dVelox: http://www.apara.es/en/about-apara-predictive-analytics Archivado el 29 de noviembre de 2018 en Wayback Machine .
SIAM y calzada: https://web.archive.org/web/20070221060515/http://www.inet.saic.com/

Véase también

Notas

↑ 1 2 3 4 5 6 Perla de Judea. Causalidad: modelos, razonamiento e inferencia. - 2ª edición. - Prensa de la Universidad de Cambridge, 2009. - 464 p. — ISBN 9780521895606 .
↑ Adnan Darwiche. Modelado y Razonamiento con Redes Bayesianas. - Prensa de la Universidad de Cambridge, 2009. - 526 p. — ISBN 978-0521884389 .
↑ Stuart Russel, Peter Norvig. Inteligencia artificial: un enfoque moderno (AIMA): [trad. De inglés]. - 2ª ed. - M .: Williams, 2005. - 1424 p.

Enlaces

Jensen, Finn V. Redes bayesianas y gráficos de decisión . — Springer , 2001.
Judea Pearl, Stuart Russell. Redes bayesianas. Laboratorio de Sistemas Cognitivos de UCLA , Informe Técnico (R-277), noviembre de 2000.
Judea Pearl, Stuart Russell. Bayesian Networks, en M.A. Arbib (Ed.), Handbook of Brain Theory and Neural Networks , págs. 157-160, Cambridge, MA: MIT Press , 2003, ISBN 0-262-01197-2 .
Neil M, Fenton N, Tailor M, "Uso de redes bayesianas para modelar las pérdidas operativas esperadas e inesperadas", Análisis de riesgos: una revista internacional, Vol 25(4), 963-972, 2005. http://www.dcs.qmul .ac.uk/~norman/papers/oprisk.pdf Archivado el 27 de septiembre de 2007 en Wayback Machine .
Enrique Castillo, José Manuel Gutiérrez y Ali S. Hadi. Sistemas Expertos y Modelos Probabilísticos de Redes . Nueva York: Springer-Verlag , 1997. ISBN 0-387-94858-9
Fenton NE y Neil M, "Combinación de pruebas en el análisis de riesgos mediante redes bayesianas". https://web.archive.org/web/20070927153751/https://www.dcs.qmul.ac.uk/~norman/papers/Combining%20evidence%20in%20risk%20analysis%20using%20BNs.pdf
Perla de Judea. Fusión, propagación y estructuración en redes de creencias. Inteligencia Artificial 29 (3):241-288, 1986.
Perla, Judea . Razonamiento Probabilístico en Sistemas Inteligentes . - Morgan Kaufmann , 1988. - ISBN 0-934613-73-7 .
Perla de Judea. causalidad. 2000.
JW Comley y DL Dowe Archivado el 12 de febrero de 2006 en Wayback Machine , " Longitud mínima de mensaje, MDL y redes bayesianas generalizadas con lenguajes asimétricos Archivado el 4 de agosto de 2016 en Wayback Machine ", capítulo 11 (págs. 265 Archivado el 27 de septiembre de 2016 en Wayback Machine - 294 Archivado el 27 de septiembre de 2016 en Wayback Machine ) en P. Grunwald, MA Pitt e IJ Myung (eds.), Advances in Minimal Description Length: Theory and Applications Archivado el 19 de junio de 2006 en Wayback Machine , Cambridge, MA: MIT Press , abril de 2005, ISBN 0-262-07262-9 . (Este documento coloca árboles de decisión en los nodos internos de las redes de Bayes utilizando la longitud mínima del mensaje. Archivado el 9 de febrero de 2006 en Wayback Machine ( MML ) . Una versión anterior es Comley y Dowe ( 2003 ) . 10 de febrero de 2006 en Wayback Machine .)
Christian Borgelt y Rudolf Kruse. Modelos gráficos: métodos para análisis y minería de datos Archivado el 10 de junio de 2007 en Wayback Machine , Chichester, Reino Unido: Wiley , 2002, ISBN 0-470-84337-3
Korb, Kevin B.; Ann E Nicholson. Inteligencia Artificial Bayesiana . - CRC Press , 2004. - ISBN 1-58488-387-1 . Archivado el 10 de abril de 2007 en Wayback Machine .
Nevin Lianwen Zhang Archivado el 7 de junio de 2007 en Wayback Machine y David Poole . Archivado el 10 de junio de 2007 en Wayback Machine . -94), Banff, mayo de 1994, 171-178. Este artículo presenta la eliminación de variables para las redes de creencias.
David Heckerman . Archivado el 30 de mayo de 2007 en Wayback Machine . Un tutorial sobre el aprendizaje con redes bayesianas . Archivado el 19 de julio de 2006 en Wayback Machine . En Aprendizaje en modelos gráficos, M. Jordan, ed. MIT Press, Cambridge, MA, 1999. También aparece como Technical Report MSR-TR-95-06, Microsoft Research, marzo de 1995. Aparece una versión anterior como Bayesian Networks for Data Mining, Data Mining and Knowledge Discovery, 1:79- 119, 1997. El documento trata sobre el aprendizaje de parámetros y estructuras en redes bayesianas.

diccionarios y enciclopedias	gran chino Britannica (en línea)

Graficar modelos probabilísticos
red bayesiana Red causal bayesiana Red de Markov Modelo oculto de Markov

Aprendizaje automático y minería de datos
Tareas	Problema de clasificación Aprender sin un maestro Aprendizaje asistido por profesores Análisis de regresión AutoML reglas de asociación Extracción de características entrenamiento de rasgos Entrenamiento de clasificación Derivación gramatical Aprender en línea
Aprendiendo con un maestro	método del k-vecino más cercano Clasificador bayesiano ingenuo árbol de decisión Máquinas de vectores soporte Regresión lineal Regresión logística perceptrón conjuntos de modelos Harpillera impulsar bosque aleatorio Método de vector relevante
análisis de conglomerados	método k-medias método de agrupamiento difuso Agrupación jerárquica algoritmo EM ABEDUL CURAR DBSCAN ÓPTICA Desplazamiento medio
Reducción de dimensionalidad	Análisis factorial Método de componentes principales CCA ACI LDA Expansión de matriz no negativa t-SNE
Pronóstico estructural	Graficar modelo probabilístico red bayesiana Modelo oculto de Markov FRC
Detección de anomalías	método del k-vecino más cercano Nivel de emisión local
Graficar modelos probabilísticos	red bayesiana Red de Markov Modelo oculto de Markov
Redes neuronales	Máquina Boltzmann limitada mapa autoorganizado Función de activación Sigmoideo softmax Funcion de base radial Método de propagación hacia atrás Aprendizaje profundo perceptrón multicapa Red neuronal recurrente memoria a corto plazo Bloque recurrente controlado Red neuronal convolucional U-red Codificador automático
Aprendizaje reforzado	proceso de Markov Ecuación de Bellman Algoritmo codicioso Q-aprendizaje SARAS Diferencia temporal (DT)
Teoría	Teoría de Vapnik-Chervonenkis Dilema de dispersión de sesgo Teoría del aprendizaje computacional Minimización empírica del riesgo El aprendizaje de Occam aprendizaje PAC Teoría del aprendizaje estadístico
revistas y congresos	NeurIPS ICML ML JMLR ArXiv:cs.LG