Máquina Boltzmann limitada

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 23 de mayo de 2021; las comprobaciones requieren 3 ediciones .

La máquina de Boltzmann restringida ( eng. máquina de Boltzmann restringida ), abreviada como RBM , es un tipo de red neuronal estocástica generativa que determina la distribución de probabilidad en muestras de datos de entrada.

La primera máquina limitada de Boltzmann fue construida en 1986 por Paul Smolensky bajo el nombre de Harmonium [1] , pero solo ganó popularidad después de la invención de Hinton de los algoritmos de aprendizaje rápido a mediados de la década de 2000.

La máquina adquirió este nombre como una modificación de la habitual máquina de Boltzmann , en la que las neuronas se dividían en visibles y ocultas, y solo se permitían conexiones entre neuronas de diferentes tipos, limitando así las conexiones. Mucho más tarde, en la década de 2000, las máquinas Boltzmann limitadas ganaron más popularidad y ya no se consideraban variaciones de la máquina Boltzmann, sino componentes especiales en la arquitectura de las redes de aprendizaje profundo . La combinación de varias cascadas de máquinas Boltzmann limitadas forma una red de creencias profundas , un tipo especial de redes neuronales multicapa que pueden autoaprender sin un maestro que use el algoritmo de propagación hacia atrás [2] .

Una característica de las máquinas Boltzmann limitadas es la capacidad de ser entrenadas sin un maestro , pero en ciertas aplicaciones, las máquinas Boltzmann limitadas se entrenan con un maestro. La capa oculta de la máquina son las características profundas de los datos que se revelan durante el proceso de aprendizaje (ver también Minería de datos ).

Las máquinas de Boltzmann limitadas tienen una amplia gama de aplicaciones: problemas de reducción de dimensionalidad de datos [ 3 ] , problemas de clasificación [4] , filtrado colaborativo [5] , aprendizaje de características [ 6] y modelado de temas [7] .

En una máquina de Boltzmann restringida , las neuronas forman un grafo bipartito , de un lado del grafo hay neuronas visibles (de entrada), y del otro lado ocultas, y se establecen entrecruzamientos entre cada neurona visible y cada neurona oculta. Tal sistema de conexiones hace posible aplicar el método de descenso de gradiente con divergencia contrastiva cuando se entrena la red [8] .

Estructura de la red

La máquina de Boltzmann restringida se basa en elementos binarios con una distribución de Bernoulli que componen las capas visibles y ocultas de la red. Los enlaces entre capas se especifican utilizando una matriz de pesos (tamaño m × n ), así como compensaciones para la capa visible y para la capa oculta. $v_{i}$ ${\ Displaystyle h_ {j}}$ ${\ estilo de visualización W = (w_ {i, j})}$ $ai}$ $b_{j}$

El concepto de energía de la red ( v , h ) se introduce como

E(v,h)=-\sum_{i}a_{i}v_{i}-\sum_{j}b_{j}h_{j}-\sum_{i}\sum_ {j}v_{i}w_{i,j}h_{j},

o en forma matricial

E(v,h)=-a^{\mathrm {T} }vb^{\mathrm {T} }hv^{\mathrm {T} }Wh.

La red de Hopfield también tiene una función energética similar . En cuanto a la máquina de Boltzmann habitual , la probabilidad de distribución sobre los vectores de las capas visible y oculta se determina a través de la energía [9] :

P(v,h)={\frac {1}{Z}}e^{-E(v,h)},

donde está definida la función de partición para todas las redes posibles (en otras palabras, es una constante de normalización que garantiza que la suma de todas las probabilidades sea igual a uno). La determinación de la probabilidad para un vector de entrada separado (distribución marginal) se lleva a cabo de manera similar a través de la suma de configuraciones de todas las posibles capas ocultas [9] : $Z$ ${\displaystyle \sum e^{-E(v,h)))$ $Z$

P(v)={\frac {1}{Z}}\sum _{h}e^{-E(v,h)}.

Debido a la estructura de la red como un gráfico bipartito, los elementos individuales de la capa oculta son independientes entre sí y activan la capa visible y viceversa, los elementos individuales de la capa visible son independientes entre sí y activan la capa oculta. capa [8] . Para elementos visibles y para elementos ocultos, las probabilidades condicionales v se determinan a través de los productos de las probabilidades h : $metro$ $norte$

P(v|h)=\prod_{i=1}^{m}P(v_{i}|h),

y viceversa, las probabilidades condicionales h se definen en términos del producto de las probabilidades v :

P(h|v)=\prod_{j=1}^{n}P(h_{j}|v).

Las probabilidades de activación específicas para un elemento se definen como

P(h_{j}=1|v)=\sigma \left(b_{j}+\sum _{i=1}^{m}w_{i,j}v_{i}\right)

P(v_{i}=1|h)=\sigma \left(a_{i}+\sum _{j=1}^{n}w_{i,j}h_{j}\right) ,

donde es la función logística para la activación de la capa. $\sigma$

Las capas visibles también pueden tener una distribución multinomial , mientras que las capas ocultas tienen una distribución de Bernoulli . En el caso de multinomialidad, se utiliza softmax en lugar de la función logística :

P(v_{i}^{k}=1|h)={\frac {\exp(a_{i}^{k}+\Sigma_{j}W_{ij}^{k}h_ {j})}{\Sigma_{k'=1}^{K}\exp(a_{i}^{k'}+\Sigma_{j}W_{ij}^{k'}h_{j })}},

donde K es el número de valores discretos de los elementos visibles. Esta representación se utiliza en problemas de modelado de temas [7] y en sistemas de recomendación [5] .

Relación con otros modelos

La máquina de Boltzmann restringida es un caso especial de la máquina de Boltzmann ordinaria y de la red de Markov [10] [11] . Su modelo gráfico corresponde al modelo gráfico del análisis factorial [12] .

Algoritmo de aprendizaje

El objetivo de aprendizaje es maximizar la probabilidad de un sistema con un conjunto dado de muestras (una matriz en la que cada fila corresponde a una muestra del vector visible ), definido como el producto de las probabilidades $V$ $v$

\arg \max _{W}\prod _{v\in V}P(v),

o, lo que es lo mismo, maximizando el logaritmo del producto: [10] [11]

\arg \max _{W}\mathbb {E} [\log P(v)].

Para entrenar la red neuronal, se usa el algoritmo de divergencia contrastiva (CD) para encontrar los pesos de matriz óptimos , fue propuesto por Geoffrey Hinton , originalmente para entrenar modelos PoE ("producto de estimaciones de expertos") [13] [14] . El algoritmo utiliza el muestreo de Gibbs para organizar un procedimiento de descenso de gradiente , similar al método de retropropagación de las redes neuronales. $W$

En general, un paso de divergencia contrastiva (CD-1) se ve así:

Para una muestra de datos v , se calculan las probabilidades de los elementos ocultos y se aplica la activación para la capa oculta h para la distribución de probabilidad dada.
Se calcula el producto exterior (muestreo) para v y h , que se denomina gradiente positivo .
A través de la muestra h , se reconstruye la muestra de la capa visible v' , y luego se vuelve a realizar el muestreo con la activación de la capa oculta h' . (Este paso se llama Muestreo de Gibbs ).
A continuación, se calcula el producto exterior , pero ya los vectores v' y h' , lo que se denomina gradiente negativo .
La matriz de pesos se corrige por la diferencia entre el gradiente positivo y negativo, multiplicado por un factor que especifica la tasa de aprendizaje: . $W$ $\Delta W=\varepsilon (vh^{\mathsf {T}}-v'h'^{\mathsf {T}})$
Los sesgos ayb se corrigen de manera similar: , . $\Delta a=\varepsilon (vv')$ ${\ estilo de visualización \ Delta b = \ varepsilon (hh')}$

Puede encontrar orientación práctica sobre la implementación del proceso de aprendizaje en la página personal de Jeffrey Hinton [9] .

Véase también

Enlaces

↑ Smolensky, Paul. Capítulo 6: Procesamiento de información en sistemas dinámicos: Fundamentos de la teoría de la armonía // Procesamiento distribuido en paralelo: Exploraciones en la microestructura de la cognición, Volumen 1: Fundamentos (inglés) / Rumelhart, David E.; McLelland, James L. - MIT Press , 1986. - P. 194-281. — ISBN 0-262-68053-X . Copia archivada (enlace no disponible) . Consultado el 10 de noviembre de 2017. Archivado desde el original el 13 de junio de 2013. (indefinido)
↑ Hinton, G. Redes de creencias profundas (indefinido) // Scholarpedia . - 2009. - T. 4 , N º 5 . - S. 5947 . doi : 10.4249 /scholarpedia.5947 .
↑ Hinton, GE; Salakhutdinov, RR Reducción de la dimensionalidad de los datos con redes neuronales (inglés) // Ciencia: revista. - 2006. - vol. 313 , núm. 5786 . - Pág. 504-507 . -doi : 10.1126 / ciencia.1127647 . —PMID 16873662 .
↑ Larochelle, H.; Bengio, Y. (2008). Clasificación utilizando máquinas de Boltzmann discriminativas restringidas (PDF) . Actas de la 25.ª conferencia internacional sobre aprendizaje automático - ICML '08. pags. 536. DOI : 10.1145/1390156.1390224 . ISBN 9781605582054 . Archivado desde el original (PDF) el 13 de octubre de 2017 . Consultado el 10-11-2017 . Parámetro obsoleto utilizado |deadlink=( ayuda )
↑ 1 2 Salakhutdinov, R.; Mnih, A.; Hinton, G. (2007). Máquinas restringidas de Boltzmann para filtrado colaborativo . Actas de la 24ª conferencia internacional sobre aprendizaje automático - ICML '07. pags. 791. doi : 10.1145/ 1273496.1273596 . ISBN 9781595937933 .
↑ Coates, Adán; Lee, Honglak; Ng, Andrew Y. (2011). Un análisis de las redes de una sola capa en el aprendizaje de funciones no supervisado (PDF) . Congreso Internacional de Inteligencia Artificial y Estadística (AISTATS). Archivado desde el original (PDF) el 2014-12-20 . Consultado el 10-11-2017 . Parámetro obsoleto utilizado |deadlink=( ayuda )
↑ 1 2 Ruslan Salakhutdinov y Geoffrey Hinton (2010). Softmax replicado: un modelo de tema no dirigido . Archivado el 25 de mayo de 2012 en Wayback Machine . Sistemas de procesamiento de información neuronal 23
↑ 1 2 Miguel A. Carreira-Perpiñán y Geoffrey Hinton (2005). Sobre el aprendizaje divergente contrastivo. Inteligencia Artificial y Estadística .
↑ 1 2 3 Geoffrey Hinton (2010). Una guía práctica para entrenar máquinas Boltzmann restringidas Archivado el 25 de septiembre de 2014 en Wayback Machine . UTML TR 2010-003, Universidad de Toronto.
↑ 1 2 Sutskever, Ilya; Tieleman, Tijmen. Sobre las propiedades de convergencia de la divergencia contrastiva // Proc . 13ª Conf. Internacional sobre inteligencia artificial y estadísticas (AISTATS): revista. - 2010. Archivado el 10 de junio de 2015.
↑ 1 2 Asja Fischer y Christian Igel. Entrenamiento de máquinas Boltzmann restringidas: una introducción . Archivado el 10 de junio de 2015 en Wayback Machine . Reconocimiento de patrones 47, pág. 25-39, 2014.
↑ María Angélica Cueto; Jason Morton; Bernd Sturmfels. Geometría de la máquina restringida de Boltzmann (neopr.) // Métodos Algebraicos en Estadística y Probabilidad. - Sociedad Matemática Americana, 2010. - V. 516 . -arXiv : 0908.4425 . _ (enlace no disponible)
↑ Geoffrey Hinton (1999). Productos de expertos Archivado el 24 de septiembre de 2015 en Wayback Machine . ICANN 1999 .
↑ Hinton, GE Productos de formación de expertos mediante la minimización de la divergencia contrastiva // Computación neuronal : diario. - 2002. - vol. 14 , núm. 8 _ - Pág. 1771-1800 . -doi : 10.1162/ 089976602760128018 . —PMID 12180402 .

Literatura

Introducción a las máquinas Boltzmann restringidas . Archivado el 29 de octubre de 2012 en Wayback Machine . Blog de Edwin Chen, 18 de julio de 2011.
Una guía para principiantes sobre máquinas de Boltzmann restringidas . Documentación de aprendizaje profundo4j
Entendiendo los RBM . Documentación de Deeplearning4j, 4 de agosto de 2015.
Implementación de Python Archivado el 5 de marzo de 2017 en Wayback Machine de Bernoulli RBM y tutorial Archivado el 5 de marzo de 2017 en Wayback Machine
SimpleRBM Archivado el 10 de junio de 2018 en Wayback Machine es un código RBM muy pequeño (24 kB) útil para aprender cómo aprenden los RBM.

Tipos de redes neuronales artificiales

Red feed-forward ( Red de funciones de base radial )
Perceptrón de una sola capa
Perceptrón multicapa ( Rosenblatt • Rumelhart )
Red Hopfield
cadena de Markov
máquina de Boltzmann
Máquina Boltzmann limitada
Codificador automático ( Codificador automático de eliminación de ruido • Codificador automático disperso [en • Codificador automático variacional )
Red profunda de confianza
Red neuronal convolucional
Red neuronal convolucional profunda
Red neuronal de despliegue
Red gráfica inversa convolucional profunda
Red adversaria generativa
Red neuronal recurrente
Redes Neuronales Recursivas
memoria a corto plazo
Bloque recurrente controlado
Máquinas neurales de Turing
Red bidireccional (Red neuronal recurrente bidireccional • Red bidireccional con memoria a corto plazo larga • Neuronas recurrentes controladas bidireccionales )
Red residual profunda
Red de eco neuronal
Método de aprendizaje extremo
Método de estados inestables
Máquinas de vectores soporte
Red Kohonen
Mapa autoorganizado de Kohonen
Red neuronal de la cápsula
Memoria asociativa en redes neuronales

Aprendizaje automático y minería de datos
Tareas	Problema de clasificación Aprender sin un maestro Aprendizaje asistido por profesores Análisis de regresión AutoML reglas de asociación Extracción de características entrenamiento de rasgos Entrenamiento de clasificación Derivación gramatical Aprender en línea
Aprendiendo con un maestro	método del k-vecino más cercano Clasificador bayesiano ingenuo árbol de decisión Máquinas de vectores soporte Regresión lineal Regresión logística perceptrón conjuntos de modelos Harpillera impulsar bosque aleatorio Método de vector relevante
análisis de conglomerados	método k-medias método de agrupamiento difuso Agrupación jerárquica algoritmo EM ABEDUL CURAR DBSCAN ÓPTICA Desplazamiento medio
Reducción de dimensionalidad	Análisis factorial Método de componentes principales CCA ICA LDA Expansión de matriz no negativa t-SNE
Pronóstico estructural	Graficar modelo probabilístico red bayesiana Modelo oculto de Markov FRC
Detección de anomalías	método del k-vecino más cercano Nivel de emisión local
Graficar modelos probabilísticos	red bayesiana Red de Markov Modelo oculto de Markov
Redes neuronales	Máquina Boltzmann limitada mapa autoorganizado Función de activación Sigmoideo softmax Funcion de base radial Método de propagación hacia atrás Aprendizaje profundo perceptrón multicapa Red neuronal recurrente memoria a corto plazo Bloque recurrente controlado Red neuronal convolucional U-red Codificador automático
Aprendizaje reforzado	proceso de Markov Ecuación de Bellman Algoritmo codicioso Q-aprendizaje SARAS Diferencia temporal (DT)
Teoría	Teoría de Vapnik-Chervonenkis Dilema de dispersión de sesgo Teoría del aprendizaje computacional Minimización empírica del riesgo El aprendizaje de Occam aprendizaje PAC Teoría del aprendizaje estadístico
revistas y congresos	NeurIPS ICML ML JMLR ArXiv:cs.LG