Máquina Boltzmann limitada

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 23 de mayo de 2021; las comprobaciones requieren 3 ediciones .

La máquina de Boltzmann restringida ( eng.  máquina de Boltzmann restringida ), abreviada como RBM , es un tipo de red neuronal estocástica  generativa que determina la distribución de probabilidad en muestras de datos de entrada.

La primera máquina limitada de Boltzmann fue construida en 1986 por Paul Smolensky bajo el nombre de Harmonium [1] , pero solo ganó popularidad después de la invención de Hinton de los algoritmos de aprendizaje rápido a mediados de la década de 2000.

La máquina adquirió este nombre como una modificación de la habitual máquina de Boltzmann , en la que las neuronas se dividían en visibles y ocultas, y solo se permitían conexiones entre neuronas de diferentes tipos, limitando así las conexiones. Mucho más tarde, en la década de 2000, las máquinas Boltzmann limitadas ganaron más popularidad y ya no se consideraban variaciones de la máquina Boltzmann, sino componentes especiales en la arquitectura de las redes de aprendizaje profundo . La combinación de varias cascadas de máquinas Boltzmann limitadas forma una red de creencias profundas , un tipo especial de redes neuronales multicapa que pueden autoaprender sin un maestro que use el algoritmo de propagación hacia atrás [2] .

Una característica de las máquinas Boltzmann limitadas es la capacidad de ser entrenadas sin un maestro , pero en ciertas aplicaciones, las máquinas Boltzmann limitadas se entrenan con un maestro. La capa oculta de la máquina son las características profundas de los datos que se revelan durante el proceso de aprendizaje (ver también Minería de datos ).

Las máquinas de Boltzmann limitadas tienen una amplia gama de aplicaciones: problemas de reducción de dimensionalidad de datos [ 3 ] , problemas de clasificación [4] , filtrado colaborativo [5] , aprendizaje de características [ 6] y modelado de temas [7] . 

En una máquina de Boltzmann restringida , las neuronas forman un grafo bipartito , de un lado del grafo hay neuronas visibles (de entrada), y del otro lado ocultas, y se establecen entrecruzamientos entre cada neurona visible y cada neurona oculta. Tal sistema de conexiones hace posible aplicar el método de descenso de gradiente con divergencia contrastiva cuando se entrena la red [8] .

Estructura de la red

La máquina de Boltzmann restringida se basa en elementos binarios con una distribución de Bernoulli que componen las capas visibles y ocultas de la red. Los enlaces entre capas se especifican utilizando una matriz de pesos (tamaño m  ×  n ), así como compensaciones para la capa visible y para la capa oculta.

El concepto de energía de la red ( v , h ) se introduce como

o en forma matricial

La red de Hopfield también tiene una función energética similar . En cuanto a la máquina de Boltzmann habitual , la probabilidad de distribución sobre los vectores de las capas visible y oculta se determina a través de la energía [9] :

donde  está definida la función de partición para todas las redes posibles (en otras palabras,  es una constante de normalización que garantiza que la suma de todas las probabilidades sea igual a uno). La determinación de la probabilidad para un vector de entrada separado (distribución marginal) se lleva a cabo de manera similar a través de la suma de configuraciones de todas las posibles capas ocultas [9] :

Debido a la estructura de la red como un gráfico bipartito, los elementos individuales de la capa oculta son independientes entre sí y activan la capa visible y viceversa, los elementos individuales de la capa visible son independientes entre sí y activan la capa oculta. capa [8] . Para elementos visibles y para elementos ocultos, las probabilidades condicionales v se determinan a través de los productos de las probabilidades h :

y viceversa, las probabilidades condicionales h se definen en términos del producto de las probabilidades v :

Las probabilidades de activación específicas para un elemento se definen como

y

donde  es la función logística para la activación de la capa.

Las capas visibles también pueden tener una distribución multinomial , mientras que las capas ocultas tienen una distribución de Bernoulli . En el caso de multinomialidad, se utiliza softmax en lugar de la función logística :

donde K  es el número de valores discretos de los elementos visibles. Esta representación se utiliza en problemas de modelado de temas [7] y en sistemas de recomendación [5] .

Relación con otros modelos

La máquina de Boltzmann restringida es un caso especial de la máquina de Boltzmann ordinaria y de la red de Markov [10] [11] . Su modelo gráfico corresponde al modelo gráfico del análisis factorial [12] .

Algoritmo de aprendizaje

El objetivo de aprendizaje es maximizar la probabilidad de un sistema con un conjunto dado de muestras (una matriz en la que cada fila corresponde a una muestra del vector visible ), definido como el producto de las probabilidades

o, lo que es lo mismo, maximizando el logaritmo del producto: [10] [11]

Para entrenar la red neuronal, se usa el algoritmo de divergencia contrastiva (CD) para encontrar los pesos de matriz óptimos , fue propuesto por Geoffrey Hinton , originalmente para entrenar modelos PoE ("producto de estimaciones de expertos") [13] [14] . El algoritmo utiliza el muestreo de Gibbs para organizar un procedimiento de descenso de gradiente , similar al método de retropropagación de las redes neuronales.

En general, un paso de divergencia contrastiva (CD-1) se ve así:

  1. Para una muestra de datos v , se calculan las probabilidades de los elementos ocultos y se aplica la activación para la capa oculta h para la distribución de probabilidad dada.
  2. Se calcula el producto exterior (muestreo) para v y h , que se denomina gradiente positivo .
  3. A través de la muestra h , se reconstruye la muestra de la capa visible v' , y luego se vuelve a realizar el muestreo con la activación de la capa oculta h' . (Este paso se llama Muestreo de Gibbs ).
  4. A continuación, se calcula el producto exterior , pero ya los vectores v' y h' , lo que se denomina gradiente negativo .
  5. La matriz de pesos se corrige por la diferencia entre el gradiente positivo y negativo, multiplicado por un factor que especifica la tasa de aprendizaje: .
  6. Los sesgos ayb se corrigen de manera similar: , .

Puede encontrar orientación práctica sobre la implementación del proceso de aprendizaje en la página personal de Jeffrey Hinton [9] .

Véase también

Enlaces

  1. Smolensky, Paul. Capítulo 6: Procesamiento de información en sistemas dinámicos: Fundamentos de la teoría de la armonía // Procesamiento distribuido en paralelo: Exploraciones en la microestructura de la cognición, Volumen 1: Fundamentos  (inglés) / Rumelhart, David E.; McLelland, James L. - MIT Press , 1986. - P. 194-281. — ISBN 0-262-68053-X . Copia archivada (enlace no disponible) . Consultado el 10 de noviembre de 2017. Archivado desde el original el 13 de junio de 2013. 
  2. Hinton, G. Redes de creencias profundas  (indefinido)  // Scholarpedia . - 2009. - T. 4 , N º 5 . - S. 5947 . doi : 10.4249 /scholarpedia.5947 .
  3. Hinton, GE; Salakhutdinov, RR Reducción de la dimensionalidad de los datos con redes neuronales  (inglés)  // Ciencia: revista. - 2006. - vol. 313 , núm. 5786 . - Pág. 504-507 . -doi : 10.1126 / ciencia.1127647 . —PMID 16873662 .
  4. Larochelle, H.; Bengio, Y. (2008). Clasificación utilizando máquinas de Boltzmann discriminativas restringidas (PDF) . Actas de la 25.ª conferencia internacional sobre aprendizaje automático - ICML '08. pags. 536. DOI : 10.1145/1390156.1390224 . ISBN  9781605582054 . Archivado desde el original (PDF) el 13 de octubre de 2017 . Consultado el 10-11-2017 . Parámetro obsoleto utilizado |deadlink=( ayuda )
  5. 1 2 Salakhutdinov, R.; Mnih, A.; Hinton, G. (2007). Máquinas restringidas de Boltzmann para filtrado colaborativo . Actas de la 24ª conferencia internacional sobre aprendizaje automático - ICML '07. pags. 791. doi : 10.1145/ 1273496.1273596 . ISBN 9781595937933 . 
  6. Coates, Adán; Lee, Honglak; Ng, Andrew Y. (2011). Un análisis de las redes de una sola capa en el aprendizaje de funciones no supervisado (PDF) . Congreso Internacional de Inteligencia Artificial y Estadística (AISTATS). Archivado desde el original (PDF) el 2014-12-20 . Consultado el 10-11-2017 . Parámetro obsoleto utilizado |deadlink=( ayuda )
  7. 1 2 Ruslan Salakhutdinov y Geoffrey Hinton (2010). Softmax replicado: un modelo de tema no dirigido . Archivado el 25 de mayo de 2012 en Wayback Machine . Sistemas de procesamiento de información neuronal 23
  8. 1 2 Miguel A. Carreira-Perpiñán y Geoffrey Hinton (2005). Sobre el aprendizaje divergente contrastivo. Inteligencia Artificial y Estadística .
  9. 1 2 3 Geoffrey Hinton (2010). Una guía práctica para entrenar máquinas Boltzmann restringidas Archivado el 25 de septiembre de 2014 en Wayback Machine . UTML TR 2010-003, Universidad de Toronto.
  10. 1 2 Sutskever, Ilya; Tieleman, Tijmen. Sobre las propiedades de convergencia de la divergencia contrastiva   // Proc . 13ª Conf. Internacional sobre inteligencia artificial y estadísticas (AISTATS): revista. - 2010. Archivado el 10 de junio de 2015.
  11. 1 2 Asja Fischer y Christian Igel. Entrenamiento de máquinas Boltzmann restringidas: una introducción . Archivado el 10 de junio de 2015 en Wayback Machine . Reconocimiento de patrones 47, pág. 25-39, 2014.
  12. María Angélica Cueto; Jason Morton; Bernd Sturmfels. Geometría de la máquina restringida de Boltzmann  (neopr.)  // Métodos Algebraicos en Estadística y Probabilidad. - Sociedad Matemática Americana, 2010. - V. 516 . -arXiv : 0908.4425 . _  (enlace no disponible)
  13. Geoffrey Hinton (1999). Productos de expertos Archivado el 24 de septiembre de 2015 en Wayback Machine . ICANN 1999 .
  14. Hinton, GE Productos de formación de expertos mediante la minimización de la divergencia contrastiva  // Computación  neuronal : diario. - 2002. - vol. 14 , núm. 8 _ - Pág. 1771-1800 . -doi : 10.1162/ 089976602760128018 . —PMID 12180402 .

Literatura