La máquina de Boltzmann restringida ( eng. máquina de Boltzmann restringida ), abreviada como RBM , es un tipo de red neuronal estocástica generativa que determina la distribución de probabilidad en muestras de datos de entrada.
La primera máquina limitada de Boltzmann fue construida en 1986 por Paul Smolensky bajo el nombre de Harmonium [1] , pero solo ganó popularidad después de la invención de Hinton de los algoritmos de aprendizaje rápido a mediados de la década de 2000.
La máquina adquirió este nombre como una modificación de la habitual máquina de Boltzmann , en la que las neuronas se dividían en visibles y ocultas, y solo se permitían conexiones entre neuronas de diferentes tipos, limitando así las conexiones. Mucho más tarde, en la década de 2000, las máquinas Boltzmann limitadas ganaron más popularidad y ya no se consideraban variaciones de la máquina Boltzmann, sino componentes especiales en la arquitectura de las redes de aprendizaje profundo . La combinación de varias cascadas de máquinas Boltzmann limitadas forma una red de creencias profundas , un tipo especial de redes neuronales multicapa que pueden autoaprender sin un maestro que use el algoritmo de propagación hacia atrás [2] .
Una característica de las máquinas Boltzmann limitadas es la capacidad de ser entrenadas sin un maestro , pero en ciertas aplicaciones, las máquinas Boltzmann limitadas se entrenan con un maestro. La capa oculta de la máquina son las características profundas de los datos que se revelan durante el proceso de aprendizaje (ver también Minería de datos ).
Las máquinas de Boltzmann limitadas tienen una amplia gama de aplicaciones: problemas de reducción de dimensionalidad de datos [ 3 ] , problemas de clasificación [4] , filtrado colaborativo [5] , aprendizaje de características [ 6] y modelado de temas [7] .
En una máquina de Boltzmann restringida , las neuronas forman un grafo bipartito , de un lado del grafo hay neuronas visibles (de entrada), y del otro lado ocultas, y se establecen entrecruzamientos entre cada neurona visible y cada neurona oculta. Tal sistema de conexiones hace posible aplicar el método de descenso de gradiente con divergencia contrastiva cuando se entrena la red [8] .
La máquina de Boltzmann restringida se basa en elementos binarios con una distribución de Bernoulli que componen las capas visibles y ocultas de la red. Los enlaces entre capas se especifican utilizando una matriz de pesos (tamaño m × n ), así como compensaciones para la capa visible y para la capa oculta.
El concepto de energía de la red ( v , h ) se introduce como
o en forma matricial
La red de Hopfield también tiene una función energética similar . En cuanto a la máquina de Boltzmann habitual , la probabilidad de distribución sobre los vectores de las capas visible y oculta se determina a través de la energía [9] :
donde está definida la función de partición para todas las redes posibles (en otras palabras, es una constante de normalización que garantiza que la suma de todas las probabilidades sea igual a uno). La determinación de la probabilidad para un vector de entrada separado (distribución marginal) se lleva a cabo de manera similar a través de la suma de configuraciones de todas las posibles capas ocultas [9] :
Debido a la estructura de la red como un gráfico bipartito, los elementos individuales de la capa oculta son independientes entre sí y activan la capa visible y viceversa, los elementos individuales de la capa visible son independientes entre sí y activan la capa oculta. capa [8] . Para elementos visibles y para elementos ocultos, las probabilidades condicionales v se determinan a través de los productos de las probabilidades h :
y viceversa, las probabilidades condicionales h se definen en términos del producto de las probabilidades v :
Las probabilidades de activación específicas para un elemento se definen como
ydonde es la función logística para la activación de la capa.
Las capas visibles también pueden tener una distribución multinomial , mientras que las capas ocultas tienen una distribución de Bernoulli . En el caso de multinomialidad, se utiliza softmax en lugar de la función logística :
donde K es el número de valores discretos de los elementos visibles. Esta representación se utiliza en problemas de modelado de temas [7] y en sistemas de recomendación [5] .
La máquina de Boltzmann restringida es un caso especial de la máquina de Boltzmann ordinaria y de la red de Markov [10] [11] . Su modelo gráfico corresponde al modelo gráfico del análisis factorial [12] .
El objetivo de aprendizaje es maximizar la probabilidad de un sistema con un conjunto dado de muestras (una matriz en la que cada fila corresponde a una muestra del vector visible ), definido como el producto de las probabilidades
o, lo que es lo mismo, maximizando el logaritmo del producto: [10] [11]
Para entrenar la red neuronal, se usa el algoritmo de divergencia contrastiva (CD) para encontrar los pesos de matriz óptimos , fue propuesto por Geoffrey Hinton , originalmente para entrenar modelos PoE ("producto de estimaciones de expertos") [13] [14] . El algoritmo utiliza el muestreo de Gibbs para organizar un procedimiento de descenso de gradiente , similar al método de retropropagación de las redes neuronales.
En general, un paso de divergencia contrastiva (CD-1) se ve así:
Puede encontrar orientación práctica sobre la implementación del proceso de aprendizaje en la página personal de Jeffrey Hinton [9] .
Tipos de redes neuronales artificiales | |
---|---|
|
Aprendizaje automático y minería de datos | |
---|---|
Tareas | |
Aprendiendo con un maestro | |
análisis de conglomerados | |
Reducción de dimensionalidad | |
Pronóstico estructural | |
Detección de anomalías | |
Graficar modelos probabilísticos | |
Redes neuronales | |
Aprendizaje reforzado |
|
Teoría | |
revistas y congresos |
|