Gases neurales

Expandir el gas neuronal es un algoritmo que permite la agrupación adaptativa de datos de entrada, es decir, no solo para dividir el espacio en grupos, sino también para determinar el número requerido de ellos en función de las características de los propios datos. Un gas neuronal en expansión no requiere información a priori sobre los datos, como una estimación del número de cúmulos o la forma de los cúmulos". [1] Esta es una nueva clase de mecanismos informáticos. El número y la ubicación de las neuronas artificiales en el espacio de características no está predeterminado, sino que es el resultado de un cálculo en el proceso de entrenamiento de modelos basado en los datos ingresados en la entrada [2]. En este modelo, la vecindad de los nodos no es fija, sino que cambia dinámicamente a medida que mejora la agrupación. Las variables no son solo relaciones de vecindad, sino también el número de neuronas del grupo.

Historial de creación

Existen técnicas que son capaces de seleccionar los objetos más similares en el espacio y formar grupos a partir de ellos. Durante el análisis, el conjunto de objetos se organiza en subconjuntos en función de la similitud que se mide. Por lo general, los métodos se basan en un esquema estándar: optimizar la relación entre la disposición espacial de los vectores y un conjunto de objetos, de modo que cada vector determine la estructura de los clústeres . Sin embargo, la mayoría de las técnicas tienen dos inconvenientes importantes: el análisis depende de un número determinado de conglomerados y la división en conglomerados está localizada en el tiempo. Todos los métodos de agrupamiento modernos eran estáticos y no podían adaptar los resultados; si se añadían nuevos datos a los datos, era necesario volver a ejecutar el algoritmo.

Descripción del algoritmo

La implementación del algoritmo comienza con dos neuronas. Luego hay un cambio secuencial (generalmente en la dirección del aumento) de su número, al mismo tiempo, se crean las conexiones entre las neuronas que mejor se corresponden con la distribución de los vectores de entrada. A cada neurona se le asigna una variable interna que acumula un "error local". Las conexiones entre nodos se describen mediante una variable llamada "edad" [3] .

En primer lugar, se crean dos nodos (en adelante, nodo=neurona) con vectores de peso permitidos por la distribución de vectores de entrada y valores de error local de cero;
Los nodos están conectados por un enlace que se puede utilizar para establecer la edad. En la etapa inicial, la edad es 0.
Luego, se alimenta un vector a la entrada de la red neuronal . ${\ estilo de visualización {\ vec {X}}}$
En la siguiente etapa, hay dos neuronas y , más cercanas a ( más cerca que ), es decir, nodos con vectores de peso y , tal que es el mínimo, y es el segundo valor de distancia mínima entre todos los nodos. $S$ $T$ ${\ estilo de visualización {\ vec {X}}}$ $S$ $T$ ${\ estilo de visualización {\ vec {W_ {s}}}}$ ${\ Displaystyle {\ vec {W_{t}}}}$ $\left\|{\vec {W_{s}}}-{\vec {X}}\right\|$ $\left\|{\vec {W_{t}}}-{\vec {X}}\right\|$
Se actualiza el error local de la neurona más cercana, la ganadora, y se le suma el cuadrado de la distancia entre los vectores y . $S$ ${\ estilo de visualización {\ vec {W_ {s}}}}$ ${\ estilo de visualización {\ vec {X}}}$ $E_{s}\Rightarrow E_{s}+\left\|{\vec {W_{s}}}-{\vec {X}}\right\|^{2}$
Al implementar este procedimiento, los nodos ganadores con mayor frecuencia (el número máximo de señales de entrada caen en su vecindad) reciben el mayor valor de error. Estas áreas se "densifican" en primer lugar y esto sucede debido a la adición de nuevos nodos.
La neurona ganadora y todas sus vecinas topológicas (es decir, todas las neuronas que tienen conexión con la ganadora) son desplazadas hacia el vector de entrada por distancias iguales a fracciones y al completo. $S$ $norte$ ${\displaystyle\varepsilon_{w}}$ $\varepsilon_{n}$ ${\vec {W_{s}}}\Rightarrow {\vec {W_{s}}}+\varepsilon _{w}({\vec {W_{s}}}-{\vec {X} })$ ${\vec {W_{n}}}\Rightarrow {\vec {W_{n}}}+\varepsilon _{n}({\vec {W_{n}}}-{\vec {X} })$

Si en esta etapa los nodos se desplazan hacia el vector de entrada, entonces el ganador tiende a "promediar" su posición en relación con las señales de entrada ubicadas en su vecindad. En este caso, la mejor neurona “tira” ligeramente de las neuronas vecinas en la dirección de la señal.

Incrementa en 1 la antigüedad de todas las conexiones provenientes del ganador . $S$
Si las dos mejores neuronas están conectadas , es necesario restablecer la antigüedad de su conexión. De lo contrario, debe crear una conexión entre ellos. $S$ $T$
Elimine todas las relaciones que superen la edad máxima. Se eliminan las neuronas que no tienen conexiones con otros nodos.
Si el número de la iteración actual es un múltiplo de y no se alcanza el tamaño máximo de la red, se requiere crear una nueva neurona de acuerdo con las reglas. Con el tiempo, tras varios ciclos de desplazamientos, se va acumulando información, a partir de la cual se decide el lugar donde se debe añadir una nueva neurona. Durante este proceso se corrigen los errores variables de todas las neuronas de la capa. Como resultado, la red "olvida" los viejos vectores de entrada y responde mejor a los nuevos. Es posible utilizar el gas neuronal en expansión para ajustar la red neuronal a distribuciones de señales de entrada que se desplazan lentamente. $\lambda$ $R$
Encuentre la neurona con el máximo error local. $tu$
Entre las vecinas , encuentre la neurona con el mayor error. $tu$ $V$
Cree un nodo "en el medio" entre y : $R$ $tu$ $V$ ${\vec {W_{r}}}={\frac {{\vec {W_{u}}}+{\vec {W_{v}}}}{2}}$
Reemplace la relación entre y con la relación entre y , y . $tu$ $V$ $tu$ $R$ $R$ $V$
Disminuya los errores de neurona y establezca el valor del error de neurona . $tu$ $V$ $R$ $E_{u}\Rightarrow E_{u}*a$ $E_{v}\Rightarrow E_{v}*a$ $E_{r}\Rightarrow E_{u}$
Un valor grande de este error indica que la neurona correspondiente se encuentra en la región de un pequeño número de neuronas.
Cada vez que se determina una neurona más cercana para una seleccionada al azar, se incrementa el error local para esta última . $X$ ${\ Displaystyle {\ vec {W_ {j}}}}$ $E_{j}$ $\left\|{\vec {W_{j}}}-{\vec {X}}\right\|^{2}$

Formulario de estructura de datos

El investigador puede establecer la forma de la estructura del cúmulo por sí mismo, ya sea que el agrupamiento se realice para una hiperesfera , un hipertubo o un hiperplano . Si no tiene este conocimiento, entonces gracias al valor de su propia matriz de covarianza , puede determinar la forma necesaria. Si la estructura tiene al menos un valor propio menor que el umbral elegido por el usuario, entonces el modelo será hiperlineal, de lo contrario, la estructura debe considerarse como una variedad no lineal. Más pruebas mostrarán si el modelo tiene forma de esfera o de tubo. La prueba de esfericidad depende del cumplimiento de la desigualdad np/na>ψ, donde np es el número de vectores dentro del conglomerado, que se encuentra usando el teorema de Jordan Brauer [4] , y ap es el área superficial del conglomerado. clúster, y ψ es un umbral especificado por el usuario. Si esta desigualdad toma la forma np/na<ψ, entonces la forma del cúmulo será un "hipertubo". [3]

Distancia del vector X a las neuronas en grupos de diferentes formas

Para un cúmulo en forma de hipertubo, se calcula una medida de distancia radial:

donde Aj es una matriz definida positiva calculada para tener en cuenta la excentricidad y la orientación del hipertubo [5] . El valor de Aj para esta ecuación se encuentra usando el hiperlipsoide de Lowner usando el algoritmo de Khachiyan [6] .

Para determinar distancias en un hiperplano, utilice la siguiente fórmula:

donde Aj es una matriz de peso simétrica definida arbitrariamente positiva. Y bj, k se estima encontrando los vectores propios de los nodos neuronales del modelo.

Para determinar la distancia en la hiperesfera, debes usar la fórmula:

donde wi es el valor medio de los vectores contenidos en el plano.

Visualización de datos

En el espacio 3D, los datos son muy fáciles de visualizar. [3] Puedes verlo en la imagen.

Sin embargo, si nuestro espacio es más grande que tridimensional, entonces la visualización de datos es difícil. Para solucionar este problema se utiliza una técnica basada en el IVA [7] . La esencia de la construcción es que se encuentra el árbol de expansión mínimo del modelo. Una vez que se completa el proceso de clasificación, la estructura del grupo se puede analizar mediante cuadrados cerca de la diagonal. En primer lugar, se calculan neuronas diferentes por parejas normalizadas en cada gráfico aislado. Luego, las diferentes neuronas se reorganizan para crear la distribución intracluster más densa. Luego, cada grupo se pinta en su propio color y se coloca a lo largo de la diagonal principal. Las relaciones intracluster también se incluyen en el diagrama, la distancia máxima entre dos clusters se indica en blanco y en negro la distancia más pequeña. El volumen del racimo se puede agregar como otra dimensión, esta es la altura de los cuadrados.

Ejemplo de gas neural en expansión

Este ejemplo se proporciona para demostrar cómo se adapta el sistema cuando se ingresan nuevos datos. La base de datos consta de 1050 objetos de punto. Inicialmente se realizaron 5000 iteraciones y el 75% de la información ingresó al algoritmo. Después de ingresar una pequeña porción de 756 puntos de datos en el sistema, los vectores neuronales comenzaron a adaptarse para formar la distribución que se muestra en la siguiente figura.

Posteriormente, se lanzaron otros 150 nuevos vectores. Esto condujo a la formación de una nueva clase esférica, indicada en la siguiente figura:

A pesar de la proximidad espacial de los clústeres verde y magenta, el algoritmo notó un aumento en los clústeres y se adaptó a estos cambios. En este caso, los 120 objetos restantes se barajaron repetidamente entre los grupos verde y magenta. Posteriormente, el algoritmo distribuyó los datos entre los dos grupos y mantuvo el número original de grupos.

Notas

↑ Diccionario Neural.ru . Fecha de acceso: 15 de junio de 2012. Archivado desde el original el 24 de julio de 2012. (indefinido)
↑ Creciente gas neuronal: implementación en el lenguaje de programación MQL5 . Consultado el 15 de junio de 2012. Archivado desde el original el 16 de junio de 2012. (indefinido)
↑ 1 2 3 Isaac J. Sledge, Crecimiento de gas neuronal para agrupamiento temporal/IEEE, 2008
↑ M. Berg, M. Kreveld, M. Overmars, O. Schwarzkopf, Computational Geometry, Springer-Verlag, Nueva York, 2000.
↑ G. Carpenter, "Aprendizaje competitivo: de la activación interactiva a la resonancia adaptativa", Cognitive Science, vol. 11, 1987.
↑ L. Khachiyan, M. Todd, "Sobre la complejidad de aproximar el elipsoide máximo inscrito para un politopo", Matemáticas. Prog., 1993.
↑ J. Keller, I. Sledge, "Un clúster con cualquier otro nombre", IEEE Proc., NAFIPS, 2007.

Véase también

T. Martinetz, Red de gases neuronales para la organización de vectores y su aplicación a la predicción de series temporales/IEEE, vol. 4, 1993
T. Martinetz, Neural Gas Network aprende topologías.

Tipos de redes neuronales artificiales

Red feed-forward ( Red de funciones de base radial )
Perceptrón de una sola capa
Perceptrón multicapa ( Rosenblatt • Rumelhart )
Red Hopfield
cadena de Markov
máquina de Boltzmann
Máquina Boltzmann limitada
Codificador automático ( Codificador automático de eliminación de ruido • Codificador automático disperso [en • Codificador automático variacional )
Red profunda de confianza
Red neuronal convolucional
Red neuronal convolucional profunda
Red neuronal de despliegue
Red gráfica inversa convolucional profunda
Red adversaria generativa
Red neuronal recurrente
Redes Neuronales Recursivas
memoria a corto plazo
Bloque recurrente controlado
Máquinas neurales de Turing
Red bidireccional (Red neuronal recurrente bidireccional • Red bidireccional con memoria a corto plazo larga • Neuronas recurrentes controladas bidireccionales )
Red residual profunda
Red de eco neuronal
Método de aprendizaje extremo
Método de estados inestables
Máquinas de vectores soporte
Red Kohonen
Mapa autoorganizado de Kohonen
Red neuronal de la cápsula
Memoria asociativa en redes neuronales

Aprendizaje automático y minería de datos
Tareas	Problema de clasificación Aprender sin un maestro Aprendizaje asistido por profesores Análisis de regresión AutoML reglas de asociación Extracción de características entrenamiento de rasgos Entrenamiento de clasificación Derivación gramatical Aprender en línea
Aprendiendo con un maestro	método del k-vecino más cercano Clasificador bayesiano ingenuo árbol de decisión Máquinas de vectores soporte Regresión lineal Regresión logística perceptrón conjuntos de modelos Harpillera impulsar bosque aleatorio Método de vector relevante
análisis de conglomerados	método k-medias método de agrupamiento difuso Agrupación jerárquica algoritmo EM ABEDUL CURAR DBSCAN ÓPTICA Desplazamiento medio
Reducción de dimensionalidad	Análisis factorial Método de componentes principales CCA ACI LDA Expansión de matriz no negativa t-SNE
Pronóstico estructural	Graficar modelo probabilístico red bayesiana Modelo oculto de Markov FRC
Detección de anomalías	método del k-vecino más cercano Nivel de emisión local
Graficar modelos probabilísticos	red bayesiana Red de Markov Modelo oculto de Markov
Redes neuronales	Máquina Boltzmann limitada mapa autoorganizado Función de activación Sigmoideo softmax Funcion de base radial Método de propagación hacia atrás Aprendizaje profundo perceptrón multicapa Red neuronal recurrente memoria a corto plazo Bloque recurrente controlado Red neuronal convolucional U-red Codificador automático
Aprendizaje reforzado	proceso de Markov Ecuación de Bellman Algoritmo codicioso Q-aprendizaje SARAS Diferencia temporal (DT)
Teoría	Teoría de Vapnik-Chervonenkis Dilema de dispersión de sesgo Teoría del aprendizaje computacional Minimización empírica del riesgo El aprendizaje de Occam aprendizaje PAC Teoría del aprendizaje estadístico
revistas y congresos	NeurIPS ICML ML JMLR ArXiv:cs.LG