El mapa elástico se utiliza para la reducción no lineal de la dimensión de los datos. En un espacio de datos multidimensional, existe una superficie que se aproxima a los puntos de datos disponibles y, si es posible, no demasiado curvada. Los datos se proyectan sobre esta superficie y luego se pueden mostrar en ella, como en un mapa. Puede considerarlo como una placa elástica sumergida en el espacio de datos y unida a puntos de datos con resortes. Sirve como una generalización del método de componentes principales (en el que se utiliza un plano absolutamente rígido en lugar de una placa elástica).
Por construcción, un mapa elástico es un sistema de resortes elásticos incrustados en un espacio de datos multidimensional [1] [5] . Este sistema se aproxima a una variedad bidimensional. Cambiar los coeficientes elásticos del sistema permite al usuario cambiar de un agrupamiento de K-means completamente desestructurado (en el límite de elasticidad cero ) a variedades cercanas a las variedades de componentes principales lineales (en el límite de módulos de flexión muy grandes y módulos de tracción pequeños). En el rango intermedio de valores de los coeficientes de elasticidad, el sistema se aproxima efectivamente a alguna variedad no lineal. Este enfoque se basa en una analogía con la mecánica: la variedad principal que pasa por el "medio" de los datos se puede representar como una membrana o placa elástica. El método fue desarrollado por el prof. A. N. Gorban , A. Zinoviev y A. Pitenko en 1996-2001.
Sea el conjunto de datos representado por un conjunto de vectores en un espacio euclidiano de dimensión finita . Un "mapa elástico" está representado por un conjunto de sus nodos en el mismo espacio. Para cada punto de datos , el nodo "anfitrión" (host) se define como el nodo del mapa más cercano al punto (si resulta que hay varios nodos más cercanos, simplemente se selecciona el nodo con el número de serie más bajo). El conjunto de datos se divide en clases taxonómicas .
La energía de aproximación es simplemente la raíz de la desviación cuadrática media de los nodos del mapa
o, en otras palabras, existe la energía elástica total de los resortes con coeficiente de elasticidad unitario que conecta cada punto de datos con su nodo "maestro".
Es necesario introducir la siguiente estructura adicional en el conjunto de nodos. Algunos pares de nodos, , están conectados por enlaces elásticos. Denotemos el conjunto de aristas del gráfico como . Además, combinaremos algunos triples de nodos en "refuerzos". Denotemos el conjunto de rigidizadores como .
La energía de tensión de un mapa elástico se define como La energía de flexión de una tarjeta elástica se define comodonde y son los coeficientes de elasticidad para tensión y flexión, respectivamente.
Por ejemplo, en el caso de una cuadrícula rectangular bidimensional de nodos, los enlaces elásticos son bordes de celosía verticales y horizontales (pares de vértices más cercanos), mientras que los refuerzos son triples verticales y horizontales de nodos consecutivos (más cercanos).
La energía del mapa elástico se define comoRequerimos de la inserción del mapa que el mapa esté en equilibrio mecánico: el mapa debe minimizar la energía elástica .
Para una partición dada del conjunto de datos en clases , la minimización del funcional cuadrático se reduce al problema de resolver un sistema de ecuaciones lineales con una matriz dispersa de coeficientes. De manera muy similar al algoritmo iterativo para construir los componentes principales o el algoritmo del método de K-medias , se puede utilizar la técnica de "división":
Tal algoritmo de maximización de expectativas garantiza la convergencia a un mínimo local . Para mejorar la aproximación, se pueden utilizar varios métodos adicionales: por ejemplo, la estrategia de "suavizado". Según esta técnica, debemos comenzar construyendo un mapa con un sistema muy rígido (pequeñas longitudes de borde, pequeñas curvas y grandes valores de coeficientes de elasticidad y ), y completar la construcción con un sistema "flexible" (pequeños valores de y ). El entrenamiento del mapa se lleva a cabo en varias etapas, y cada etapa se caracteriza por su elasticidad.
Otra variante de la estrategia de optimización puede llamarse "cuadrícula creciente": la construcción de un mapa comienza con una pequeña cantidad de nodos y continúa con la adición gradual de nuevos nodos, seguido de la optimización de la posición del sistema en cada etapa [5] .
El método ha encontrado sus principales aplicaciones en bioinformática [7] [8] , para análisis exploratorio y visualización de datos multidimensionales, para visualización de datos en economía, sociología y ciencias políticas [9] , como método auxiliar para visualizar datos de diversa naturaleza, atado a una cuadrícula geográfica. Más recientemente, el método se ha adaptado como una herramienta para los sistemas de apoyo a la toma de decisiones para seleccionar, optimizar y organizar cestas de valores . [diez]