Incrustación estocástica de vecinos con distribución t

La incrustación estocástica de vecinos distribuida en t ( t-SNE) es un algoritmo de aprendizaje automático para  visualización desarrollado por Laurens van der Maaten y Geoffrey Hinton [1] . Es una técnica de reducción de dimensionalidad no lineal muy adecuado para incrustar datos de alta dimensión para su visualización en un espacio de baja dimensión (2D o 3D). En particular, el método modela cada objeto de alta dimensión con un punto de dos o tres dimensiones de tal manera que los objetos similares se modelan mediante puntos muy próximos entre sí, y los puntos diferentes se modelan con una alta probabilidad mediante puntos que están muy separados.

Descripción

El algoritmo t-SNE consta de dos pasos principales. Primero, t-SNE crea una distribución de probabilidad sobre pares de características de alta dimensión, de modo que es muy probable que se seleccionen características similares, mientras que es poco probable que se seleccionen puntos diferentes. Luego, t-SNE determina una distribución de probabilidad similar sobre puntos en un espacio de baja dimensión y minimiza la distancia de Kullback-Leibler entre las dos distribuciones, teniendo en cuenta la posición de los puntos. Tenga en cuenta que el algoritmo original usa la distancia euclidiana entre objetos como base para medir la similitud, esto se puede cambiar según corresponda.

El algoritmo t-SNE se ha utilizado para visualizar una amplia gama de aplicaciones, incluida la investigación de seguridad informática [2] , el análisis de música [3] , la investigación del cáncer [4] , la bioinformática [5] y el procesamiento de señales biomédicas . [6] . El algoritmo se utiliza a menudo para visualizar representaciones de alto nivel obtenidas de una red neuronal artificial [7] .

Dado que las pantallas t-SNE a menudo se usan para mostrar grupos , y la elección de la parametrización puede afectar significativamente la visualización de grupos, es necesaria la capacidad de trabajar con los parámetros del algoritmo t-SNE. Pueden ser necesarios estudios interactivos [ término desconocido ] [8] [9] para seleccionar parámetros y validar resultados . Se ha demostrado que el algoritmo t-SNE a menudo es capaz de detectar grupos que están bien separados entre sí y, con una selección especial de parámetros, se aproxima a una forma simple de agrupamiento espectral [10] .

Detalles

Dado un conjunto de características de alta dimensión, t-SNE primero calcula las probabilidades , que son proporcionales a la similitud de las características y de la siguiente manera:

Van der Maaten y Hinton explicaron: "La similitud de un punto de datos con un punto es la probabilidad condicional de que se elija como punto vecino, si los vecinos se eligen proporcionalmente a su densidad de probabilidad gaussiana centrada en " [1] .

Además, las probabilidades c se toman iguales a cero:

El ancho de banda de los núcleos gaussianos se establece mediante el método de bisección para que la perplejidad de la distribución condicional sea igual a la perplejidad predefinida. Como resultado, el ancho de banda se adapta a la densidad de datos : se utilizan valores más pequeños en las partes más densas del espacio de datos.

Dado que el núcleo gaussiano usa la distancia euclidiana , está sujeto a la maldición de la dimensionalidad y en datos de alta dimensión, cuando las distancias se vuelven indistinguibles, se vuelven demasiado similares (asintóticamente, convergen en una constante). Se propone ajustar la distancia mediante una transformación exponencial basada en el tamaño interno cada punto para mitigar el problema [11] .

El algoritmo t-SNE busca obtener un mapeo en espacio(s) -dimensional(es ) que refleje similitudes tanto como sea posible. Para ello, el algoritmo mide la similitud entre dos puntos y utiliza un enfoque muy similar. En concreto, se define como

Aquí, se usa una distribución t de Student de cola ponderada (con un grado de libertad, que es lo mismo que la distribución de Cauchy ) para medir la similitud entre puntos en un espacio de baja dimensión para poder colocar objetos diferentes muy separados. en el mapa. Tenga en cuenta que en este caso también establecemos

La ubicación de los puntos en el espacio de baja dimensión se determina minimizando la distancia (asimétrica) de Kullback-Leibler de la distribución a la distribución , es decir

La minimización de la distancia Kullback-Leibler con respecto a los puntos se realiza mediante descenso de gradiente . El resultado de la optimización es un mapeo que refleja la similitud entre objetos en un espacio de alta dimensión.

Software

Notas

  1. 12 van der Maaten , Hinton, 2008 , pág. 2579–2605.
  2. Gashi, Stankovic, Leita, Thonnard, 2009 , pág. 4–11.
  3. Hamel, Eck, 2010 , pág. 339–344.
  4. Jamieson, Giger, Drukker, Lui, Yuan, Bhooshan, 2010 , pág. 339–35.
  5. Wallach, Liliian, 2009 , pág. 615–620.
  6. Birjandtalab, Pouyan y Nourani, 2016 , pág. 595–598.
  7. Blog de Olah, 2015 .
  8. Pezzotti, Lelieveldt, van der Maaten et al., 2017 , pág. 1739-1752
  9. Wattenberg, Viegas, Johnson, 2016 .
  10. Linderman, Steinerberger, 2017 .
  11. Schubert, Gertz, 2017 , pág. 188–203.

Literatura

Enlaces