Distancia de Mahalanobis

La distancia de Mahalanobis es una medida de la distancia entre vectores de variables aleatorias, generalizando el concepto de distancia euclidiana.

Propuesto por el estadístico indio Mahalanobis en 1936 [1] . Usando la distancia de Mahalanobis, se puede determinar la similitud de una muestra desconocida y una conocida . Se diferencia de la distancia euclidiana en que tiene en cuenta las correlaciones entre variables y es invariable en escala.

Definición

Formalmente, la distancia de Mahalanobis de un vector multidimensional a un conjunto con un valor medio y una matriz de covarianza se define de la siguiente manera [2] :

La distancia de Mahalanobis también se puede definir como una medida de disimilitud entre dos vectores aleatorios y de una sola distribución de probabilidad con una matriz de covarianza  :

Si la matriz de covarianza es la matriz identidad, entonces la distancia de Mahalanobis se vuelve igual a la distancia euclidiana. Si la matriz de covarianza es diagonal (pero no necesariamente la unidad), entonces la medida de distancia resultante se denomina distancia euclidiana normalizada :

Aquí , es la desviación estándar de la muestra.

Explicación intuitiva

Considere el problema de determinar la probabilidad de que algún punto en un espacio euclidiano N-dimensional pertenezca a un conjunto que está dado por un conjunto de puntos que definitivamente pertenecen a este conjunto. Encuentre el centro de masa del conjunto. Intuitivamente, cuanto más cerca está un punto dado del centro de masa, más probable es que pertenezca al conjunto.

Sin embargo, también vale la pena considerar el tamaño del área sobre la que se dispersan los puntos del conjunto para comprender qué tan significativa es la distancia entre un punto dado y el centro de masa. El enfoque más simple es calcular la desviación estándar de los puntos establecidos desde el centro de masa. Si la distancia entre el punto dado y el centro de masa es menor que la desviación estándar, podemos concluir que la probabilidad de que el punto pertenezca al conjunto es alta. Cuanto más lejos esté el punto, más probable es que no esté en el conjunto.

Este enfoque intuitivo se puede definir matemáticamente en términos de la distancia entre un punto dado y un conjunto usando la fórmula . Al sustituir este valor en la distribución normal , puede encontrar la probabilidad de que un punto pertenezca a un conjunto.

La desventaja de este enfoque es el uso de la suposición de que los puntos del conjunto están distribuidos esféricamente alrededor del centro de masa (es decir, uniformemente en todas las dimensiones). Si la distribución claramente no es esférica (por ejemplo, elipsoidal), entonces sería natural tener en cuenta en la probabilidad de pertenencia no solo la distancia al centro de masa, sino también la dirección hacia él. En la dirección del eje corto del elipsoide, el punto dado debe estar más cerca del centro de masa para pertenecer al conjunto, mientras que en la dirección del eje largo puede estar más lejos.

Para escribir esto matemáticamente, el elipsoide que mejor representa la distribución de probabilidad del conjunto puede estar dado por la matriz de covarianza del conjunto. La distancia de Mahalanobis es simplemente la distancia entre el punto dado y el centro de masa dividida por el ancho del elipsoide en la dirección del punto dado.

Aplicaciones

La distancia de Mahalanobis se formuló durante el trabajo para identificar la similitud de los cráneos según las mediciones en 1927 [3] .

La distancia de Mahalanobis se usa ampliamente en el análisis de conglomerados y en los métodos de clasificación . Está estrechamente relacionado con la distribución T-cuadrada de Hotelling utilizada en las pruebas estadísticas multivariadas y el análisis discriminante lineal de Fisher utilizado en el aprendizaje automático supervisado [4] .  

Para usar la distancia de Mahalanobis en el problema de determinar si un punto dado pertenece a una de N clases, necesita encontrar las matrices de covarianza de todas las clases. Por lo general, esto se hace en base a muestras conocidas de cada clase. Luego es necesario calcular la distancia de Mahalanobis desde el punto dado a cada clase y elegir la clase para la cual esta distancia es mínima. Usando una interpretación probabilística, se puede demostrar que esto es equivalente a la selección de clases por el método de máxima verosimilitud .

Además, la distancia de Mahalanobis se usa para encontrar valores atípicos, por ejemplo, en el problema de construir una regresión lineal. Se considera que el punto que tiene la mayor distancia de Mahalanobis con el resto del conjunto de puntos dados tiene la mayor significación, ya que tiene la mayor influencia en la curvatura y en los coeficientes de la ecuación de regresión. Además, la distancia de Mahalanobis se usa en el problema de determinar valores atípicos multivariados y cuando se trabaja con modelos de formas activas .

Notas

  1. Mahalanobis, Prasanta Chandra. Sobre la distancia generalizada en estadística  (neopr.)  // Actas del Instituto Nacional de Ciencias de la India. - 1936. - V. 2 , N º 1 . - S. 49-55 . Archivado desde el original el 29 de mayo de 2013.
  2. De Maesschalck, R.; D. Jouan-Rimbaud, D. L. Massart (2000) La distancia de Mahalanobis. Quimiometría y sistemas de laboratorio inteligentes 50:1–18
  3. Mahalanobis, PC (1927). Análisis de la mezcla de razas en Bengala. J.Proc. Sociedad asiática de bengala 23:301-333.
  4. McLachlan, Geoffry J (1992) Análisis discriminante y reconocimiento de patrones estadísticos. Wiley Interscience. ISBN 0471691151 pág. 12