Matriz de distancia

La matriz de distancias  es una matriz cuadrada objeto a objeto (de orden n ), que contiene como elementos las distancias entre objetos en un espacio métrico .

Propiedades

Las propiedades de la matriz son un reflejo de las propiedades de las propias distancias [1] :

  1. simetría sobre la diagonal, es decir ;
  2. el reflejo de la propiedad de identidad de distancia en la matriz de distancia se manifiesta en presencia de 0 a lo largo de la diagonal de la matriz, ya que la distancia del objeto consigo mismo es obviamente 0, y también en presencia de cero valores para absolutamente similares objetos;
  3. los valores de distancia en la matriz siempre son no negativos
  4. la desigualdad triangular toma la forma para todo , y .

En general, la matriz se ve así:


En un sentido amplio, las distancias son un reflejo de un concepto como diferencia , que es dual al concepto de similitud , y los elementos de la matriz de diferencia (en términos generales, matrices de divergencia) son duales a los elementos de la matriz de similitud ( en general, matrices de convergencia ). La relación entre una medida de similitud y una medida de diferencia se puede escribir como , donde F  es una medida de diferencia; K  es una medida de similitud. Por lo tanto, todas las propiedades de medida de similitud se pueden extrapolar a sus medidas de diferencia correspondientes usando una transformación simple y viceversa. Visualmente, las relaciones entre los objetos se pueden representar utilizando algoritmos de agrupación de gráficos . Podemos decir que las distancias se usan con mucha más frecuencia que las medidas de similitud: se implementan con mayor frecuencia en programas estadísticos ( Statistica , SPSS , etc.) en el módulo de análisis de conglomerados .

Distancias

Se sabe [2] que existe una medida generalizada de distancias propuesta por Hermann Minkowski :

La familia de distancias anterior incluye:

Hay distancias usadas fuera de esta familia. La más conocida es la distancia de Mahalanobis .

También es interesante, como buena ilustración de la conexión entre medidas de similitud y diferencia, la distancia de Yurtsev , dual a la medida de similitud Brown-Blanque [5] :

Ejemplo

Hay seis puntos diferentes en el plano (ver imagen). Se eligió como métrica la distancia euclidiana en píxeles .

La matriz de distancia correspondiente será igual a

a b C d mi F
a 0 184 222 177 216 231
b 184 0 45 123 128 200
C 222 45 0 129 121 203
d 177 123 129 0 46 83
mi 216 128 121 46 0 83
F 231 200 203 83 83 0

La matriz resultante se puede representar como un mapa de calor . Aquí, un color más oscuro corresponde a una menor distancia entre puntos.

Notas

  1. Schrader, Yu. A. ¿Qué es la distancia? . — M .: Fizmatgiz , 1963. — 76 p.
  2. Kim, J.-O. , Muller, C.W., Klekka , W.R. , Oldenderfer, M.S. , Blashfield, R.K. Análisis factorial, discriminante y de conglomerados. - M. : Finanzas y estadísticas, 1989. - 215 p. — ISBN 5-279-00247-X .
  3. Sokal, R. R. , Sneath, P. H. A. Principios de taxonomía numérica  . — San Francisco, Londres: W. H. Freeman and Co., 1963 . — 359 pág.
  4. Godron, M. Quelques aplicaciones de la noción de frecuencia en ecologie végétale  (francés)  // Oecol. Planta.. - 1968. - Vol. 3 , nº 3 . _ - pág. 185-212 .
  5. Semkin, B. I. Al método de análisis de conjuntos de diferentes tamaños en floristería comparativa // Lecturas de Komarov. - 2009. - Edición. LVI . - S. 170-185 .