Distancia de hamming

Distancia de Hamming (distancia de código) - el número de posiciones en las que los caracteres correspondientes de dos palabras de la misma longitud son diferentes [1] . De manera más general, la distancia de Hamming se aplica a cadenas de la misma longitud de cualquier alfabeto q - ario y sirve como una métrica de diferencia (una función que determina la distancia en un espacio métrico ) de objetos de la misma dimensión.

La métrica fue formulada originalmente por Richard Hamming durante su tiempo en Bell Labs para definir una medida de la diferencia entre palabras clave ( vectores binarios ) en un espacio vectorial de palabras clave: en este caso, la distancia de Hamming entre dos secuencias binarias (vectores) y la longitud es el número de posiciones en las que son diferentes. En esta formulación, la distancia de Hamming se incluyó en el Diccionario NIST de algoritmos y estructuras de datos . La distancia de Hamming es un caso especial de la métrica de Minkowski (con una definición apropiada de resta):  

.

Dos palabras con una distancia de Hamming de 1 se llaman vecinas.

En algunos sistemas numéricos, como el código Gray , los enteros codificados que difieren en 1 tienen una distancia de Hamming de 1. Se dice que estos números son "adyacentes".

La codificación de vecinos es importante en el diseño de dispositivos lógicos donde se deben evitar carreras lógicas .

Ejemplos

Propiedades

Un conjunto de palabras de igual longitud forman un espacio métrico , donde para cada par de elementos espaciales se define un número - la distancia de Hamming que satisface los axiomas de la métrica:

  1. ( axioma de identidad ).
  2. ( axioma de simetría ).
  3. ( axioma del triángulo o desigualdad del triángulo ).
entonces el axioma de simetría se sigue del axioma de identidad y de la desigualdad triangular.

La distancia de Hamming es siempre:

donde  es la longitud de las palabras en caracteres.

Distancia de Hamming en bioinformática y genómica

Para los ácidos nucleicos ( ADN y ARN ), la posibilidad de hibridación de dos cadenas de polinucleótidos con la formación de una estructura secundaria -una doble hélice-  depende del grado de complementariedad de las secuencias de nucleótidos de ambas cadenas. A medida que aumenta la distancia de Hamming, disminuye el número de enlaces de hidrógeno formados por pares de bases complementarias y, en consecuencia, disminuye la estabilidad de la doble cadena. A partir de cierta distancia límite de Hamming, la hibridación se vuelve imposible.

En la divergencia evolutiva de secuencias homólogas de ADN, la distancia de Hamming es una medida por la cual se puede juzgar el tiempo transcurrido desde la divergencia de homólogos, por ejemplo, la longitud del segmento evolutivo que separa genes homólogos y un gen precursor.

Véase también

Notas

  1. Distancia de Hamming: el número de posiciones de dígitos en las que los dígitos correspondientes de dos palabras binarias de la misma longitud son diferentes ( Estándar federal 1037C Archivado el 2 de marzo de 2009 en Wayback Machine ).

Literatura