La entropía de la información es una medida de la incertidumbre de un determinado sistema (en física estadística o teoría de la información ), en particular, la imprevisibilidad de la aparición de cualquier carácter del alfabeto primario . En este último caso, en ausencia de pérdida de información, la entropía es numéricamente igual a la cantidad de información por símbolo del mensaje transmitido.
Por ejemplo, en una secuencia de letras que forman una oración en ruso, aparecen diferentes letras con diferentes frecuencias , por lo que la incertidumbre de ocurrencia de unas letras es menor que la de otras. Si tenemos en cuenta que algunas combinaciones de letras (en este caso hablan de la entropía de orden -ésimo, ver más abajo ) son muy raras, entonces la incertidumbre disminuye aún más.
La entropía binaria de la información , en ausencia de pérdida de información, se calcula utilizando la fórmula de Hartley :
,
donde está la potencia del alfabeto, es la cantidad de información en cada símbolo del mensaje. Para una variable aleatoria que toma valores aleatorios independientes con probabilidades ( ), la fórmula de Hartley se convierte en la fórmula de Shannon:
Esta cantidad también se denomina entropía media del mensaje . La cantidad se llama entropía parcial , que caracteriza solo el estado -e.
Así, la entropía del sistema es la suma con signo opuesto de todas las frecuencias relativas de ocurrencia del estado (evento) con el número , multiplicado por sus logaritmos binarios [1] . Esta definición para eventos aleatorios discretos puede extenderse formalmente a distribuciones continuas dadas por la distribución de densidad de probabilidad , sin embargo, el funcional resultante tendrá propiedades ligeramente diferentes (ver entropía diferencial ).
En general, la base del logaritmo en la definición de entropía puede ser mayor que 1 (ya que un alfabeto que consta de un solo carácter no puede transmitir información); la elección de la base del logaritmo determina la unidad de entropía. Para los sistemas de información basados en el sistema numérico binario, la unidad de medida de la entropía de la información (en realidad, información) es un bit . En problemas de estadística matemática, puede ser más conveniente utilizar el logaritmo natural , en cuyo caso la unidad de entropía de la información es nat .
Claude Shannon sugirió que la ganancia de información es igual a la pérdida de incertidumbre y estableció los requisitos para su medición:
Por lo tanto, la función de entropía debe satisfacer las condiciones
Shannon demostró [2] que la única función que satisface estos requisitos es
donde es una constante positiva (y realmente solo se necesita para elegir la unidad de entropía; cambiar esta constante es equivalente a cambiar la base del logaritmo).
Shannon determinó que la medida de la entropía ( ) aplicada a una fuente de información puede determinar los requisitos mínimos de ancho de banda requeridos para una transmisión confiable de información en forma de números binarios codificados. Para derivar la fórmula de Shannon, es necesario calcular la expectativa matemática de la "cantidad de información" contenida en la figura de la fuente de información. La medida de la entropía de Shannon expresa la incertidumbre de la realización de una variable aleatoria. Así, la entropía es la diferencia entre la información contenida en un mensaje y la parte de la información que se conoce exactamente (o es altamente predecible) en el mensaje. Un ejemplo de esto es la redundancia del idioma : existen patrones estadísticos claros en la aparición de letras, pares de letras consecutivas, triples, etc. (ver cadenas de Markov ).
La definición de la entropía de Shannon está relacionada con el concepto de entropía termodinámica . Boltzmann y Gibbs trabajaron mucho en termodinámica estadística, lo que contribuyó a la aceptación de la palabra "entropía" en la teoría de la información. Existe una conexión entre la termodinámica y la entropía informacional. Por ejemplo, el demonio de Maxwell también contrasta la entropía termodinámica de la información, y ganar cualquier cantidad de información es igual a perder la entropía.
También es posible determinar la entropía de una variable aleatoria introduciendo primero el concepto de distribución de una variable aleatoria que tiene un número finito de valores: [3]
Entonces la entropía se define como:
La unidad de medida de la cantidad de información y entropía depende de la base del logaritmo: bit , nat , trit o hartley .
La entropía es una cantidad definida en el contexto de un modelo probabilístico para una fuente de datos . Por ejemplo, lanzar una moneda tiene entropía:
Para una fuente que genera una cadena que consta solo de las letras "A", la entropía es cero: , y el número de estados posibles es: el estado posible (valor) ("A") y no depende de la base de la logaritmo. Esta es también información que también hay que tener en cuenta. Un ejemplo de dispositivos de memoria que utilizan bits con una entropía igual a cero, pero con una cantidad de información igual a un estado posible , es decir, no igual a cero, son los bits de datos grabados en ROM , en los que cada bit tiene solo un estado posible . estado _
Así, por ejemplo, se puede establecer empíricamente que la entropía de un texto en inglés es de 1,5 bits por carácter, que variará para diferentes textos. El grado de entropía de la fuente de datos significa el número promedio de bits por elemento de datos necesarios para su cifrado (datos) sin pérdida de información, con una codificación óptima.
El alfabeto puede tener una distribución de probabilidad que está lejos de ser uniforme . Si el alfabeto original contiene caracteres, entonces se puede comparar con un "alfabeto optimizado" cuya distribución de probabilidad es uniforme. La relación de la entropía del alfabeto original y optimizado es la eficiencia del alfabeto original, que se puede expresar como un porcentaje. La eficiencia del alfabeto simbólico original también se puede definir como su entropía -aria.
La entropía limita la máxima compresión posible sin pérdidas (o casi sin pérdidas) que se puede realizar utilizando un conjunto teóricamente típico o, en la práctica, la codificación Huffman , la codificación Lempel-Ziv-Welch o la codificación aritmética .
En general, la entropía b - aria (donde b es 2, 3,…) de una fuente con un alfabeto inicial y una distribución de probabilidad discreta donde es una probabilidad ( ) viene dada por:
En particular, cuando , obtenemos la entropía binaria habitual, medida en bits . Con , obtenemos una entropía trinaria medida en trits (un trit tiene una fuente de información con tres estados equiprobables). Cuando obtenemos información medida en nats .
Si el orden de los caracteres del alfabeto no es independiente (por ejemplo, en francés, la letra "q" casi siempre va seguida de "u", y después de la palabra "peredovik" en los periódicos soviéticos, la palabra "producción" o generalmente se seguía "trabajo"), la cantidad de información transportada por la secuencia de tales símbolos (y por lo tanto la entropía) es menor. La entropía condicional se utiliza para dar cuenta de tales hechos.
La entropía condicional de primer orden (similar al modelo de Markov de primer orden) es la entropía del alfabeto, donde se conocen las probabilidades de aparición de una letra tras otra (es decir, las probabilidades de combinaciones de dos letras) :
donde es el estado dependiente del carácter anterior y es la probabilidad dada de que era el carácter anterior.
Por ejemplo, para el idioma ruso sin la letra "e" [4] .
En términos de entropía condicional privada y general, las pérdidas de información se describen completamente durante la transmisión de datos en un canal ruidoso. Para ello se utilizan las denominadas matrices de canales . Para describir la pérdida en el lado de la fuente (es decir, se conoce la señal enviada), considere la probabilidad condicional de recibir un símbolo por parte del receptor , siempre que el símbolo haya sido enviado . En este caso, la matriz del canal tiene la siguiente forma:
… | … | |||||
---|---|---|---|---|---|---|
… | … | |||||
… | … | |||||
… | … | … | … | … | … | … |
… | … | |||||
… | … | … | … | … | … | … |
… | … |
Las probabilidades ubicadas a lo largo de la diagonal describen la probabilidad de recepción correcta, y la suma de todos los elementos de cualquier fila da 1. Las pérdidas por señal transmitida se describen en términos de entropía condicional parcial:
Para calcular la pérdida de transmisión de todas las señales, se utiliza la entropía condicional total:
significa la entropía del lado de la fuente, la entropía del lado del receptor se considera de manera similar: en cambio , se indica en todas partes (resumiendo los elementos de la cadena, puede obtener , y los elementos de la diagonal significan la probabilidad de que exactamente el carácter que se recibió fue enviado, es decir, la probabilidad de transmisión correcta).
La entropía mutua o entropía de unión está diseñada para calcular la entropía de sistemas interconectados (la entropía de la aparición conjunta de mensajes estadísticamente dependientes) y se denota por , donde caracteriza al transmisor, y - al receptor.
La relación de señales transmitidas y recibidas se describe mediante probabilidades de eventos conjuntos , y solo se requiere una matriz para describir completamente las características del canal:
… | … | ||||
… | … | ||||
… | … | … | … | … | … |
… | … | ||||
… | … | … | … | … | … |
… | … |
Para un caso más general, cuando no se describe un canal, sino sistemas que interactúan como un todo, la matriz no tiene que ser cuadrada. La suma de todos los elementos de la columna con el número da , la suma de la fila con el número es , y la suma de todos los elementos de la matriz es 1. La probabilidad conjunta de eventos y se calcula como el producto de la probabilidad inicial y condicional:
Las probabilidades condicionales son producidas por la fórmula de Bayes . Por lo tanto, hay todos los datos para calcular las entropías de la fuente y el receptor:
La entropía mutua se calcula sumando filas (o columnas) sucesivas de todas las probabilidades de la matriz multiplicadas por su logaritmo:
La unidad de medida es bit/dos caracteres, esto se debe a que la entropía mutua describe la incertidumbre para un par de caracteres: enviado y recibido. Por transformaciones simples, también obtenemos
La entropía mutua tiene la propiedad de completar la información : todas las cantidades consideradas se pueden obtener de ella.
En 1948, mientras investigaba el problema de la transmisión racional de información a través de un canal de comunicación ruidoso, Claude Shannon propuso un enfoque probabilístico revolucionario para comprender las comunicaciones y creó la primera teoría verdaderamente matemática de la entropía . Sus ideas sensacionales sirvieron rápidamente como base para el desarrollo de dos áreas principales: la teoría de la información , que utiliza el concepto de probabilidad y la teoría ergódica para estudiar las características estadísticas de los sistemas de comunicación y datos, y la teoría de la codificación , que utiliza principalmente herramientas algebraicas y geométricas. desarrollar códigos eficientes.
El concepto de entropía como medida de la aleatoriedad fue introducido por Shannon en su artículo " A Mathematical Theory of Communication " , publicado en dos partes en Bell System Technical Journal en 1948.
![]() | ||||
---|---|---|---|---|
|