En la teoría de la información, el teorema de la fuente de cifrado de Shannon (o teorema de cifrado silencioso) establece un límite en la compresión máxima de datos y un valor numérico para la entropía de Shannon .
El teorema muestra que (cuando la cantidad de datos tiende a infinito en un flujo de variables aleatorias independientes e igualmente distribuidas (IED)) es imposible comprimir los datos para que la estimación del código (número promedio de bits por símbolo) sea menor que la entropía de Shannon de los datos originales, sin pérdida de precisión de la información. Sin embargo, es posible obtener un código cercano a la entropía de Shannon sin pérdida significativa.
El teorema de la fuente de cifrado para códigos de caracteres trae límites superior e inferior a la longitud mínima posible de palabras cifradas en función de la entropía de la palabra de entrada (que se representa como una variable aleatoria) y el tamaño del alfabeto requerido.
El código fuente es un mapeo (secuencia) del almacén de información en una secuencia de caracteres alfabéticos (generalmente bits) de modo que el carácter fuente se puede obtener únicamente a partir de dígitos binarios (fuente de codificación sin pérdida) u obtenido con alguna diferencia (fuente de codificación con pérdida) . Esta es la idea detrás de la compresión de datos.
En informática, el teorema de la fuente de cifrado (Shannon 1948) establece que:
Una variable aleatoria N con entropía H ( X ) se puede comprimir en más de N H ( X ) bits con un riesgo insignificante de pérdida de datos si N tiende a infinito, pero si la compresión es menor que N H ( X ) bits, entonces el datos más probables de perderse. (MacKay 2003)."Sea , denote dos alfabetos finitos, y sea y denote el conjunto de todas las palabras finitas de estos alfabetos (ordenados).
Supongamos que X es una variable aleatoria que toma un valor de , yf es un código descifrable de a , donde . Sea S una variable aleatoria dada por la longitud de palabra f ( X ).
Si f es óptima en el sentido de que tiene la longitud de palabra mínima para X , entonces
(Shannon 1948).
Dado que es un NOR, su serie temporal X 1 , …, X n es también un NOR con entropía H ( X ) en el caso de valores discretos, y con entropía diferencial en el caso de valores continuos. El teorema de la fuente de encriptación establece que para cada, para cada estimación mayor que la entropía del recurso, hay un n suficientemente grande y un encriptador que toma n copias NOP del recurso , , , y las asigna a bits binarios de tal manera que el carácter original puede recuperarse de bits binarios, X con una probabilidad de al menos .
Prueba
Tomemos algunos . la fórmula para, , se ve así:
AEP muestra que para n suficientemente grande , la secuencia generada a partir de la fuente no es confiable en el caso típico - , convergente. En el caso de suficientemente grande: n , (ver AEP)
La definición de conjuntos típicos implica que aquellas sucesiones que se encuentran en un conjunto típico satisfacen:
Darse cuenta de:
más que
Comenzar con bits es suficiente para distinguir cualquier cadena
Algoritmo de cifrado: el codificador verifica si la secuencia entrante es falsa, si es así, luego devuelve el índice de la frecuencia entrante en la secuencia, si no, luego devuelve un número de dígito aleatorio. valor numérico. Si la probabilidad de entrada es incorrecta en la secuencia (con una frecuencia de aproximadamente ), el codificador no genera un error. Es decir, la probabilidad de error es mayor que
Prueba de reversibilidad La prueba de reversibilidad se basa en el hecho de que se requiere demostrar que para cualquier secuencia de tamaño menor que (en el sentido del exponente) cubrirá la frecuencia de la secuencia acotada por 1.
Sea la longitud de la palabra para cada posible ( ). Definamos , donde C se elige de tal manera que: .
Después
donde la segunda línea es la desigualdad de Gibbs y la quinta línea es la desigualdad de Kraft , .
para la segunda desigualdad podemos establecer
asi que
y entonces
y
Por lo tanto, el mínimo S satisface