Entropía de Renyi

En la teoría de la información, la entropía de Rényi , una generalización de la entropía de Shannon , es una familia de funcionales utilizados como medida de la diversidad cuantitativa, la incertidumbre o la aleatoriedad de algún sistema. El nombre de Alfred Renyi .

Si algún sistema tiene un conjunto discreto de estados disponibles , que corresponde a la distribución de probabilidad para (es decir , la probabilidad de que el sistema esté en estados ), entonces la entropía de Rényi con el parámetro (en y ) del sistema se define como

,

donde los paréntesis angulares denotan la esperanza matemática por distribución ( es la probabilidad de que el sistema se encuentre en un determinado estado como variable aleatoria ), el logaritmo se toma en base 2 (para contar en bits) o en otra base conveniente (debe ser mayor que 1). La base del logaritmo determina la unidad de entropía. Por eso, en estadística matemática , se suele utilizar el logaritmo natural .

Si todas las probabilidades son , entonces para cualquiera la entropía de Rényi es . De lo contrario , la entropía disminuye en función de . Además, los valores más altos (que van al infinito) dan valores de entropía de Renyi que están determinados en gran medida solo por las probabilidades más altas de eventos (es decir, la contribución de los estados de baja probabilidad a la disminución de la entropía). El caso intermedio en el límite da la entropía de Shannon, que tiene propiedades especiales. Los valores más bajos (que van a cero) dan un valor de entropía de Rényi que pondera los eventos posibles de manera más uniforme, menos dependiente de sus probabilidades. Y cuando conseguimos la máxima -entropía posible igualamos independientemente de la distribución (aunque sólo sea ).

El significado del parámetro se puede describir, hablando informalmente, como la susceptibilidad del funcional a la desviación del estado del sistema del estado de equilibrio: cuanto mayor , más rápido disminuye la entropía cuando el sistema se desvía del estado de equilibrio. El significado de la restricción es proporcionar un aumento en la entropía cuando el sistema se acerca a un estado de equilibrio (más probable). Este requisito es natural para el concepto de entropía . Cabe señalar que para la entropía de Tsallis , que es equivalente a la entropía de Renyi hasta una transformación monotónica independiente de , se suele omitir la restricción correspondiente, mientras que para valores negativos del parámetro, en lugar de maximizar la entropía, se minimiza su minimización. se usa

La entropía de Rényi juega un papel importante en ecología y estadística, definiendo los llamados índices de diversidad . La entropía de Rényi también es importante en la información cuántica y puede usarse como una medida de complejidad . En la cadena de Heisenberg, la entropía de Rényi se calculó en términos de funciones modulares en función de . También conducen a un espectro de exponentes de dimensión fractal .

H α para algunos valores específicos de α

Algunos casos especiales

.

Esta entropía a veces se denomina entropía de Hartley . Se utiliza, por ejemplo, en la formulación del principio de Boltzmann .

. ,

donde y son variables aleatorias independientes igualmente distribuidas en el conjunto con probabilidades ( ). La entropía cuadrática se utiliza en física , procesamiento de señales y economía .

,

que se llama min-entropía porque es el valor más pequeño de . Esta entropía es también un caso degenerado, ya que su valor está determinado únicamente por el estado más probable.

Desigualdades para diferentes valores de α

Los dos últimos casos están relacionados por . Por otro lado, la entropía de Shannon puede ser arbitrariamente alta para una distribución X con una entropía mínima fija.

porque _ , porque . según la desigualdad de Jensen .

Divergencias (divergencias) de Renyi

Además de la familia de la entropía, Rényi también definió un rango de medidas de divergencia (divergencias) generalizando la divergencia Kullback-Leibler . Las fórmulas de esta sección están escritas en forma general, a través de un logaritmo en una base arbitraria. Por lo tanto, debe comprender que cada fórmula dada es una familia de funcionales equivalentes definidos hasta un factor constante (positivo).

La divergencia de Rényi con parámetro , donde y , distribución relativa a distribución (o "distancia de a ") se define como

o (formalmente, sin tener en cuenta la normalización de probabilidades)

, .

Al igual que la divergencia de Kullback-Leibler de , la divergencia de Rényi no es negativa para .

Algunos casos especiales

 : menos el logaritmo de la suma de probabilidades tal que el correspondiente .

Interpretación financiera (juego)

Considere un juego (lotería) adivinando alguna variable aleatoria. Las tasas oficiales de ganancias se conocen y publican como una distribución de probabilidad . Mientras tanto, la verdadera distribución de probabilidad puede no coincidir con . Conocer la verdadera distribución le permite al jugador ganar. El crecimiento esperado del capital es exponencial. Considerando que la distribución es correcta , el jugador puede calcular (su) expectativa matemática de la tasa de crecimiento exponencial del capital (por ronda del juego) [Soklakov2020 ]:

Crecimiento Esperado


donde denota la medida relativa de la aversión al riesgo de Arrow-Pratt.

Denotando la verdadera distribución (que no necesariamente coincide con la opinión del jugador ), el crecimiento real obtenido se puede calcular en el límite de un juego múltiple [Soklakov2020 ]:

Altura real

¿Por qué el caso α = 1 es especial

El valor de , que corresponde a la entropía de Shannon y la divergencia de Kullback-Leibler , es especial porque solo en este caso se pueden extraer las variables A y X de la distribución de probabilidad conjunta tal que

para la entropía, y

por divergencia.

Esto último significa que si buscamos una distribución que minimice las discrepancias de algunas medidas subyacentes y obtenemos nueva información que solo afecta la distribución , entonces la distribución no se verá afectada por los cambios en .

En el caso general, las divergencias de Rényi con valores arbitrarios satisfacen las condiciones de no negatividad, continuidad e invariancia bajo la transformación de coordenadas de variables aleatorias. Una propiedad importante de cualquier entropía y divergencia de Rényi es la aditividad: cuando y son independientes, se sigue que

y

.

Las propiedades de caso más fuertes , que involucran la definición de información condicional e información mutua de la teoría de la comunicación, pueden ser muy importantes en otras aplicaciones, o no tener importancia, dependiendo de los requisitos de esas aplicaciones.

Entropía cruzada de Renyi

La entropía cruzada de dos distribuciones con probabilidades y ( ) en el caso general se puede definir de diferentes formas (dependiendo de la aplicación), pero debe cumplir la condición . Una de las definiciones (la entropía cruzada de Shannon tiene una propiedad similar ):

.

Otra definición propuesta por A. Renyi puede obtenerse de las siguientes consideraciones. Definimos el número efectivo de estados del sistema como la media geométrica ponderada de los valores con pesos :

.

Esto implica la expresión de la entropía cruzada de Shannon

.

Argumentando de manera similar, definimos el número efectivo de estados del sistema como un promedio ponderado de valores de ley de potencia con pesos y parámetros :

.

Por lo tanto, la entropía cruzada de Renyi tiene la forma

.

Caso continuo

Para una generalización formal de la entropía de Shannon al caso de una distribución continua, se utiliza el concepto de entropía diferencial . La entropía diferencial de Rényi se define exactamente de la misma manera:

.

La divergencia de Rényi en el caso continuo también es una generalización de la divergencia de Kullback-Leibler y tiene la forma

.

La definición de entropía cruzada, propuesta por A. Renyi, en el caso continuo tiene la forma

.

En las fórmulas anteriores , y son algunas funciones de densidad de probabilidad , definidas en el intervalo , y se supone que, .

Literatura