En la teoría de la información, la entropía cruzada entre dos distribuciones de probabilidad mide el número promedio de bits necesarios para identificar un evento de un conjunto de posibilidades si el esquema de codificación utilizado se basa en una distribución de probabilidad dada en lugar de la distribución "verdadera" .
La entropía cruzada para dos distribuciones y sobre el mismo espacio de probabilidad se define como sigue:
,donde es la entropía y es la distancia de Kullback-Leibler de a (también conocida como la entropía relativa ).
Para discreto y eso significa
La situación para una distribución continua es similar:
Debe tenerse en cuenta que, a pesar de la analogía formal de los funcionales para los casos continuo y discreto, tienen propiedades diferentes y significados diferentes. El caso continuo tiene las mismas especificidades que la noción de entropía diferencial .
NB : La notación se utiliza a veces tanto para la entropía cruzada como para la entropía conjunta y .
La minimización de entropía cruzada se usa a menudo en la optimización y para estimar las probabilidades de eventos raros.