La estimación de Chernov da estimaciones exponencialmente decrecientes de la probabilidad de grandes desviaciones de sumas de variables aleatorias independientes . Estas estimaciones son más precisas que las estimaciones obtenidas utilizando el primer o segundo momento, como la desigualdad de Markov o la desigualdad de Chebyshev , que dan solo una ley de potencia decreciente. Al mismo tiempo, la estimación de Chernov requiere que las variables aleatorias sean independientes en el agregado, una condición que no requieren ni la desigualdad de Markov ni la desigualdad de Chebyshev, aunque la desigualdad de Chebyshev requiere la independencia por pares de las variables aleatorias.
La estimación de Chernov está relacionada con las desigualdades de Bernstein y la desigualdad de Höfding , que la preceden históricamente.
El caso principal de la estimación de Chernov para una variable aleatoria se logra aplicando la desigualdad de Markov a e tX [1] . Para todos
Cuando X es la suma de n variables aleatorias X 1 , ... , X n , para cualquier
En particular, optimizando con respecto a t y asumiendo que los X i son independientes, obtenemos
(una)Similarmente
y por lo tanto,
Los valores específicos de las estimaciones de Chernov se obtienen mediante el cálculo de cantidades específicas .
Sean X 1 , ..., X n variables aleatorias de Bernoulli independientes cuya suma es X , y cada una es igual a 1 con probabilidad . Para una variable de Bernoulli, se cumple lo siguiente:
Como consecuencia,
Para cualquier y , obtenemos
,y el caso general de la estimación de Chernoff da [2] :64
La probabilidad de ocurrencia simultánea de más de n /2 eventos { X k = 1 } es exactamente igual a:
La estimación más baja de esta probabilidad se puede calcular utilizando la desigualdad de Chernoff:
De hecho, denotando μ = np , obtenemos la forma multiplicativa de la estimación de Chernoff (ver más abajo o el Corolario 13.3 en las notas de clase de Sinclair) [3] :
Este resultado admite varias generalizaciones, como se indica a continuación. Se pueden observar varias formas de estimaciones de Chernoff: la forma aditiva original (da una estimación del error absoluto ) o la forma multiplicativa más práctica (limita el error con respecto a la media).
El siguiente teorema fue demostrado por Wassily Hoefding [4] .
Teorema de Chernov-Hoefding . Sean X 1 , ..., X n variables aleatorias independientes idénticamente distribuidas que toman los valores {0, 1}. Sea p = E[ X ] y ε > 0 . Después dónde Esta es la divergencia de Kullback-Leibler entre variables aleatorias que tienen una distribución de Bernoulli con parámetros x e y, respectivamente. Si p ≥una2, entoncesSe obtiene una estimación más simple debilitando este teorema usando la desigualdad D ( p + ε || p ) ≥ 2 ε 2 , que se sigue de la convexidad de D ( p + ε || p ) y del hecho de que
Este resultado es un caso especial de la desigualdad de Hoefding . En algunos casos, se utilizan estimaciones
más fuerte para p <unaocho.
De manera similar, se puede demostrar que para cualquier
En la práctica, la fórmula anterior a menudo resulta ser engorrosa [2] , por lo que se utilizan estimaciones más débiles pero convenientes.
que se obtienen utilizando una desigualdad de la lista de desigualdades logarítmicas [5] . O una desigualdad aún más débil
Las estimaciones de Chernov tienen aplicaciones en el equilibrio de conjuntos y el enrutamiento de paquetes en redes dispersas .
El problema del equilibrio de conjuntos surge en el diseño de un experimento estadístico . Por lo general, al diseñar un experimento estadístico con las propiedades de los participantes dadas en ese experimento, necesitamos dividir a los participantes en dos grupos que no se superpongan para que cada propiedad esté lo más equilibrada posible entre los dos grupos. Consulte también Probabilidad y computación: algoritmos aleatorios y análisis probabilístico . Archivado el 16 de abril de 2021 en Wayback Machine .
Las estimaciones de Chernoff también se utilizan para lograr límites estrictos en problemas de enrutamiento mediante permutaciones. Esto reduce la congestión de enrutamiento en redes dispersas . Ver más en Probabilidad y computación: algoritmos aleatorios y análisis probabilístico Archivado el 16 de abril de 2021 en Wayback Machine .
Además, las estimaciones de Chernoff se utilizan en la teoría del aprendizaje computacional para probar que el algoritmo de aprendizaje es aproximadamente correcto en probabilidad . Es decir, con una alta probabilidad, este algoritmo tiene un pequeño error en un conjunto suficientemente grande de datos de entrenamiento [6] .
Los puntajes de Chernoff se pueden usar de manera efectiva para evaluar el " nivel de robustez " de una aplicación/algoritmo al examinar su espacio de perturbación mediante la aleatorización. [7]
Rudolf Ahlswede y Andreas Winter utilizaron estimaciones de Chernoff para variables aleatorias con valores matriciales. [8] La siguiente versión de la desigualdad se puede encontrar en el trabajo de Tropp. [9]
Sean M 1 , ..., M t variables aleatorias con valores matriciales tales que y . Denote el operador de norma matricial . Si es casi seguro que la desigualdad se cumple para todos , entonces para cada ε > 0
Para concluir que la desviación de 0 está acotada por ε con alta probabilidad, debemos elegir (número de muestras) proporcional al logaritmo de . En el caso general, la dependencia de no es obvia: por ejemplo, tome una matriz aleatoria diagonal de signos de dimensión . La suma del operador de norma de muestra independiente es exactamente la desviación máxima entre recorridos aleatorios independientes de longitud . Para alcanzar un límite fijo de desviación máxima con probabilidad constante, debe aumentar logarítmicamente con . [diez]
El siguiente teorema se deriva bajo el supuesto de que tiene un rango bajo para evitar la dependencia de la dimensión.
Sea 0 < ε < 1 y sea una matriz real simétrica aleatoria con y casi segura. Suponga que cada elemento portador tiene rango como máximo . Pongamos
Si es casi seguro, entonces
donde M 1 , ..., M t son copias independientes distribuidas idénticamente de .
Ankit Garg, Yin Tat Lee, Zhao Song y Nikhil Srivastava [11] obtuvieron estimaciones de tipo Chernoff para sumas de variables aleatorias con valores matriciales muestreadas mediante un paseo aleatorio de expansión .
Rasmus King y Zhao Song [12] obtuvieron estimaciones de tipo Chernov para sumas de matrices laplacianas de árboles aleatorios.
La siguiente versión de la estimación de Chernoff se puede utilizar para estimar la probabilidad de que la mayoría de la población se convierta en minoría en la muestra y viceversa. [13]
Supongamos que hay una población general y una subpoblación . Denotemos el tamaño relativo de la subpoblación ( ) por .
Digamos que elegimos un número entero agrio y una muestra aleatoria de tamaño . Denotemos el tamaño relativo de la subpoblación ( ) por .
Entonces para cada acción :
En particular, si ─ es la mayoría en (es decir, ), entonces podemos estimar desde arriba la probabilidad de que siga siendo la mayoría en [ 14] :
Esta estimación, por supuesto, no es exacta. Por ejemplo, si , entonces obtenemos una estimación trivial .
Sea q = p + ε . Tomando a = nq en la fórmula (1) , obtenemos:
Ahora, sabiendo que Pr( X i = 1) = p , Pr( X i = 0) = 1 − p , tenemos
Entonces podemos calcular fácilmente el mínimo usando la técnica de diferenciación:
Igualando la expresión resultante a cero y resolviendo la ecuación con respecto a , obtenemos
asi que
Como consecuencia,
Como q = p + ε > p , vemos que t > 0 , por lo que t satisface nuestra estimación . Una vez que tenemos t , podemos volver a las ecuaciones anteriores y encontrar
Ahora tenemos el resultado deseado porque
Para completar la prueba en el caso simétrico, simplemente definimos una variable aleatoria Y i = 1 − X i , le aplicamos exactamente la misma prueba y sumamos el resultado a nuestra estimación.
Sea Pr( X yo = 1) = pag yo . Según la fórmula (1) ,
La tercera línea se deriva del hecho de que toma el valor e t con probabilidad p i y el valor 1 con probabilidad 1 − p i . Esto es idéntico a los cálculos anteriores en la prueba de la forma aditiva.
Reescribiendo como y recordando que (si x > 0 , entonces la desigualdad es estricta), hacemos . Se puede obtener el mismo resultado reemplazando directamente a en el estimador de Chernoff con (1 + δ ) μ . [quince]
De este modo,
Si solo ponemos t = ln(1 + δ ) , de modo que t > 0 para δ > 0 , entonces podemos reemplazar eso en la última expresión y encontrar
,QED