Puntuación de Chernov

La estimación de Chernov da estimaciones exponencialmente decrecientes de la probabilidad de grandes desviaciones de sumas de variables aleatorias independientes . Estas estimaciones son más precisas que las estimaciones obtenidas utilizando el primer o segundo momento, como la desigualdad de Markov o la desigualdad de Chebyshev , que dan solo una ley de potencia decreciente. Al mismo tiempo, la estimación de Chernov requiere que las variables aleatorias sean independientes en el agregado, una condición que no requieren ni la desigualdad de Markov ni la desigualdad de Chebyshev, aunque la desigualdad de Chebyshev requiere la independencia por pares de las variables aleatorias.

La estimación de Chernov está relacionada con las desigualdades de Bernstein y la desigualdad de Höfding , que la preceden históricamente.

Caso básico

El caso principal de la estimación de Chernov para una variable aleatoria se logra aplicando la desigualdad de Markov a e tX [1] . Para todos

Cuando X es la suma de n variables aleatorias X 1 , ... , X n , para cualquier

En particular, optimizando con respecto a t y asumiendo que los X i son independientes, obtenemos

(una)

Similarmente

y por lo tanto,

Los valores específicos de las estimaciones de Chernov se obtienen mediante el cálculo de cantidades específicas .

Ejemplo

Sean X 1 , ..., X n variables aleatorias de Bernoulli independientes cuya suma es X , y cada una es igual a 1 con probabilidad . Para una variable de Bernoulli, se cumple lo siguiente:

Como consecuencia,

Para cualquier y , obtenemos

,

y el caso general de la estimación de Chernoff da [2] :64

La probabilidad de ocurrencia simultánea de más de n /2 eventos { X k = 1 } es exactamente igual a:

La estimación más baja de esta probabilidad se puede calcular utilizando la desigualdad de Chernoff:

De hecho, denotando μ = np , obtenemos la forma multiplicativa de la estimación de Chernoff (ver más abajo o el Corolario 13.3 en las notas de clase de Sinclair) [3] :

Este resultado admite varias generalizaciones, como se indica a continuación. Se pueden observar varias formas de estimaciones de Chernoff: la forma aditiva original (da una estimación del error absoluto ) o la forma multiplicativa más práctica (limita el error con respecto a la media).

Forma aditiva (evaluación de error absoluto)

El siguiente teorema fue demostrado por Wassily Hoefding [4] .

Teorema de Chernov-Hoefding . Sean X 1 , ..., X n variables aleatorias independientes idénticamente distribuidas que toman los valores {0, 1}. Sea p = E[ X ] y ε > 0 . Después dónde Esta es la divergencia de Kullback-Leibler entre variables aleatorias que tienen una distribución de Bernoulli con parámetros x e y, respectivamente. Si puna2, entonces

Se obtiene una estimación más simple debilitando este teorema usando la desigualdad D ( p + ε || p ) ≥ 2 ε 2 , que se sigue de la convexidad de D ( p + ε || p ) y del hecho de que

Este resultado es un caso especial de la desigualdad de Hoefding . En algunos casos, se utilizan estimaciones

más fuerte para p <unaocho.

Forma multiplicativa (estimación del error relativo)

Estimación multiplicativa de Chernov . Sean X 1 , ..., X n variables aleatorias independientes que toman los valores {0, 1}. Denotemos su suma por X , denotemos la expectativa de esta suma por μ . Entonces por cada

De manera similar, se puede demostrar que para cualquier

En la práctica, la fórmula anterior a menudo resulta ser engorrosa [2] , por lo que se utilizan estimaciones más débiles pero convenientes.

que se obtienen utilizando una desigualdad de la lista de desigualdades logarítmicas [5] . O una desigualdad aún más débil

Aplicaciones

Las estimaciones de Chernov tienen aplicaciones en el equilibrio de conjuntos y el enrutamiento de paquetes en redes dispersas .

El problema del equilibrio de conjuntos surge en el diseño de un experimento estadístico . Por lo general, al diseñar un experimento estadístico con las propiedades de los participantes dadas en ese experimento, necesitamos dividir a los participantes en dos grupos que no se superpongan para que cada propiedad esté lo más equilibrada posible entre los dos grupos. Consulte también Probabilidad y computación: algoritmos aleatorios y análisis probabilístico . Archivado el 16 de abril de 2021 en Wayback Machine .

Las estimaciones de Chernoff también se utilizan para lograr límites estrictos en problemas de enrutamiento mediante permutaciones. Esto reduce la congestión de enrutamiento en redes dispersas . Ver más en Probabilidad y computación: algoritmos aleatorios y análisis probabilístico Archivado el 16 de abril de 2021 en Wayback Machine .

Además, las estimaciones de Chernoff se utilizan en la teoría del aprendizaje computacional para probar que el algoritmo de aprendizaje es aproximadamente correcto en probabilidad . Es decir, con una alta probabilidad, este algoritmo tiene un pequeño error en un conjunto suficientemente grande de datos de entrenamiento [6] .

Los puntajes de Chernoff se pueden usar de manera efectiva para evaluar el " nivel de robustez " de una aplicación/algoritmo al examinar su espacio de perturbación mediante la aleatorización. [7]

Puntuación matriz

Rudolf Ahlswede y Andreas Winter utilizaron estimaciones de Chernoff para variables aleatorias con valores matriciales. [8] La siguiente versión de la desigualdad se puede encontrar en el trabajo de Tropp. [9]

Sean M 1 , ..., M t variables aleatorias con valores matriciales tales que y . Denote el operador de norma matricial . Si es casi seguro que la desigualdad se cumple para todos , entonces para cada ε > 0

Para concluir que la desviación de 0 está acotada por ε con alta probabilidad, debemos elegir (número de muestras) proporcional al logaritmo de . En el caso general, la dependencia de no es obvia: por ejemplo, tome una matriz aleatoria diagonal de signos de dimensión . La suma del operador de norma de muestra independiente es exactamente la desviación máxima entre recorridos aleatorios independientes de longitud . Para alcanzar un límite fijo de desviación máxima con probabilidad constante, debe aumentar logarítmicamente con . [diez]

El siguiente teorema se deriva bajo el supuesto de que tiene un rango bajo para evitar la dependencia de la dimensión.

Teorema sin dependencia de la dimensión

Sea 0 < ε < 1 y sea una matriz real simétrica aleatoria con y casi segura. Suponga que cada elemento portador tiene rango como máximo . Pongamos

Si es casi seguro, entonces

donde M 1 , ..., M t son copias independientes distribuidas idénticamente de .

Teorema para matrices no completamente aleatorias

Ankit Garg, Yin Tat Lee, Zhao Song y Nikhil Srivastava [11] obtuvieron estimaciones de tipo Chernoff para sumas de variables aleatorias con valores matriciales muestreadas mediante un paseo aleatorio de expansión .

Rasmus King y Zhao Song [12] obtuvieron estimaciones de tipo Chernov para sumas de matrices laplacianas de árboles aleatorios.

Variante de muestreo

La siguiente versión de la estimación de Chernoff se puede utilizar para estimar la probabilidad de que la mayoría de la población se convierta en minoría en la muestra y viceversa. [13]

Supongamos que hay una población general y una subpoblación . Denotemos el tamaño relativo de la subpoblación ( ) por .

Digamos que elegimos un número entero agrio y una muestra aleatoria de tamaño . Denotemos el tamaño relativo de la subpoblación ( ) por .

Entonces para cada acción :

En particular, si ─ es la mayoría en (es decir, ), entonces podemos estimar desde arriba la probabilidad de que siga siendo la mayoría en [ 14] :

Esta estimación, por supuesto, no es exacta. Por ejemplo, si , entonces obtenemos una estimación trivial .

Evidencia

Teorema de Chernov-Hoefding (forma aditiva)

Sea q = p + ε . Tomando a = nq en la fórmula (1) , obtenemos:

Ahora, sabiendo que Pr( X i = 1) = p , Pr( X i = 0) = 1 − p , tenemos

Entonces podemos calcular fácilmente el mínimo usando la técnica de diferenciación:

Igualando la expresión resultante a cero y resolviendo la ecuación con respecto a , obtenemos

asi que

Como consecuencia,

Como q = p + ε > p , vemos que t > 0 , por lo que t satisface nuestra estimación . Una vez que tenemos t , podemos volver a las ecuaciones anteriores y encontrar

Ahora tenemos el resultado deseado porque

Para completar la prueba en el caso simétrico, simplemente definimos una variable aleatoria Y i = 1 − X i , le aplicamos exactamente la misma prueba y sumamos el resultado a nuestra estimación.

Forma multiplicativa

Sea Pr( X yo = 1) = pag yo . Según la fórmula (1) ,

La tercera línea se deriva del hecho de que toma el valor e t con probabilidad p i y el valor 1 con probabilidad 1 − p i . Esto es idéntico a los cálculos anteriores en la prueba de la forma aditiva.

Reescribiendo como y recordando que (si x > 0 , entonces la desigualdad es estricta), hacemos . Se puede obtener el mismo resultado reemplazando directamente a en el estimador de Chernoff con (1 + δ ) μ . [quince]

De este modo,

Si solo ponemos t = ln(1 + δ ) , de modo que t > 0 para δ > 0 , entonces podemos reemplazar eso en la última expresión y encontrar

,

QED

Véase también

Enlaces

  1. Este método fue utilizado por primera vez por Sergei Bernstein en pruebas relacionadas con las desigualdades de Bernstein .
  2. 1 2 Mitzenmacher, Michael y Upfal, Eli. Probabilidad y Computación: Algoritmos Aleatorios y Análisis Probabilístico . - Prensa de la Universidad de Cambridge, 2005. - ISBN 978-0-521-83540-4 . -doi : 10.1017 / CBO9780511813603.005 . Archivado el 16 de abril de 2021 en Wayback Machine .
  3. Sinclair, Alistair Notas de clase para el curso "Aleatoriedad y computación" (enlace no disponible) (otoño de 2011). Consultado el 30 de octubre de 2014. Archivado desde el original el 31 de octubre de 2014. 
  4. Hoeffding, W. (1963). “Desigualdades de probabilidad para sumas de variables aleatorias acotadas” (PDF) . Revista de la Asociación Estadounidense de Estadística . 58 (301): 13-30. DOI : 10.2307/2282952 . JSTOR2282952  . _
  5. Desigualdades útiles . logaritmo _ Consultado el 13 de mayo de 2020. Archivado desde el original el 19 de agosto de 2020.
  6. M. Kearns, U. Vazirani. Una introducción a la teoría del aprendizaje computacional. Capítulo 9 (Apéndice), páginas 190-192. Prensa del MIT, 1994.
  7. C.Alippi: capítulo "Algoritmos aleatorios" en Intelligence for Embedded Systems. Springer, 2014, 283 páginas ISBN 978-3-319-05278-6 .
  8. Ahlswede, R.; Invierno, A. (2003). “Fuerte conversación para la identificación a través de canales cuánticos”. Transacciones IEEE sobre teoría de la información . 48 (3): 569-579. arXiv : quant-ph/0012127 . DOI : 10.1109/18.985947 .
  9. Tropp, J. (2010). "Límites de cola fáciles de usar para sumas de matrices aleatorias". Fundamentos de Matemática Computacional . 12 (4): 389-434. arXiv : 1004.4389 . DOI : 10.1007/s10208-011-9099-z .
  10. Magen, A. & Zouzias, A. (2011), Límites de Chernoff con valores de matriz de rango bajo y multiplicación de matriz aproximada, arΧiv : 1005.2724 [cs.DM]. 
  11. Ankit Garg, Yin Tat Lee, Zhao Song, Nikhil Srivastava. A Matrix Expander Chernoff Bound  // Association for Computing MachineryNueva YorkNYEstados Unidos. — 2018. Archivado el 14 de abril de 2021.
  12. Rasmus Kyng, Zhao Song. Un límite de Chernoff de matriz para distribuciones fuertemente Rayleigh y dispersores espectrales de unos pocos árboles de expansión aleatorios  // FOCS. - 2018. - 1 de octubre. Archivado desde el original el 22 de abril de 2021.
  13. Goldberg, AV Subastas competitivas para múltiples bienes digitales // Algoritmos - ESA 2001 / AV Goldberg, JD Hartline. - 2001. - vol. 2161. - Pág. 416. - ISBN 978-3-540-42493-2 . -doi : 10.1007 / 3-540-44676-1_35 . ; Lema 6.1
  14. Ver gráficos: Frontier en función de r con k variable Archivado el 4 de enero de 2015 en Wayback Machine y Frontier en función de k con r variable Archivado el 4 de enero de 2015 en Wayback Machine .
  15. Consulte la prueba anterior.

Lecturas adicionales