La ley de Benford , o ley del primer dígito , es una ley que describe la probabilidad de que aparezca un determinado primer dígito significativo en distribuciones de cantidades tomadas de la vida real.
La ley es cierta para muchas de estas distribuciones, pero no para todas. También hace una serie de predicciones sobre la frecuencia de aparición del segundo y tercer dígito.
La ley descubierta por Frank Benford se ve así: si tenemos un número de base b ( b > 2), entonces para un dígito d ( d ∈ {1, ..., b − 1}) la probabilidad de ser el primer número significativo dígito es
Esta es exactamente la distancia entre d y d+1 en una escala logarítmica con base b .
Para una distribución uniforme, si tiene los números 1, 2, 3, 4,5,6,7, 8, 9, 0 (=10), entonces tiene 10 segmentos (de 0 a 1, ..., de 8 a 9, de 9 a 10). Tenga en cuenta que todos los segmentos se encuentran en el rango [0, 10]. Para el segmento [d, d+1], la distribución uniforme debe ser proporcional a su longitud, es decir, la longitud del segmento [d, d+1], es decir, (d+1)-d dividido por la longitud de el segmento [0, 10], que es igual a 10.
.Si los logaritmos se distribuyen continuamente, debes tomar el logaritmo del número antes de considerar los segmentos. Para los logaritmos, consideramos segmentos del 1 al 10 (ya que log 10 0 no tiene sentido). En este caso, tendrá intervalos desde log 10 1 hasta log 10 2,…, desde log 10 8 hasta log 10 9, desde log 10 9 hasta log 10 10. Todos los segmentos se encuentran en el intervalo [log 10 1, log 10 10] =[0, 1]. La longitud de este último es 1. Entonces, consideramos el segmento [d, d + 1] en la escala habitual, en la escala logarítmica la distribución uniforme será proporcional a su longitud, es decir:
.La siguiente tabla muestra las probabilidades encontradas por Benford para el primer dígito del sistema numérico decimal.
d | una | 2 | 3 | cuatro | 5 | 6 | 7 | ocho | 9 |
pags | 30,1% | 17,6% | 12,5% | 9,7% | 7,9% | 6,7% | 5,8% | 5,1% | 4,6% |
En este caso, la distribución depende únicamente del sistema numérico, pero no de la unidad de medida. En otras palabras, si las toneladas se convierten en libras y los kilómetros cuadrados se convierten en acres , la distribución no cambia.
Por primera vez, el astrónomo estadounidense Simon Newcome notó la manifestación de esta ley en 1881. Descubrió que los libros que contenían tablas logarítmicas estaban gastados donde estaban los logaritmos de los números que comenzaban con uno, e intactos para los números que comenzaban con 9.
Este fenómeno fue redescubierto por el físico Frank Benford en 1938. Benford analizó unas 20 tablas, entre las que se encontraban datos sobre el área de la cuenca de 335 ríos, el calor específico y el peso molecular de miles de compuestos químicos, incluidos los números de las casas de las primeras 342 calles que figuran en el directorio. El análisis de los números mostró que la unidad es el primer dígito significativo con una probabilidad no de 1/9, como cabría esperar, sino de alrededor de 1/3.
Posteriormente, la ley de Benford recibió su explicación: es aplicable a conjuntos de números que pueden crecer exponencialmente (en otras palabras, la tasa de crecimiento de un valor es proporcional a su valor actual ). Por ejemplo, incluyen las facturas de electricidad, los saldos de inventario, los precios de las acciones, la población, las muertes, la longitud de los ríos, las áreas del país, las alturas de los edificios más altos del mundo.
La ley generalmente no se aplica a distribuciones con valores mínimos o máximos especificados (lista de empresas con ingresos entre $50,000 y $100,000). Las distribuciones que cubren sólo uno o dos órdenes de magnitud ( CI de adultos ) también son inapropiadas . La ley de Benford no se aplica a muchas letras (fig.). La cantidad de datos debe ser suficiente para la aplicación de métodos estadísticos.
La ley de Benford se puede explicar de muchas maneras.
La forma exacta de la Ley de Benford se puede explicar suponiendo que los logaritmos de los números se distribuyen uniformemente; por ejemplo, la probabilidad de encontrar un número entre 100 y 1000 (logaritmo entre 2 y 3) es la misma que entre 10 000 y 100 000 (logaritmo entre 4 y 5). Para muchos conjuntos de números, especialmente aquellos con un crecimiento exponencial , como las ganancias o los precios de las acciones, esta es una suposición razonable.
Por ejemplo, si la cantidad aumenta continuamente y se duplica cada año, será el doble del valor inicial después de un año, cuatro veces el valor inicial después de dos años, ocho veces el valor inicial después de tres años, etc. Cuando este número alcanza un valor de 100, tendrá una cifra significativa de 1 durante todo el año, llegando a 200 al final del primer año. Durante el próximo año, el valor aumentará de 200 a 400; la cifra significativa será 2 (el valor será de 200 a 300) durante algo más de siete meses (recuerda que estamos ante un crecimiento exponencial, es decir, de 200 a 300 la función crece “más despacio” que de 300 a 400 ) y 3 para los cinco meses restantes. En el tercer año, el dígito significativo pasará por 4, 5, 6 y 7, cada vez tardará menos en llegar al siguiente dígito, llegando a 800 al final de ese año. Al comienzo del cuarto año, el dígito significativo pasará de 8 a 9. El dígito significativo volverá a ser 1, cuando el valor llegue a 1000 y comience de nuevo, se necesita un año para duplicar el valor de 1000 a 2000. Esto El ejemplo demuestra que las tablas de datos que incluyen dimensiones con valores que crecen exponencialmente serán consistentes con la ley de Benford. Sin embargo, esta ley también es válida para muchos casos en los que el crecimiento exponencial no es evidente.
Esta ley puede explicarse alternativamente por el hecho de que si es cierto que el primer dígito tiene una distribución especial , entonces debe ser independiente de las cantidades en las que se mide. Esto significa que al convertir, por ejemplo, pies a yardas (multiplicando por una constante), la distribución debe permanecer sin cambios; esto es invariancia de escala , y la única distribución continua que cumple con este requisito es aquella en la que el logaritmo se distribuye uniformemente.
Por ejemplo, el primer dígito (distinto de cero) de la longitud o la distancia de un objeto debe tener la misma distribución ya sea que la medida esté en pies, yardas o cualquier otra cosa. Pero hay tres pies en una yarda, por lo que la probabilidad de que el primer dígito de la longitud en yardas sea 1 debe ser la misma que la probabilidad de que el primer dígito de la longitud en pies sea 3, 4 o 5. Aplicando esto a todas las escalas de medida posibles dan una distribución logarítmica, y dado que log 10 (1) = 0 y log 10 (10) = 1 da la ley de Benford. Es decir, si hay una distribución del primer dígito que es independiente de la unidad, la única distribución del primer dígito puede ser una que obedezca la ley de Benford.
Para números extraídos de una determinada distribución, como los valores de coeficiente intelectual, la altura de las personas u otras variables que siguen una distribución normal , la ley no se cumple. Sin embargo, si "baraja" números de muchas distribuciones similares, por ejemplo, tomando números de artículos de periódicos, la ley de Benford volverá a aparecer. Esto también se puede demostrar matemáticamente: si elige repetidamente "al azar" una distribución de probabilidad y luego elige al azar un número de acuerdo con esta distribución, la lista resultante obedecerá la ley de Benford [1] [2] [3] .
En la lista de los 58 edificios más altos del mundo en su categoría (a septiembre de 2010), el número "1" ocupa la primera posición con mucha más frecuencia que el número "9", independientemente de la unidad de medida:
primer dígito | metros | pies | ||
---|---|---|---|---|
Cantidad | % | Cantidad | % | |
una | 27 | 47,4% | 13 | 22,8% |
2 | ocho | 14,0% | ocho | 14,0% |
3 | 7 | 12,3% | ocho | 14,0% |
cuatro | 5 | 8,8% | 3 | 5,3% |
5 | 2 | 3,5% | catorce | 24,6% |
6 | 3 | 5,3% | 5 | 8,8% |
7 | 2 | 3,5% | 3 | 5,3% |
ocho | 3 | 5,3% | una | 1,8% |
9 | 0 | 0,0% | 2 | 3,5% |
La prueba de distribución de Benford se usa para detectar la manipulación maliciosa de datos, que incluye: