No debe confundirse con el coeficiente de determinación.
En teoría de probabilidad y estadística , el coeficiente de variación , también conocido como desviación estándar relativa , es una medida estándar de la varianza de una distribución de probabilidad o frecuencia. A menudo se expresa como un porcentaje y se define como la relación entre la desviación estándar σ y la media μ. CV o RSD se utilizan ampliamente en química analítica para expresar la precisión y repetibilidad de un análisis. También se utilizan a menudo en ingeniería y física, en la investigación de control de calidad. Además, CV es utilizado por economistas e inversores en modelos económicos.
El coeficiente de variación se define como la relación entre la desviación estándar σ y la media μ: c v = [1] . Muestra el grado de variabilidad en relación con la media muestral. El coeficiente de variación solo debe calcularse para datos medidos en una escala de razón, es decir, escalas que tienen un cero significativo y, por lo tanto, permiten una comparación relativa de dos mediciones. El coeficiente de variación puede no tener significado para los datos de escala de intervalo . Por ejemplo, la mayoría de las escalas de temperatura (por ejemplo, Celsius, Fahrenheit, etc.) son escalas de intervalo con ceros arbitrarios, por lo que el coeficiente de variación calculado diferirá según la escala utilizada. Por otro lado, la temperatura Kelvin tiene un cero significativo, la ausencia total de energía térmica y, por lo tanto, es una escala de proporción. En términos simples, tiene sentido decir que 20 kelvins es el doble de caliente que 10 kelvins, pero solo en esta escala con el verdadero cero absoluto. Aunque la desviación estándar se puede medir en Kelvin, Celsius o Fahrenheit, el valor calculado solo se aplica a esa escala. Solo se puede usar la escala Kelvin para calcular el coeficiente de variación real.
Las medidas que se distribuyen logarítmicamente muestran un CV estacionario; por el contrario, el RCC varía en función del valor esperado de las medidas.
Una posibilidad más robusta es el coeficiente de varianza del cuartil , la mitad del rango intercuartil dividido por la media de los cuartiles. En la mayoría de los casos, el CV se calcula para una única variable independiente (por ejemplo, un producto de fábrica) con múltiples mediciones repetidas de la variable dependiente (por ejemplo, un error en el proceso de fabricación). Sin embargo, los datos que son lineales o incluso logarítmicamente no lineales e incluyen un rango continuo para la variable independiente con mediciones dispersas en cada valor (p. ej., diagrama de dispersión) pueden ser aptos para un solo cálculo de LR utilizando el enfoque de estimación de máxima verosimilitud .
El conjunto de datos [100, 100, 100] tiene valores constantes. Su desviación estándar muestral es 0 y su media es 100, dando el coeficiente de variación:
0 / 100 = 0
El conjunto de datos [90, 100, 110] tiene una mayor variabilidad. Su desviación estándar muestral es 10 y su media es 100, dando el coeficiente de variación:
10 / 100 = 0,1
El conjunto de datos [1, 5, 6, 8, 10, 40, 65, 88] tiene aún más variabilidad. Su desviación estándar muestral es 32,9 y su media es 27,9, dando el coeficiente de variación:
32,9 / 27,9 = 1,18
La comparación de coeficientes de variación entre parámetros utilizando unidades relativas puede dar lugar a diferencias que pueden no ser realistas. Si comparamos el mismo conjunto de temperaturas en Celsius y Fahrenheit (ambas unidades relativas, donde Kelvin y Rankine son sus respectivos valores absolutos):
Celsius: [0, 10, 20, 30, 40]
Fahrenheit: [32, 50, 68, 86, 104]
Las desviaciones estándar son 15,81 y 28,46, respectivamente. El CV del primer conjunto es 15,81/20 = 79%.
Para el segundo conjunto (a las mismas temperaturas) es 28,46/68 = 42%.
Si, por ejemplo, los conjuntos de datos son lecturas de temperatura de dos sensores diferentes (un sensor Celsius y un sensor Fahrenheit) y desea saber qué sensor es mejor eligiendo el que tiene la desviación más pequeña, se equivocará si están usando CV. El problema aquí es que has dividido por una cantidad relativa, no absoluta.
Comparación del mismo conjunto de datos, ahora en unidades absolutas:
Según Kelvin: [273.15, 283.15, 293.15, 303.15, 313.15]
Según Rankin: [491.67, 509.67, 527.67, 545.67, 563.67]
Las desviaciones estándar de la muestra siguen siendo 15,81 y 28,46, respectivamente, porque la desviación estándar no se ve afectada por el sesgo constante. Sin embargo, los coeficientes de variación ahora son del 5,39%.
Desde un punto de vista matemático, el coeficiente de variación no es completamente lineal. Es decir, para una variable aleatoria X , el coeficiente de variación aX + b es igual al coeficiente de variación X solo cuando b = 0 . En el ejemplo anterior, los grados Celsius solo se pueden convertir a grados Fahrenheit mediante una transformación lineal de la forma ax + b con b ≠ 0, mientras que los grados Kelvin se pueden convertir a grados Rankine mediante una transformación lineal ax.
Cuando solo se dispone de una muestra de datos de una población, el CV de la población se puede estimar usando la relación entre la desviación estándar de la muestra s y la media de la muestra x :
c v =
Pero esta estimación, aplicada a una muestra pequeña o mediana, tiende a ser demasiado imprecisa: es una estimación sesgada . Para datos normalmente distribuidos , el estimador insesgado para una muestra de tamaño n es:
En muchas aplicaciones, se puede suponer que los datos se distribuyen de forma logarítmica normal (indicado por la presencia de asimetría en la muestra de datos). En tales casos, se obtiene una estimación más precisa a partir de las propiedades de la distribución lognormal , que se define como:
donde es la desviación estándar muestral de los datos después de transformar el logaritmo natural de .
El coeficiente de variación es útil porque la desviación estándar de los datos siempre debe entenderse en el contexto de la media de los datos. Por el contrario, el valor CV real no depende de la unidad de medida, por lo que es un número adimensional. Para comparar conjuntos de datos con diferentes unidades de medida o medios muy diferentes, utilice el coeficiente de variación en lugar de la desviación estándar.
El coeficiente de variación también es común en áreas aplicadas de probabilidad como la teoría de renovación , la teoría de colas y la teoría de confiabilidad . En estas áreas , la distribución exponencial suele ser más importante que la distribución normal . La desviación estándar de una distribución exponencial es igual a su media, por lo que el coeficiente de variación es 1. Se considera que las distribuciones con CV < 1 (por ejemplo, la distribución de Erlang ) tienen una varianza baja, mientras que las distribuciones con CV > 1 (por ejemplo, , la distribución hiperexponencial ) se considera que tienen una varianza alta . Algunas de las fórmulas de estos campos se expresan en términos del coeficiente de variación al cuadrado, a menudo abreviado como KCV. Esencialmente, CV reemplaza el término desviación estándar con desviación estándar. Si bien muchos procesos naturales muestran una correlación entre la media y la cantidad de variación a su alrededor, los dispositivos sensores de precisión deben diseñarse de modo que el coeficiente de variación sea cercano a cero, es decir, proporcione un error absoluto constante en su rango operativo.
En los cálculos actuariales , el CV se conoce como riesgo unificado .
En el procesamiento industrial de sólidos, el CV es especialmente importante para medir el grado de homogeneidad de una mezcla en polvo. La comparación del CV calculado con la especificación determinará si se ha logrado una mezcla suficiente.
El coeficiente de variación satisface los requisitos para medir la desigualdad económica . Si x (con elementos x i ) es una lista de valores de un indicador económico (por ejemplo, la riqueza), y x i es la riqueza del agente i, entonces se cumplen los siguientes requisitos:
1. Anonimato — c v no depende del orden de la lista x. Esto se sigue del hecho de que la varianza y la media no dependen del orden de la lista x.
2. c v (x)=c v (αx), donde α es un número real .
3. Si {x, x} es una lista x adjunta a sí misma, entonces c v ({x, x})=c v (x).
4. El principio de transferencia de Pigou-Dalton: cuando la riqueza se transfiere de un agente más rico i a un agente más pobre j (es decir, x i > x j ) sin cambiar su rango, entonces c v disminuye y viceversa.
c v toma su valor mínimo igual a cero para la igualdad completa (todos los x i son iguales). La desventaja más notable es que no está acotado desde arriba, por lo que no se puede normalizar para que esté dentro de un rango fijo (como el coeficiente de Gini , que está acotado entre 0 y 1). Sin embargo, se presta mejor al análisis, en contraste con el coeficiente de Gini.
Dado que los valores negativos y positivos pequeños de la media de la muestra ocurren con una frecuencia despreciable, Hendrix y Roby demostraron la distribución de probabilidad del coeficiente de variación para una muestra de tamaño n :
donde el símbolo ∑ indica que la suma termina solo con valores pares de n−1-i , es decir, si n es impar, suma sobre valores pares de i, y si n es par , suma solo sobre valores impares de i.
Esto es útil cuando se construyen hipótesis estadísticas o intervalos de confianza. La inferencia estadística del coeficiente de variación en datos distribuidos normalmente se basa a menudo en la aproximación de chi-cuadrado de McKay para el coeficiente de variación .
Los momentos estandarizados son relaciones similares , donde estos son los k-ésimos momentos con respecto a la media, que también son adimensionales e invariantes de escala. La razón de la varianza a la media, , es otra razón similar, pero que no es adimensional. Ver normalización para más relaciones .
Otras proporciones relevantes incluyen:
1. rendimiento ,
2. Momento estandarizado ,
3. índice de varianza ,
4. Factor Fano ,