distribución del estudiante | |
---|---|
Designacion | |
Opciones | es el numero de grados de libertad |
Transportador | |
Densidad de probabilidad | |
función de distribución | donde esta la funcion hipergeométrica |
Valor esperado | , si |
Mediana | |
Moda | |
Dispersión | , si |
Coeficiente de asimetría | , si |
Coeficiente de curtosis | , si |
entropía diferencial |
|
Función generadora de momentos | no determinado |
La distribución de Student ( -distribución ) en la teoría de la probabilidad es una familia de un parámetro de distribuciones absolutamente continuas . William Seeley Gosset fue el primero en publicar artículos sobre esta distribución bajo el seudónimo de "Student".
La distribución de Student juega un papel importante en el análisis estadístico y se usa, por ejemplo, en la prueba t de Student para evaluar la significancia estadística de la diferencia entre dos medias de muestra, en la construcción de un intervalo de confianza para la expectativa matemática de una población normal con un valor desconocido . varianza, y también en el análisis de regresión lineal . La distribución t de Student también aparece en el análisis bayesiano de datos normalmente distribuidos .
La gráfica de densidad de la distribución de Student, al igual que la distribución normal, es simétrica y parece una campana, pero con colas más "pesadas", es decir, las realizaciones de una variable aleatoria con distribución de Student tienden a diferir mucho de la expectativa matemática . Esto hace que sea importante para comprender el comportamiento estadístico de ciertos tipos de razones de variables aleatorias en las que la desviación en el denominador es grande y puede producir valores atípicos cuando el denominador de la razón es cercano a cero.
La distribución de Student es un caso especial de la distribución hiperbólica generalizada .
En estadística , la distribución t se obtuvo por primera vez como una distribución posterior en 1876 por Friedrich Helmert [1] [2] [3] y Jakob Luroth [4] [5] [6] .
En la literatura en lengua inglesa, la distribución toma su nombre de un artículo de William Gosset en la revista Biometrics de Pearson , publicado bajo el seudónimo de "Student" [7] [8] .
Gosset trabajó en la fábrica de cerveza Guinness en Dublín , Irlanda , y aplicó su conocimiento de las estadísticas tanto en el proceso de elaboración como en los campos para desarrollar la variedad de cebada de mayor rendimiento. Los estudios se adaptaron a las necesidades de la empresa cervecera y se realizaron sobre un número reducido de observaciones, lo que sirvió de impulso para el desarrollo de métodos que funcionan con muestras pequeñas.
Gosset tuvo que ocultar su identidad al publicar debido al hecho de que anteriormente otro investigador que trabajaba para Guinness publicó información en sus materiales que era un secreto comercial de la empresa, luego de lo cual Guinness prohibió a sus empleados publicar cualquier material, independientemente de la información contenida en a ellos.
El artículo de Gosset describe la distribución como "La distribución de frecuencia de las desviaciones estándar de muestras extraídas de la población ". Se hizo famoso gracias al trabajo de Ronald Fisher , quien llamó a la distribución "Distribución del estudiante", y el valor - la letra t [9] .
Sean variables aleatorias normales estándar independientes tales que . Entonces la distribución de la variable aleatoria , donde
se llama distribución de Student con grados de libertad .
Esta distribución es absolutamente continua con la densidad :
,donde es la función gamma de Euler . De este modo:
incluso paray correspondientemente
para los impares .Además, la distribución de densidad de Student se puede expresar utilizando la función beta de Euler :
.La gráfica de la función de densidad de la distribución t es simétrica y su forma se asemeja a la forma de una campana, como la distribución normal estándar, pero es más baja y ancha.
Los siguientes gráficos reflejan la densidad de la distribución t a medida que aumenta el número de grados de libertad. Se puede observar que a medida que , la curva de la función de densidad se parece cada vez más a la distribución normal estándar.
La función de distribución se puede expresar en términos de una función beta incompleta regularizada . para ,
donde [10]Para el valor se puede obtener debido a la simetría de la distribución.
Otra fórmula es correcta para [10] :
,donde 2 F 1 es un caso especial de la función hipergeométrica .
coincide con la densidad de probabilidad de la distribución normal estándar.
La distribución de Student con grados de libertad se puede definir como la distribución de una variable aleatoria [10] [11]
,dónde
Sean, , variables aleatorias independientes con distribución normal ,
es la media de la muestra,
es la estimación no sesgada de la varianza.Entonces la variable aleatoria
tiene una distribución chi-cuadrado con grados de libertad [12] .
La variable aleatoria tiene una distribución normal estándar , ya que la media muestral tiene una distribución normal . Además, se puede demostrar que estas dos variables aleatorias (normal y chi-cuadrado ) son independientes.
Sustituye los valores resultantes en el valor
,que tiene una distribución de Student y se diferencia en que la desviación estándar se sustituye por una variable aleatoria , . Tenga en cuenta que la varianza desconocida no aparece en , ya que estaba tanto en el numerador como en el denominador. Gosset obtuvo intuitivamente la densidad de probabilidad establecida anteriormente, donde corresponde a ; Fischer demostró esto en 1925 [9] .
La distribución del estadístico de criterio depende pero no depende de μ o σ 2 , lo que hace que la distribución sea importante tanto en la teoría como en la práctica.
La distribución de Student surge en relación con la distribución de la varianza muestral . Sean variables aleatorias independientes tales que . Denotemos la media muestral de esta muestra y su varianza muestral . Después
.Relacionado con este hecho está el uso de la distribución t de Student en estadística para la estimación puntual , la construcción de intervalos de confianza y la prueba de hipótesis sobre una media muestra desconocida de una distribución normal.
En las estadísticas bayesianas, una distribución t no central ocurre como una distribución marginal del coeficiente de distribución normal .
La dependencia de la varianza desconocida se expresa en términos de:
donde está el dato { x i } y es cualquier otra información que podría usarse para crear el modelo.
Cuando los datos no son informativos , el teorema de Bayes implica
distribución normal y distribución chi-cuadrada inversa escalada, donde
.La integral marginada en este caso tiene la forma
después de reemplazar , donde ,
obtenemos
y evaluación
ahora la integral gamma estándar, que se evalúa como una constante
esta es una distribución t no estandarizada.
Usando el reemplazo , obtenemos una distribución t estandarizada.
La derivación anterior se presentó para el caso de un previo no informativo para y ; pero es obvio que cualquier probabilidad previa conduce a una mezcla de la distribución normal y la distribución chi-cuadrada inversa escalada, que una distribución t no central con escala y un sesgo por , el parámetro de escala estará influenciado por la distribución previa información y datos, y no sólo los datos, como en el ejemplo anterior.
La distribución t de Student se puede generalizar a una familia de funciones con tres parámetros, incluidos un factor de desplazamiento y un factor de escala , a través de la relación
o
,donde es la distribución de Student clásica con grados de libertad.
La densidad de la distribución de Student no estandarizada es una distribución reparametrizada de Pearson tipo VII y está determinada por la siguiente expresión [13]
Aquí no está la desviación estándar, como en la distribución normal, es, en términos generales, un parámetro de escala diferente. Sin embargo, en , la densidad de distribución de Pearson tipo VII tiende a una densidad de distribución normal con una desviación estándar de .
En la inferencia bayesiana, la distribución marginal de la media desconocida es mayor que , y corresponde a , donde
para ,
por
Esta distribución es el resultado de la combinación de una distribución gaussiana (distribución normal) con media y varianza desconocida, con una distribución gamma inversa, con una varianza con parámetros y . En otras palabras, se supone que la variable aleatoria X tiene una distribución normal con una varianza desconocida distribuida como una gamma inversa, y luego se elimina la varianza. Esta propiedad es útil porque la distribución gamma inversa es el conjugado anterior de la varianza de la distribución gaussiana, razón por la cual la distribución t de Student no estandarizada ocurre naturalmente en muchos problemas bayesianos.
De manera equivalente, esta distribución es el resultado de una combinación de una distribución gaussiana con una distribución chi-cuadrado inversa escalada con parámetros y . La distribución chi-cuadrado inversa escalada es exactamente la misma distribución que la distribución gamma inversa, pero con una parametrización diferente, a saber .
Una parametrización alternativa basada en el parámetro de escala inversa λ [14] (similar a cómo la medida de precisión es la inversa de la varianza) definida por la relación ,
entonces la densidad se define como
Propiedades:
para ,
por
Esta distribución es el resultado de la combinación de una distribución gaussiana con media y una medida de precisión desconocida (varianza inversa), con una distribución gamma con parámetros y . En otras palabras, se supone que la variable aleatoria X tiene una distribución normal con una medida de precisión desconocida distribuida por gamma.
El t-t no central es una forma de generalizar el t-t estándar al incluir un factor de cambio adicional (parámetro de no centralidad) .
En la distribución de Student no central, la mediana no coincide con la moda, es decir no es simétrico (a diferencia de lo no estandarizado).
Esta distribución es importante para estudiar el poder estadístico de la prueba t de Student.
La distribución t de Student discreta tiene la siguiente función de distribución con r proporcional: [15]
Donde a , b y k son parámetros. Tal distribución surge cuando se trata de sistemas de distribuciones discretas como la distribución de Pearson . [dieciséis]
Podemos obtener una muestra con una distribución t tomando la relación de valores de la distribución normal y la raíz cuadrada de la distribución chi-cuadrado.
donde son variables aleatorias normales estándar independientes tales que
Si en lugar de una distribución normal, tomamos, por ejemplo, Irwin-Hall , obtenemos una distribución simétrica con 4 parámetros, que incluye normal, uniforme, triangular, así como las distribuciones de Student y Cauchy; por tanto, esta generalización es más flexible que muchas otras generalizaciones simétricas de la distribución gaussiana.
Algunas estadísticas pueden tener una distribución t de Student en tamaños de muestra pequeños, por lo que la distribución t de Student forma la base de las pruebas de significación. Por ejemplo, la prueba de correlación de rangos de Spearman ρ , en el caso cero (correlación cero) se aproxima bien mediante una distribución t de Student con un tamaño de muestra superior a 20.
La t-t de Student se puede utilizar para estimar la probabilidad de que la media verdadera esté en un rango dado.
Supongamos que el número A se elige de modo que
.
Entonces T tiene una distribución t con n – 1 grados de libertad. En virtud de la simetría de la distribución, esto equivale a decir que A satisface
o , entonces
que es equivalente a
por tanto, un intervalo con un límite de confianza en puntos es un intervalo de confianza del 90 % para μ. Por lo tanto, si encontramos la media de un conjunto de observaciones (normalmente distribuidas), podemos usar la distribución t de Student para determinar si los límites de confianza en esa media incluyen algún valor predicho teóricamente, como el valor predicho a partir de la hipótesis nula.
Este enfoque se toma en la prueba t de Student : si la diferencia entre las medias de las muestras de dos distribuciones normales puede distribuirse normalmente, la t de Student se puede usar para investigar si esta diferencia puede considerarse cero con un alto grado. de probabilidad
Para muestras distribuidas normalmente, el límite de confianza superior (UCL) de una cola (1− a ) de la media es
.
El límite de confianza superior resultante será la media más grande para el intervalo de confianza y el tamaño de muestra dados. En otras palabras, si la media de un conjunto de observaciones, la probabilidad de que la media de la distribución produzca es igual a un nivel de significación de 1– a.
La distribución t de Student se puede utilizar para obtener un intervalo de predicción para una muestra no observada de una distribución normal con media y varianza desconocidas.
La distribución t de Student, especialmente la no central, aparece a menudo en las estadísticas bayesianas como resultado de la asociación con la distribución normal.
De hecho, si no conocemos la varianza de una variable aleatoria distribuida normalmente, pero conocemos la distribución previa conjugada, será posible elegir una distribución gamma tal que los valores resultantes tengan una distribución de Student.
Las construcciones equivalentes con los mismos resultados incluyen la distribución de chi-cuadrado inversa escalada conjugada. Si la distribución anterior incorrecta, proporcional a , se encuentra por encima de la varianza, también se produce una distribución de Student. Esto ocurre independientemente de si se conoce o no la media de una cantidad distribuida normalmente distribuida con una distribución previa conjugada.
La distribución t de Student se usa a menudo como una alternativa a la distribución normal para un modelo de datos. [18] Esto se debe a que los datos reales a menudo tienen colas más pesadas de lo que permitiría la distribución normal. El enfoque clásico es identificar valores atípicos y eliminarlos (o reducir su peso). Sin embargo, no siempre es fácil definir un valor atípico (especialmente en problemas de alta dimensión ), y la distribución t de Student es una opción natural para proporcionar un enfoque paramétrico a las estadísticas sólidas .
Lange y otros han explorado el uso de la distribución de Student para el modelado de datos robusto. El cálculo bayesiano se encuentra en Gelman et al.
El número de grados de libertad controla la curtosis de la distribución y se correlaciona con el parámetro de escala.
Sea la integral de la función de densidad de probabilidad de Student, la probabilidad de que el valor de t sea menor que el valor calculado a partir de los datos observacionales.
La función se puede utilizar para probar si la diferencia entre las medias de dos conjuntos de datos tomados de la misma población es estadísticamente significativa, esto se logra calculando el valor correspondiente de t y la probabilidad de que ocurra.
Esto se usa, por ejemplo, en la prueba T de Student . Para una distribución t con grados de libertad, es la probabilidad de que t sea menor que el valor observado si los dos valores medios fueran iguales. Se puede calcular fácilmente a partir de la función de distribución acumulativa de la distribución de Student:
donde I x - función beta incompleta regularizada (a, b).
En las pruebas de hipótesis estadísticas, esta función se utiliza para construir un valor p .
Existen diferentes enfoques para obtener variables aleatorias a partir de la distribución de Student. Todo depende de si se requieren muestras independientes o se pueden construir aplicando la función de distribución inversa sobre una muestra con una distribución uniforme.
En el caso de una muestra independiente, es fácil aplicar una extensión del método Box-Muller en su forma polar (trigonométrica) [19] . La ventaja de este método es que se aplica por igual a todos los grados de libertad positivos , mientras que muchos otros métodos no funcionarán si está cerca de cero. [19]
La distribución de densidad de Student se puede obtener resolviendo la siguiente ecuación diferencial :
Muchos libros de texto sobre estadística incluyen tablas de distribución de estudiantes.
En estos días, la mejor manera de obtener un valor t crítico completamente preciso, o probabilidad acumulada, es usar una función estadística integrada en hojas de cálculo (Office Excel, OpenOffice Calc, etc.) o una calculadora web interactiva. Las funciones de hoja de cálculo requeridas son TDIST y TINV.
La siguiente tabla incluye los valores de algunos valores para las distribuciones de Student con v grados de libertad para varias regiones críticas unilaterales o bilaterales .
Como ejemplo de cómo leer esta tabla, tomemos la cuarta fila, que comienza en 4; esto significa que v, el número de grados de libertad, es 4 (y si trabajamos, como se muestra arriba, con n cantidades de suma fija, entonces n = 5). Tomemos el quinto valor en la columna 95% para un lado (90% para dos lados ). El valor es "2.132". Por lo tanto, la probabilidad de que T sea menor que 2,132 es del 95 % o Pr(−∞ < T < 2,132) = 0,95; esto también significa que Pr(−2.132 < T < 2.132) = 0.9.
Esto se puede calcular a partir de la simetría de la distribución,
Pr( T < −2,132) = 1 − Pr( T > −2,132) = 1 − 0,95 = 0,05,obtenemos
Pr(−2,132 < T < 2,132) = 1 − 2(0,05) = 0,9.Tenga en cuenta que la última fila también proporciona puntos críticos: una distribución t de Student con un número infinito de grados es una distribución normal.
La primera columna muestra el número de grados de libertad.
unilateral | 75% | 80% | 85% | 90% | 95% | 97,5% | 99% | 99,5% | 99,75% | 99,9% | 99,95% |
---|---|---|---|---|---|---|---|---|---|---|---|
bilateral | cincuenta% | 60% | 70% | 80% | 90% | 95% | 98% | 99% | 99,5% | 99,8% | 99,9% |
una | 1.000 | 1.376 | 1.963 | 3.078 | 6.314 | 12.71 | 31.82 | 63.66 | 127.3 | 318.3 | 636.6 |
2 | 0.816 | 1.080 | 1.386 | 1.886 | 2.920 | 4.303 | 6.965 | 9.925 | 14.09 | 22.33 | 31.60 |
3 | 0.765 | 0.978 | 1.250 | 1.638 | 2.353 | 3.182 | 4.541 | 5.841 | 7.453 | 10.21 | 12.92 |
cuatro | 0.741 | 0.941 | 1.190 | 1.533 | 2.132 | 2.776 | 3.747 | 4.604 | 5.598 | 7.173 | 8.610 |
5 | 0.727 | 0.920 | 1.156 | 1.476 | 2.015 | 2.571 | 3.365 | 4.032 | 4.773 | 5.893 | 6.869 |
6 | 0.718 | 0.906 | 1.134 | 1.440 | 1.943 | 2.447 | 3.143 | 3.707 | 4.317 | 5.208 | 5.959 |
7 | 0.711 | 0.896 | 1.119 | 1.415 | 1.895 | 2.365 | 2.998 | 3.499 | 4.029 | 4.785 | 5.408 |
ocho | 0.706 | 0.889 | 1.108 | 1.397 | 1.860 | 2.306 | 2.896 | 3.355 | 3.833 | 4.501 | 5.041 |
9 | 0.703 | 0.883 | 1.100 | 1.383 | 1.833 | 2.262 | 2.821 | 3.250 | 3.690 | 4.297 | 4.781 |
diez | 0.700 | 0.879 | 1.093 | 1.372 | 1.812 | 2.228 | 2.764 | 3.169 | 3.581 | 4.144 | 4.587 |
once | 0.697 | 0.876 | 1.088 | 1.363 | 1.796 | 2.201 | 2.718 | 3.106 | 3.497 | 4.025 | 4.437 |
12 | 0.695 | 0.873 | 1.083 | 1.356 | 1.782 | 2.179 | 2.681 | 3.055 | 3.428 | 3.930 | 4.318 |
13 | 0.694 | 0.870 | 1.079 | 1.350 | 1.771 | 2.160 | 2.650 | 3.012 | 3.372 | 3.852 | 4.221 |
catorce | 0.692 | 0.868 | 1.076 | 1.345 | 1.761 | 2.145 | 2.624 | 2.977 | 3.326 | 3.787 | 4.140 |
quince | 0.691 | 0.866 | 1.074 | 1.341 | 1.753 | 2.131 | 2.602 | 2.947 | 3.286 | 3.733 | 4.073 |
dieciséis | 0.690 | 0.865 | 1.071 | 1.337 | 1.746 | 2.120 | 2.583 | 2.921 | 3.252 | 3.686 | 4.015 |
17 | 0.689 | 0.863 | 1.069 | 1.333 | 1.740 | 2.110 | 2.567 | 2.898 | 3.222 | 3.646 | 3.965 |
Dieciocho | 0.688 | 0.862 | 1.067 | 1.330 | 1.734 | 2.101 | 2.552 | 2.878 | 3.197 | 3.610 | 3.922 |
19 | 0.688 | 0.861 | 1.066 | 1.328 | 1.729 | 2.093 | 2.539 | 2.861 | 3.174 | 3.579 | 3.883 |
veinte | 0.687 | 0.860 | 1.064 | 1.325 | 1.725 | 2.086 | 2.528 | 2.845 | 3.153 | 3.552 | 3.850 |
21 | 0.686 | 0.859 | 1.063 | 1.323 | 1.721 | 2.080 | 2.518 | 2.831 | 3.135 | 3.527 | 3.819 |
22 | 0.686 | 0.858 | 1.061 | 1.321 | 1.717 | 2.074 | 2.508 | 2.819 | 3.119 | 3.505 | 3.792 |
23 | 0.685 | 0.858 | 1.060 | 1.319 | 1.714 | 2.069 | 2.500 | 2.807 | 3.104 | 3.485 | 3.767 |
24 | 0.685 | 0.857 | 1.059 | 1.318 | 1.711 | 2.064 | 2.492 | 2.797 | 3.091 | 3.467 | 3.745 |
25 | 0.684 | 0.856 | 1.058 | 1.316 | 1.708 | 2.060 | 2.485 | 2.787 | 3.078 | 3.450 | 3.725 |
26 | 0.684 | 0.856 | 1.058 | 1.315 | 1.706 | 2.056 | 2.479 | 2.779 | 3.067 | 3.435 | 3.707 |
27 | 0.684 | 0.855 | 1.057 | 1.314 | 1.703 | 2.052 | 2.473 | 2.771 | 3.057 | 3.421 | 3.690 |
28 | 0.683 | 0.855 | 1.056 | 1.313 | 1.701 | 2.048 | 2.467 | 2.763 | 3.047 | 3.408 | 3.674 |
29 | 0.683 | 0.854 | 1.055 | 1.311 | 1.699 | 2.045 | 2.462 | 2.756 | 3.038 | 3.396 | 3.659 |
treinta | 0.683 | 0.854 | 1.055 | 1.310 | 1.697 | 2.042 | 2.457 | 2.750 | 3.030 | 3.385 | 3.646 |
40 | 0.681 | 0.851 | 1.050 | 1.303 | 1.684 | 2.021 | 2.423 | 2.704 | 2.971 | 3.307 | 3.551 |
cincuenta | 0.679 | 0.849 | 1.047 | 1.299 | 1.676 | 2.009 | 2.403 | 2.678 | 2.937 | 3.261 | 3.496 |
60 | 0.679 | 0.848 | 1.045 | 1.296 | 1.671 | 2.000 | 2.390 | 2.660 | 2.915 | 3.232 | 3.460 |
80 | 0.678 | 0.846 | 1.043 | 1.292 | 1.664 | 1.990 | 2.374 | 2.639 | 2.887 | 3.195 | 3.416 |
100 | 0.677 | 0.845 | 1.042 | 1.290 | 1.660 | 1.984 | 2.364 | 2.626 | 2.871 | 3.174 | 3.390 |
120 | 0.677 | 0.845 | 1.041 | 1.289 | 1.658 | 1.980 | 2.358 | 2.617 | 2.860 | 3.160 | 3.373 |
∞ | 0.674 | 0.842 | 1.036 | 1.282 | 1.645 | 1.960 | 2.326 | 2.576 | 2.807 | 3.090 | 3.291 |
Por ejemplo, si nos dan una muestra con una varianza muestral de 2 y una media muestral de 10 extraída de un conjunto muestral de 11 (10 grados de libertad), usando la fórmula
Podemos determinar con un 90% de confianza que la verdadera media es:
(es decir, en promedio, el 90 % de las veces el límite superior es mayor que la media real)
y, aún con un 90% de certeza, encontramos una media verdadera mayor que
(En promedio, el 90 % de las veces el límite inferior es menor que la media real)
Entonces con un 80% de certeza (1-2*(1-90%) = 80%) encontramos el valor verdadero en el intervalo
En otras palabras, el 80% de las veces la verdadera media está por debajo del límite superior y por encima del límite inferior.
Esto no es equivalente a decir que hay un 80% de posibilidades de que la verdadera media se encuentre entre cierto par de límites superior e inferior.
Una generalización de la distribución de Student es la distribución hiperbólica generalizada .
diccionarios y enciclopedias |
---|
Distribuciones de probabilidad | |
---|---|
Discreto | |
Absolutamente continuo |