Distribución del estudiante

distribución del estudiante
Densidad de probabilidad
función de distribución
Designacion	${\ matemáticas {t)} (n)$
Opciones	$n>0$ es el numero de grados de libertad
Transportador	$x\in (-\infty;+\infty)$
Densidad de probabilidad	${\frac {\Gamma ({\frac {n+1}{2)))}{{\sqrt {n\pi }}\,\Gamma ({\frac {n}{2))) \,(1+{\frac{x^{2}}{n}})^{\frac{n+1}{2}}}}$
función de distribución	${\frac {1}{2}}+{x\Gamma \left({\frac {n+1}{2}}\right)}\times$ ${\frac {\,_{2}F_{1}\left({\frac {1}{2)),{\frac {n+1}{2));{\frac {3} {2));-{\frac {x^{2}}{n}}\right)}{{\sqrt {\pi n}}\,\Gamma ({\frac {n}{2}}) }}$ donde esta la funcion hipergeométrica ${\ estilo de visualización _ {2} F_ {1}}$
Valor esperado	${\ estilo de visualización 0}$ , si $n>1$
Mediana	${\ estilo de visualización 0}$
Moda	${\ estilo de visualización 0}$
Dispersión	${\frac{n}{n-2))$ , si $n>2$
Coeficiente de asimetría	${\ estilo de visualización 0}$ , si $n>3$
Coeficiente de curtosis	${\ estilo de visualización {\ fracción {6} {n-4}}}$ , si $n>4$
entropía diferencial	${\begin{matriz}{\frac {n+1}{2}}\left[\psi ({\frac {1+n}{2}})-\psi ({\frac {n}{2} })\right]\\[0.5em]+\log {\left[{\sqrt {n}}B({\frac {n}{2}},{\frac {1}{2}})\ derecha]}\end{matriz}}$ $\psi =\Gamma '/\Gamma$ , $B$ : función beta
Función generadora de momentos	no determinado

La distribución de Student ( -distribución ) en la teoría de la probabilidad es una familia de un parámetro de distribuciones absolutamente continuas . William Seeley Gosset fue el primero en publicar artículos sobre esta distribución bajo el seudónimo de "Student". $t$

La distribución de Student juega un papel importante en el análisis estadístico y se usa, por ejemplo, en la prueba t de Student para evaluar la significancia estadística de la diferencia entre dos medias de muestra, en la construcción de un intervalo de confianza para la expectativa matemática de una población normal con un valor desconocido . varianza, y también en el análisis de regresión lineal . La distribución t de Student también aparece en el análisis bayesiano de datos normalmente distribuidos .

La gráfica de densidad de la distribución de Student, al igual que la distribución normal, es simétrica y parece una campana, pero con colas más "pesadas", es decir, las realizaciones de una variable aleatoria con distribución de Student tienden a diferir mucho de la expectativa matemática . Esto hace que sea importante para comprender el comportamiento estadístico de ciertos tipos de razones de variables aleatorias en las que la desviación en el denominador es grande y puede producir valores atípicos cuando el denominador de la razón es cercano a cero.

La distribución de Student es un caso especial de la distribución hiperbólica generalizada .

Historia y etimología

En estadística , la distribución t se obtuvo por primera vez como una distribución posterior en 1876 por Friedrich Helmert [1] [2] [3] y Jakob Luroth [4] [5] [6] .

En la literatura en lengua inglesa, la distribución toma su nombre de un artículo de William Gosset en la revista Biometrics de Pearson , publicado bajo el seudónimo de "Student" [7] [8] .

Gosset trabajó en la fábrica de cerveza Guinness en Dublín , Irlanda , y aplicó su conocimiento de las estadísticas tanto en el proceso de elaboración como en los campos para desarrollar la variedad de cebada de mayor rendimiento. Los estudios se adaptaron a las necesidades de la empresa cervecera y se realizaron sobre un número reducido de observaciones, lo que sirvió de impulso para el desarrollo de métodos que funcionan con muestras pequeñas.

Gosset tuvo que ocultar su identidad al publicar debido al hecho de que anteriormente otro investigador que trabajaba para Guinness publicó información en sus materiales que era un secreto comercial de la empresa, luego de lo cual Guinness prohibió a sus empleados publicar cualquier material, independientemente de la información contenida en a ellos.

El artículo de Gosset describe la distribución como "La distribución de frecuencia de las desviaciones estándar de muestras extraídas de la población ". Se hizo famoso gracias al trabajo de Ronald Fisher , quien llamó a la distribución "Distribución del estudiante", y el valor - la letra t [9] .

Definición

Sean variables aleatorias normales estándar independientes tales que . Entonces la distribución de la variable aleatoria , donde $Y_{0},Y_{1},\ldots,Y_{n}$ $Y_{i}\sim {\mathcal {N))(0,1),\;i=0,\ldots,n$ $t$

t={\frac {Y_{0}}{{\sqrt {{\frac {1}{n}}\sum \limits _{{i=1}}^{n}Y_{i}^{2} }}}},

se llama distribución de Student con grados de libertad . $norte$ $t\sim {\matemáticas {t}}(n)$

Esta distribución es absolutamente continua con la densidad :

f_{t}(y)={\frac {\Gamma \left({\frac {n+1}{2}}\right)}{{\sqrt {n\pi }}\,\Gamma \left({\frac {n}{2}}\right)}}\,\left(1+{\frac {y^{2}}{n}}\right)^{-{\frac {n +1}{2}}}

donde es la función gamma de Euler . De este modo: $\Gama$

{\frac {\Gamma ({\frac {n+1}{2)))}{{\sqrt {n\pi }}\,\Gamma ({\frac {n}{2))) }}={\frac {(n-1)(n-3)\cdots 5\cdot 3}{2{\sqrt {n}}(n-2)(n-4)\cdots 4\cdot 2\ ,}},

incluso para

norte

y correspondientemente

{\frac {\Gamma ({\frac {n+1}{2)))}{{\sqrt {n\pi }}\,\Gamma ({\frac {n}{2))) }}={\frac{(n-1)(n-3)\cdots 4\cdot 2}{\pi {\sqrt {n}}(n-2)(n-4)\cdots 5\cdot 3 \,}},

para los impares .

norte

Además, la distribución de densidad de Student se puede expresar utilizando la función beta de Euler : ${\ estilo de visualización \ mathrm {B}}$

f_{t}(y)={\frac {1}({\sqrt {n))\,\mathrm {B} ({\frac {1}{2)),{\frac {n} {2))))\left(1+{\frac {y^{2}}{n}}\right)^{\!-{\frac {n+1}{2}}}

La gráfica de la función de densidad de la distribución t es simétrica y su forma se asemeja a la forma de una campana, como la distribución normal estándar, pero es más baja y ancha.

Los siguientes gráficos reflejan la densidad de la distribución t a medida que aumenta el número de grados de libertad. Se puede observar que a medida que , la curva de la función de densidad se parece cada vez más a la distribución normal estándar. $norte$ $norte$

Densidad de la distribución t (línea roja) para 1, 2, 3, 5, 10 y 30 grados de libertad
en comparación con la distribución normal estándar (línea azul). Los gráficos anteriores se muestran en verde.

Función de distribución

La función de distribución se puede expresar en términos de una función beta incompleta regularizada . para , $yo$ ${\ estilo de visualización t> 0}$

F(t)=\int _{-\infty }^{t}f(u)\,du=1-{\tfrac {1}{2}}I_{x(t)}\left( {\tfrac {n}{2)),{\tfrac {1}{2}}\derecha),

donde [10]

x(t)={\frac {n}{t^{2}+n)).

Para el valor se puede obtener debido a la simetría de la distribución. ${\ estilo de visualización t <0}$

Otra fórmula es correcta para [10] : $t^{2}<n$

\int _{-\infty}^{t}f(u)\,du={\tfrac {1}{2}}+t{\frac {\Gamma \left({\tfrac {1} {2}}(n+1)\right)}{{\sqrt {\pi n}}\,\Gamma \left({\tfrac {n}{2}}\right))){}_{2 }F_{1}\left({\tfrac {1}{2)),{\tfrac {1}{2}}(n+1);{\tfrac {3}{2));-{\tfrac {t^{2}}{n}}\derecho)

donde 2 F 1 es un caso especial de la función hipergeométrica .

Casos especiales

La distribución de Student con un grado de libertad ( ) es la distribución estándar de Cauchy . ${\ estilo de visualización n = 1}$

Función de distribución:

F(t)={\tfrac {1}{2}}+{\tfrac {1}{\pi }}\arctan(t)

Densidad de probabilidad:

f(t)={\frac {1}{\pi (1+t^{2})))

Distribución de Student con dos grados de libertad ( ): ${\ estilo de visualización n = 2}$

Función de distribución:

F(t)={\tfrac {1}{2}}+{\frac {t}{2{\sqrt {2+t^{2}}}}}

Densidad de probabilidad: ;

f(t)={\frac {1}{\left(2+t^{2}\right)^{\frac {3}{2))))

Distribución de Student con tres grados de libertad ( ): ${\ estilo de visualización n = 3}$

Densidad de probabilidad:

{\displaystyle f(t)={\frac {6{\sqrt {3))}{\pi \left(3+t^{2}\right)^{2))))

Distribución de Student con un número infinito de grados de libertad ( ): $n=\infty$

Densidad de probabilidad

f(t)={\frac {1}{\sqrt {2\pi }}}e^{-{\frac {t^{2}}{2}}}

coincide con la densidad de probabilidad de la distribución normal estándar.

Propiedades de la distribución Student

La distribución de Student es simétrica. En particular, si , entonces . $t\sim {\matemáticas {t}}(n)$ $-t\sim \mathrm {t} (n)$
Sólo hay momentos de orden y no hay momentos de orden . En este caso, todos los momentos de orden impar existentes son iguales a cero. $k<n$ $k\geqn$

{\mathbb {E}}\left[t^{k}\right]=0

, si impar ;

k

\mathbb {E} \left[t^{k}\right]={\frac {1}({\sqrt {\pi }}\Gamma \left({\frac {n}{2)) \right)}}\left[\Gamma \left({\frac {k+1}{2}}\right)\Gamma \left({\frac {nk}{2}}\right)n^{\ fracción {k}{2}}\right]

si es par. En particular,

k

Esperanza matemática si . ${\ matemáticas {E}} [t] = 0$ $n>1$
varianza si . ${\mathrm {D}}[t]={n \sobre n-2}$ ${\ estilo de visualización n> 2}$

Características

La distribución de Student con grados de libertad se puede definir como la distribución de una variable aleatoria [10] [11] $k$ $T$

{\displaystyle T={\frac {Z}{\sqrt {V/k))}=Z{\sqrt {\frac {k}{V))))

dónde

Z es una variable aleatoria con una distribución normal estándar ; ${\mathcal {N}}(0,1)$
V es una variable aleatoria que tiene una distribución de chi-cuadrado con grados de libertad; $k$
Z y V son variables aleatorias independientes .

Sean, , variables aleatorias independientes con distribución normal , $X_{1},\ldots,X_{n}$ ${\mathcal {N}}(\mu ,\sigma ^{2})$

${\overline {X}}_{n}={\frac {1}{n}}(X_{1}+\cdots +X_{n})$ es la media de la muestra,

S_{n}^{\;2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(X_{i}-{\overline { X}}_{n}\derecho)^{2}

es la estimación no sesgada de la varianza.

Entonces la variable aleatoria

V=(n-1){\frac {S_{n}^{2}}{\sigma^{2}}}

tiene una distribución chi-cuadrado con grados de libertad [12] . ${\ estilo de visualización k = n-1}$

La variable aleatoria tiene una distribución normal estándar , ya que la media muestral tiene una distribución normal . Además, se puede demostrar que estas dos variables aleatorias (normal y chi-cuadrado ) son independientes. $Z=\left({\overline {X}}_{n}-\mu \right){\frac {\sqrt {n}}{\sigma }}$ $Z\sim {\mathcal {N}}(0,1)$ ${\sobrelínea {X}}_{n}$ ${\mathcal {N}}(\mu,{\frac {\sigma^{2}}{n}})$ $Z$ $V$

Sustituye los valores resultantes en el valor

T\equiv {\frac {Z}{\sqrt {V/k}}}=\left({\overline {X}}_{n}-\mu \right){\frac {\sqrt { n}}{S_{n}}}

que tiene una distribución de Student y se diferencia en que la desviación estándar se sustituye por una variable aleatoria , . Tenga en cuenta que la varianza desconocida no aparece en , ya que estaba tanto en el numerador como en el denominador. Gosset obtuvo intuitivamente la densidad de probabilidad establecida anteriormente, donde corresponde a ; Fischer demostró esto en 1925 [9] . $Z$ $\sigma$ $S_{n}$ $\sigma^{2}$ $T$ $k$ $n-1$

La distribución del estadístico de criterio depende pero no depende de μ o σ 2 , lo que hace que la distribución sea importante tanto en la teoría como en la práctica. $T$ $k$

Cómo surge la distribución t

Varianza muestral

La distribución de Student surge en relación con la distribución de la varianza muestral . Sean variables aleatorias independientes tales que . Denotemos la media muestral de esta muestra y su varianza muestral . Después $X_{1},\ldots,X_{n}$ $X_{i}\sim {\mathrm {N}}(\mu,\sigma ^{2}),\;i=1,\ldots,n$ ${\bar {X}}$ $S^{2}$

{\frac {{\bar {X}}-\mu }{S/{\sqrt {n}}}}\sim {\mathrm {t}}(n-1)

Relacionado con este hecho está el uso de la distribución t de Student en estadística para la estimación puntual , la construcción de intervalos de confianza y la prueba de hipótesis sobre una media muestra desconocida de una distribución normal.

Estadísticas bayesianas

En las estadísticas bayesianas, una distribución t no central ocurre como una distribución marginal del coeficiente de distribución normal . $metro$ ${\mathcal {N}}(m,\sigma ^{2})$

La dependencia de la varianza desconocida se expresa en términos de:

{\begin{alineado}p(\mu \mid D,I)=&\int p(\mu ,\sigma ^{2}\mid D,I)\;d\sigma ^{2}= \int p(\mu \mid D,\sigma ^{2},I)\;p(\sigma ^{2}\mid D,I)\;d\sigma ^{2}\end{alineado}}

donde está el dato { x i } y es cualquier otra información que podría usarse para crear el modelo. $D$ $yo$

Cuando los datos no son informativos , el teorema de Bayes implica

{\begin{alineado}p(\mu \mid D,\sigma ^{2},I)\sim &N({\bar {x)),{\frac {\sigma ^{2)){ n)))\end{alineado}}

{\begin{aligned}p(\sigma ^{2}\mid D,I)\sim &\operatorname {Scale-inv-\chi ^{2}} (n,s^{2})\ fin{alineado}}

distribución normal y distribución chi-cuadrada inversa escalada, donde

s^{2}=\sum {\frac {(x_{i}-{\bar {x)))^{2}}{n-1}}

La integral marginada en este caso tiene la forma

{\begin{alineado}p(\mu |D,I)&\propto \int _{0}^{\infty }{\frac {1}{\sqrt {\sigma ^{2))} }\exp \left(-{\frac {1}{2\sigma ^{2}}}n(\mu -{\bar {x}})^{2}\right)\;\cdot \;\ sigma ^{-n-2}\exp(-ns^{2}/2\sigma ^{2})\;d\sigma ^{2}\\&\propto \int _{0}^{\infty }\sigma ^{-n-3}\exp \left(-{\frac {1}{2\sigma ^{2}}}\left(n(\mu -{\bar {x}})^{ 2}+ns^{2}\right)\right)\;d\sigma ^{2}\end{alineado}}

después de reemplazar , donde , ${\ estilo de visualización z = A/2 \ sigma ^ {2}}$ $A=n(\mu -{\bar {x)))^{2}+ns^{2}$

obtenemos $dz=-{\frac {A}{2\sigma ^{4}}}d\sigma ^{2}$

y evaluación $p(\mu |D,I)\propto \;A^{-{\frac {n+1}{2}}}\int _{0}^{\infty }z^{(n- 1)/2}\exp(-z)\,dz$

$\int _{0}^{\infty}z^{(n-1)/2}\exp(-z)\,dz$ ahora la integral gamma estándar, que se evalúa como una constante

${\begin{alineado}p(\mu \mid D,I)\propto &\;A^{-{\frac {n+1}{2))}\propto &\left(1+{ \frac {n(\mu -{\bar {x}})^{2}}{ns^{2}}}\right)^{-{\frac {n+1}{2}}}\end {alineado}}$

esta es una distribución t no estandarizada.

Usando el reemplazo , obtenemos una distribución t estandarizada. $t={\frac {\mu -{\bar {x}}}{s/{\sqrt {n}}}}$

La derivación anterior se presentó para el caso de un previo no informativo para y ; pero es obvio que cualquier probabilidad previa conduce a una mezcla de la distribución normal y la distribución chi-cuadrada inversa escalada, que una distribución t no central con escala y un sesgo por , el parámetro de escala estará influenciado por la distribución previa información y datos, y no sólo los datos, como en el ejemplo anterior. ${\ estilo de pantalla \ estilo de script {\ mu}}$ ${\ estilo de pantalla \ estilo de script {\ sigma ^ {2}}}$ ${\displaystyle \scriptstyle {P(\mu |D,I)))$ ${\ estilo de pantalla \ estilo de script {\ frac {S ^ {2}} {n}}}$

Generalizaciones de la distribución de Student

Distribución t no estandarizada de Student

La distribución t de Student se puede generalizar a una familia de funciones con tres parámetros, incluidos un factor de desplazamiento y un factor de escala , a través de la relación $\mu$ $\sigma$

{\ estilo de visualización X = \ mu + \ sigma T}

T={\frac {X-\mu}{\sigma}}

donde es la distribución de Student clásica con grados de libertad. ${\ Displaystyle {\ frac {x-\ mu} {\ sigma}}}$ $norte$

La densidad de la distribución de Student no estandarizada es una distribución reparametrizada de Pearson tipo VII y está determinada por la siguiente expresión [13]

{\displaystyle p(x\mid n,\mu ,\sigma )={\frac {\Gamma ({\frac {n+1}{2)))}{\Gamma ({\frac {n}{2 }}){\sqrt {\pi n}}\sigma }}\left(1+{\frac {1}{n}}\left({\frac {x-\mu }{\sigma }}\right )^{2}\right)^{-{\frac{n+1}{2))))

Aquí no está la desviación estándar, como en la distribución normal, es, en términos generales, un parámetro de escala diferente. Sin embargo, en , la densidad de distribución de Pearson tipo VII tiende a una densidad de distribución normal con una desviación estándar de . $\sigma$ $n\to\infty$ $\sigma$

En la inferencia bayesiana, la distribución marginal de la media desconocida es mayor que , y corresponde a , donde $\mu$ $\sigma$ ${\ estilo de pantalla \ estilo de script {s/{\ sqrt {n}}}}$

s^{2}=\sum {\frac {(x_{i}-{\bar {x)))^{2}}{n-1}}.

${\ estilo de visualización \ nombre del operador {E} (X) = \ mu}$ para , ${\ estilo de visualización n> 1}$

${\text{var}}(X)=\sigma^{2}{\frac {n}{n-2}}$ por ${\ estilo de visualización n> 2}$

${\text{modo}}(X)=\mu .$

Esta distribución es el resultado de la combinación de una distribución gaussiana (distribución normal) con media y varianza desconocida, con una distribución gamma inversa, con una varianza con parámetros y . En otras palabras, se supone que la variable aleatoria X tiene una distribución normal con una varianza desconocida distribuida como una gamma inversa, y luego se elimina la varianza. Esta propiedad es útil porque la distribución gamma inversa es el conjugado anterior de la varianza de la distribución gaussiana, razón por la cual la distribución t de Student no estandarizada ocurre naturalmente en muchos problemas bayesianos. $\mu$ ${\ estilo de visualización a = n/2}$ ${\ estilo de visualización b = n \ sigma ^ {2}/2}$

De manera equivalente, esta distribución es el resultado de una combinación de una distribución gaussiana con una distribución chi-cuadrado inversa escalada con parámetros y . La distribución chi-cuadrado inversa escalada es exactamente la misma distribución que la distribución gamma inversa, pero con una parametrización diferente, a saber . $norte$ $\sigma^{2}$ $n=2a,\sigma ^{2}=b/a$

Una parametrización alternativa basada en el parámetro de escala inversa λ [14] (similar a cómo la medida de precisión es la inversa de la varianza) definida por la relación , ${\ estilo de visualización \ lambda = {\ frac {1} {\ sigma ^ {2}}}}$

entonces la densidad se define como

p(x|n,\mu ,\lambda )={\frac {\Gamma ({\frac {n+1}{2)))}{\Gamma ({\frac {n}{2} })}}\left({\frac {\lambda }{\pi n}}\right)^{\frac {1}{2}}\left(1+{\frac {\lambda (x-\mu )^{2}}{n}}\right)^{-{\frac{n+1}{2}}}.

Propiedades:

${\ estilo de visualización \ nombre del operador {E} (X) = \ mu}$ para , ${\ estilo de visualización n> 1}$

${\text{var}}(X)={\frac {1}{\lambda}}{\frac {n}{n-2}}$ por ${\ estilo de visualización n> 2}$

${\text{modo}}(X)=\mu .$

Esta distribución es el resultado de la combinación de una distribución gaussiana con media y una medida de precisión desconocida (varianza inversa), con una distribución gamma con parámetros y . En otras palabras, se supone que la variable aleatoria X tiene una distribución normal con una medida de precisión desconocida distribuida por gamma. $\mu$ ${\ estilo de visualización a = n/2}$ ${\ estilo de visualización b = n/(2 \ lambda)}$

Distribución no central del estudiante

El t-t no central es una forma de generalizar el t-t estándar al incluir un factor de cambio adicional (parámetro de no centralidad) . $\mu$

$(Z+\mu ){\sqrt {\frac {n}{V}}}.$

En la distribución de Student no central, la mediana no coincide con la moda, es decir no es simétrico (a diferencia de lo no estandarizado).

Esta distribución es importante para estudiar el poder estadístico de la prueba t de Student.

Distribución discreta de Student

La distribución t de Student discreta tiene la siguiente función de distribución con r proporcional: [15]

\prod_{j=1}^{k}{\frac {1}{(r+j+a)^{2}+b^{2}}}\quad \quad r=\ldots, -1,0,1,\ldots .

Donde a , b y k son parámetros. Tal distribución surge cuando se trata de sistemas de distribuciones discretas como la distribución de Pearson . [dieciséis]

Relación con otras distribuciones

La distribución t de Student es una distribución t de Pearson tipo VII [17] .
La distribución de Student con un grado de libertad ( ) es la distribución estándar de Cauchy : . ${\ estilo de visualización n = 1}$ ${\mathrm {t}}(1)\equiv {\mathrm {C}}(0,1)$
La distribución de Student converge a la normal estándar en . Sea dada una secuencia de variables aleatorias , donde . Entonces: por distribución en . $n\to\infty$ $\{t_{n}\}_{{n=1}}^{{\infty}}$ $t_{n}\sim {\mathrm {t}}(n),\;n\in {\mathbb {N}}$ $t_{n}\to {\mathcal {N}}(0,1)$ $n\to\infty$
El cuadrado de una variable aleatoria que tiene una distribución de Student también tiene una distribución de Fisher . deja _ Entonces: . $t\sim {\matemáticas {t}}(n)$ $t^{2}\sim {\matemáticas {F}}(1,n)$

Generalización de la distribución Gaussiana

Podemos obtener una muestra con una distribución t tomando la relación de valores de la distribución normal y la raíz cuadrada de la distribución chi-cuadrado.

donde son variables aleatorias normales estándar independientes tales que ${\displaystyle X_{0},X_{1},\ldots,X_{n))$ $X_{i}\sim {\mathcal {N))(0,1),\;i=0,\ldots,n$

$t={\frac {X_{0}}{\sqrt ({\frac {1}{n}}\sum \limits _{i=1}^{n}X_{i}^{2} }}}.$

Si en lugar de una distribución normal, tomamos, por ejemplo, Irwin-Hall , obtenemos una distribución simétrica con 4 parámetros, que incluye normal, uniforme, triangular, así como las distribuciones de Student y Cauchy; por tanto, esta generalización es más flexible que muchas otras generalizaciones simétricas de la distribución gaussiana.

Aplicación de Distribución de Estudiantes

Prueba de hipótesis

Algunas estadísticas pueden tener una distribución t de Student en tamaños de muestra pequeños, por lo que la distribución t de Student forma la base de las pruebas de significación. Por ejemplo, la prueba de correlación de rangos de Spearman ρ , en el caso cero (correlación cero) se aproxima bien mediante una distribución t de Student con un tamaño de muestra superior a 20.

Construcción de un intervalo de confianza

La t-t de Student se puede utilizar para estimar la probabilidad de que la media verdadera esté en un rango dado.

Supongamos que el número A se elige de modo que

${\ estilo de visualización \ Pr (-A <T <A) = 0,9}$ .

Entonces T tiene una distribución t con n – 1 grados de libertad. En virtud de la simetría de la distribución, esto equivale a decir que A satisface

${\ estilo de visualización \ Pr (T <A) = 0,95,}$ o , entonces ${\ estilo de visualización A = t_ {(0,05, n-1)))$

$\Pr \left(-A<{\frac ({\overline {X}}_{n}-\mu }{\frac {S_{n}}{\sqrt {n}}}}<A \derecho)=0.9,$

que es equivalente a

$\Pr \left({\overline {X}}_{n}-A{\frac {S_{n}}{\sqrt {n}}}<\mu <{\overline {X}}_ {n}+A{\frac {S_{n}}{\sqrt {n}}}\right)=0.9.$

por tanto, un intervalo con un límite de confianza en puntos es un intervalo de confianza del 90 % para μ. Por lo tanto, si encontramos la media de un conjunto de observaciones (normalmente distribuidas), podemos usar la distribución t de Student para determinar si los límites de confianza en esa media incluyen algún valor predicho teóricamente, como el valor predicho a partir de la hipótesis nula. ${\overline {X}}_{n}\pm A{\frac {S_{n}}{\sqrt {n}}}$

Este enfoque se toma en la prueba t de Student : si la diferencia entre las medias de las muestras de dos distribuciones normales puede distribuirse normalmente, la t de Student se puede usar para investigar si esta diferencia puede considerarse cero con un alto grado. de probabilidad

Para muestras distribuidas normalmente, el límite de confianza superior (UCL) de una cola (1− a ) de la media es

$\mathrm {UCL} _{1-a}={\overline {X}}_{n}+t_{a,n-1}{\frac {S_{n}}{\sqrt {n} }}$ .

El límite de confianza superior resultante será la media más grande para el intervalo de confianza y el tamaño de muestra dados. En otras palabras, si la media de un conjunto de observaciones, la probabilidad de que la media de la distribución produzca es igual a un nivel de significación de 1– a. ${\sobrelínea {X}}_{n}$ ${\ estilo de visualización \ matemáticas {UCL} _ {1-n}}$

Construyendo un intervalo predictor

La distribución t de Student se puede utilizar para obtener un intervalo de predicción para una muestra no observada de una distribución normal con media y varianza desconocidas.

En estadística bayesiana

La distribución t de Student, especialmente la no central, aparece a menudo en las estadísticas bayesianas como resultado de la asociación con la distribución normal.

De hecho, si no conocemos la varianza de una variable aleatoria distribuida normalmente, pero conocemos la distribución previa conjugada, será posible elegir una distribución gamma tal que los valores resultantes tengan una distribución de Student.

Las construcciones equivalentes con los mismos resultados incluyen la distribución de chi-cuadrado inversa escalada conjugada. Si la distribución anterior incorrecta, proporcional a , se encuentra por encima de la varianza, también se produce una distribución de Student. Esto ocurre independientemente de si se conoce o no la media de una cantidad distribuida normalmente distribuida con una distribución previa conjugada. $\sigma^{2}$

Modelado paramétrico resistente a violaciones de supuestos iniciales

La distribución t de Student se usa a menudo como una alternativa a la distribución normal para un modelo de datos. [18] Esto se debe a que los datos reales a menudo tienen colas más pesadas de lo que permitiría la distribución normal. El enfoque clásico es identificar valores atípicos y eliminarlos (o reducir su peso). Sin embargo, no siempre es fácil definir un valor atípico (especialmente en problemas de alta dimensión ), y la distribución t de Student es una opción natural para proporcionar un enfoque paramétrico a las estadísticas sólidas .

Lange y otros han explorado el uso de la distribución de Student para el modelado de datos robusto. El cálculo bayesiano se encuentra en Gelman et al.

El número de grados de libertad controla la curtosis de la distribución y se correlaciona con el parámetro de escala.

Algunas otras propiedades de la distribución Student

Sea la integral de la función de densidad de probabilidad de Student, la probabilidad de que el valor de t sea menor que el valor calculado a partir de los datos observacionales. ${\ estilo de visualización A (t | n)}$ $Pie)$

La función se puede utilizar para probar si la diferencia entre las medias de dos conjuntos de datos tomados de la misma población es estadísticamente significativa, esto se logra calculando el valor correspondiente de t y la probabilidad de que ocurra. ${\ estilo de visualización A (t | n)}$

Esto se usa, por ejemplo, en la prueba T de Student . Para una distribución t con grados de libertad, es la probabilidad de que t sea menor que el valor observado si los dos valores medios fueran iguales. Se puede calcular fácilmente a partir de la función de distribución acumulativa de la distribución de Student: $norte$ ${\ estilo de visualización A (t | n)}$ ${\ Displaystyle F_ {n} (t)}$

A(t|n)=F_{n}(t)-F_{n}(-t)=1-I_{\frac {n}{n+t^{2}}}\left({ \frac {n}{2)),{\frac {1}{2}}\derecha),

donde I x - función beta incompleta regularizada (a, b).

En las pruebas de hipótesis estadísticas, esta función se utiliza para construir un valor p .

Muestreo de Monte Carlo

Existen diferentes enfoques para obtener variables aleatorias a partir de la distribución de Student. Todo depende de si se requieren muestras independientes o se pueden construir aplicando la función de distribución inversa sobre una muestra con una distribución uniforme.

En el caso de una muestra independiente, es fácil aplicar una extensión del método Box-Muller en su forma polar (trigonométrica) [19] . La ventaja de este método es que se aplica por igual a todos los grados de libertad positivos , mientras que muchos otros métodos no funcionarán si está cerca de cero. [19] $norte$ $norte$

Densidad de la distribución de Student mediante la solución de una ecuación diferencial

La distribución de densidad de Student se puede obtener resolviendo la siguiente ecuación diferencial :

$\left\{{\begin{matriz}{l}\left(n+x^{2}\right)f'(x)+(n+1)xf(x)=0,\\f (1)={\frac {n^{n/2}(n+1)^{-{\frac {n}{2}}-{\frac {1}{2}}}}{B\izquierda ({\frac {n}{2)),{\frac {1}{2}}\right)}}\end{matriz}}\right\}$

Percentiles

Tablas de valores

Muchos libros de texto sobre estadística incluyen tablas de distribución de estudiantes.

En estos días, la mejor manera de obtener un valor t crítico completamente preciso, o probabilidad acumulada, es usar una función estadística integrada en hojas de cálculo (Office Excel, OpenOffice Calc, etc.) o una calculadora web interactiva. Las funciones de hoja de cálculo requeridas son TDIST y TINV.

La siguiente tabla incluye los valores de algunos valores para las distribuciones de Student con v grados de libertad para varias regiones críticas unilaterales o bilaterales .

Como ejemplo de cómo leer esta tabla, tomemos la cuarta fila, que comienza en 4; esto significa que v, el número de grados de libertad, es 4 (y si trabajamos, como se muestra arriba, con n cantidades de suma fija, entonces n = 5). Tomemos el quinto valor en la columna 95% para un lado (90% para dos lados ). El valor es "2.132". Por lo tanto, la probabilidad de que T sea menor que 2,132 es del 95 % o Pr(−∞ < T < 2,132) = 0,95; esto también significa que Pr(−2.132 < T < 2.132) = 0.9.

Esto se puede calcular a partir de la simetría de la distribución,

Pr( T < −2,132) = 1 − Pr( T > −2,132) = 1 − 0,95 = 0,05,

obtenemos

Pr(−2,132 < T < 2,132) = 1 − 2(0,05) = 0,9.

Tenga en cuenta que la última fila también proporciona puntos críticos: una distribución t de Student con un número infinito de grados es una distribución normal.

La primera columna muestra el número de grados de libertad.

unilateral	75%	80%	85%	90%	95%	97,5%	99%	99,5%	99,75%	99,9%	99,95%
bilateral	cincuenta%	60%	70%	80%	90%	95%	98%	99%	99,5%	99,8%	99,9%
una	1.000	1.376	1.963	3.078	6.314	12.71	31.82	63.66	127.3	318.3	636.6
2	0.816	1.080	1.386	1.886	2.920	4.303	6.965	9.925	14.09	22.33	31.60
3	0.765	0.978	1.250	1.638	2.353	3.182	4.541	5.841	7.453	10.21	12.92
cuatro	0.741	0.941	1.190	1.533	2.132	2.776	3.747	4.604	5.598	7.173	8.610
5	0.727	0.920	1.156	1.476	2.015	2.571	3.365	4.032	4.773	5.893	6.869
6	0.718	0.906	1.134	1.440	1.943	2.447	3.143	3.707	4.317	5.208	5.959
7	0.711	0.896	1.119	1.415	1.895	2.365	2.998	3.499	4.029	4.785	5.408
ocho	0.706	0.889	1.108	1.397	1.860	2.306	2.896	3.355	3.833	4.501	5.041
9	0.703	0.883	1.100	1.383	1.833	2.262	2.821	3.250	3.690	4.297	4.781
diez	0.700	0.879	1.093	1.372	1.812	2.228	2.764	3.169	3.581	4.144	4.587
once	0.697	0.876	1.088	1.363	1.796	2.201	2.718	3.106	3.497	4.025	4.437
12	0.695	0.873	1.083	1.356	1.782	2.179	2.681	3.055	3.428	3.930	4.318
13	0.694	0.870	1.079	1.350	1.771	2.160	2.650	3.012	3.372	3.852	4.221
catorce	0.692	0.868	1.076	1.345	1.761	2.145	2.624	2.977	3.326	3.787	4.140
quince	0.691	0.866	1.074	1.341	1.753	2.131	2.602	2.947	3.286	3.733	4.073
dieciséis	0.690	0.865	1.071	1.337	1.746	2.120	2.583	2.921	3.252	3.686	4.015
17	0.689	0.863	1.069	1.333	1.740	2.110	2.567	2.898	3.222	3.646	3.965
Dieciocho	0.688	0.862	1.067	1.330	1.734	2.101	2.552	2.878	3.197	3.610	3.922
19	0.688	0.861	1.066	1.328	1.729	2.093	2.539	2.861	3.174	3.579	3.883
veinte	0.687	0.860	1.064	1.325	1.725	2.086	2.528	2.845	3.153	3.552	3.850
21	0.686	0.859	1.063	1.323	1.721	2.080	2.518	2.831	3.135	3.527	3.819
22	0.686	0.858	1.061	1.321	1.717	2.074	2.508	2.819	3.119	3.505	3.792
23	0.685	0.858	1.060	1.319	1.714	2.069	2.500	2.807	3.104	3.485	3.767
24	0.685	0.857	1.059	1.318	1.711	2.064	2.492	2.797	3.091	3.467	3.745
25	0.684	0.856	1.058	1.316	1.708	2.060	2.485	2.787	3.078	3.450	3.725
26	0.684	0.856	1.058	1.315	1.706	2.056	2.479	2.779	3.067	3.435	3.707
27	0.684	0.855	1.057	1.314	1.703	2.052	2.473	2.771	3.057	3.421	3.690
28	0.683	0.855	1.056	1.313	1.701	2.048	2.467	2.763	3.047	3.408	3.674
29	0.683	0.854	1.055	1.311	1.699	2.045	2.462	2.756	3.038	3.396	3.659
treinta	0.683	0.854	1.055	1.310	1.697	2.042	2.457	2.750	3.030	3.385	3.646
40	0.681	0.851	1.050	1.303	1.684	2.021	2.423	2.704	2.971	3.307	3.551
cincuenta	0.679	0.849	1.047	1.299	1.676	2.009	2.403	2.678	2.937	3.261	3.496
60	0.679	0.848	1.045	1.296	1.671	2.000	2.390	2.660	2.915	3.232	3.460
80	0.678	0.846	1.043	1.292	1.664	1.990	2.374	2.639	2.887	3.195	3.416
100	0.677	0.845	1.042	1.290	1.660	1.984	2.364	2.626	2.871	3.174	3.390
120	0.677	0.845	1.041	1.289	1.658	1.980	2.358	2.617	2.860	3.160	3.373
∞	0.674	0.842	1.036	1.282	1.645	1.960	2.326	2.576	2.807	3.090	3.291

Por ejemplo, si nos dan una muestra con una varianza muestral de 2 y una media muestral de 10 extraída de un conjunto muestral de 11 (10 grados de libertad), usando la fórmula

${\overline {X}}_{n}\pm A{\frac {S_{n}}{\sqrt {n}}}.$

Podemos determinar con un 90% de confianza que la verdadera media es:

$10+1.37218{\frac {\sqrt {2}}{\sqrt {11}}}=10.58510,$

(es decir, en promedio, el 90 % de las veces el límite superior es mayor que la media real)

y, aún con un 90% de certeza, encontramos una media verdadera mayor que

$10-1.37218{\frac {\sqrt {2}}{\sqrt {11}}}=9.41490.$

(En promedio, el 90 % de las veces el límite inferior es menor que la media real)

Entonces con un 80% de certeza (1-2*(1-90%) = 80%) encontramos el valor verdadero en el intervalo

$\left(10-1,37218{\frac {\sqrt {2}}{\sqrt {11}}},10+1,37218{\frac {\sqrt {2}}{\sqrt {11}}}\ derecha)=\izquierda(9.41490,10.58510\derecha).$

En otras palabras, el 80% de las veces la verdadera media está por debajo del límite superior y por encima del límite inferior.

Esto no es equivalente a decir que hay un 80% de posibilidades de que la verdadera media se encuentre entre cierto par de límites superior e inferior.

Generalización

Una generalización de la distribución de Student es la distribución hiperbólica generalizada .

Notas

↑ Helmert, FR (1875). "Über die Bestimmung des wahrscheinlichen Fehlers aus einer endlichen Anzahl wahrer Beobachtungsfehler". Matemáticas Z. física , 20, 300–3.
↑ Helmert, FR (1876a). "Über die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und uber einige damit in Zusammenhang stehende Fragen". Matemáticas Z. física , 21, 192–218.
↑ Helmert, FR (1876b). "Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers director Beobachtungen gleicher Genauigkeit", Astron. Nachr. , 88, 113–32.
↑ Lüroth, J. Vergleichung von zwei Werten des wahrscheinlichen Fehlers (alemán) // Astron. Nachr. : tienda. - 1876. - Bd. 87 , núm. 14 _ - S. 209-220 . -doi : 10.1002/ asna.18760871402 . - .
↑ Pfanzagl, J.; Sheynin, O. A forerunner of the t -distribution (Estudios de historia de la probabilidad y estadística XLIV) (inglés) // Biometrika : journal. - 1996. - vol. 83 , núm. 4 . - Pág. 891-898 . -doi : 10.1093 / biomet/83.4.891 .
↑ Sheynin, O. El trabajo de Helmert en la teoría de los errores // Arch . hist. ciencia exacta : diario. - 1995. - vol. 49 . - Pág. 73-104 . -doi : 10.1007/ BF00374700 .
↑ "Estudiante" [ William Sealy Gosset ]. El error probable de una media (inglés) // Biometrika : revista. - 1908. - Marzo ( vol. 6 , no. 1 ). - Pág. 1-25 . -doi : 10.1093 / biomet/6.1.1 .
↑ "Student" (William Sealy Gosset), artículo original de Biometrika como escaneo . Archivado el 5 de marzo de 2016 en Wayback Machine .
↑ 1 2 Ronald Fisher. Aplicaciones de la distribución “Student's” // metron . - 1925. - Vol. 5 . - P. 90-104 . Archivado desde el original el 5 de marzo de 2016.
↑ 1 2 3 Johnson, NL, Kotz, S., Balakrishnan, N. capítulo 28 // Distribuciones univariadas continuas, Volumen 2, 2.ª edición .. - 1995. - ISBN 0-471-58494-0 .
↑ Hogg & Craig (1978, Secciones 4.4 y 4.8.)
↑ WG Cochran. La distribución de formas cuadráticas en un sistema normal, con aplicaciones al análisis de covarianza // Actas Matemáticas de la Sociedad Filosófica de Cambridge. - 1934-04-01. - T. 30 , n. 02 . - S. 178-191 . — ISSN 1469-8064 . -doi : 10.1017/ S0305004100016595 .
↑ Simón Jackman. Análisis Bayesiano para las Ciencias Sociales . —Wiley. - 2009. - S. 507 .
↑ Bishop CM Reconocimiento de patrones y aprendizaje automático. — Springer . — 2006.
↑ Ord, JK (1972) Familias de distribuciones de frecuencia , Griffin. ISBN 0-85264-137-0 (Tabla 5.1)
↑ Ord, JK (1972) Familias de distribuciones de frecuencia , Griffin. ISBN 0-85264-137-0 (Capítulo 5)
↑ Korolyuk, 1985 , pág. 134.
↑ Kenneth L. Lange, Roderick J. A. Little, Jeremy M. G. Taylor. Modelado estadístico robusto utilizando la distribución t // Revista de la Asociación Estadounidense de Estadística . - 1989-12-01. - T. 84 , n. 408 . - S. 881-896 . — ISSN 0162-1459 . -doi : 10.1080/ 01621459.1989.10478852 .
↑ 1 2 Ralph W. Bailey. Generación polar de variantes aleatorias con la distribución t // Matemáticas de computación. — 1994-01-01. - T. 62 , n. 206 . - S. 779-781 . -doi : 10.2307/ 2153537 . Archivado desde el original el 3 de abril de 2016.

Literatura

Korolyuk V. S. , Portenko N. I. , Skorokhod A. V. , Turbin A. F. Manual de teoría de la probabilidad y estadística matemática. - M. : Nauka, 1985. - 640 p.

diccionarios y enciclopedias	gran ruso Britannica (en línea)

Distribuciones de probabilidad
Discreto	Bernoulli Binomio Geométrico hipergeométrico logarítmico binomio negativo veneno Uniforme discreto multinomial
Absolutamente continuo	Beta Weibulla Gama- hiperexponencial Gompertz Kolmogorov cauchy Laplace logaritmo normal Normal (Gaussiano) Logístico Nakagami Pareto Pearson semicircular uniforme continuo Arroz Rayleigh Alumno Tracey - Vidoma Pescador Chi-cuadrado Exponencial Varianza-gamma Normal multivariado cópula