La regresión ( del lat. regressio - retroceso, retroceso) en teoría de la probabilidad y estadística matemática es una relación estocástica unilateral que establece una correspondencia entre variables aleatorias [1] , es decir, una expresión matemática que refleja la relación entre la variable dependiente y y las variables independientes x , siempre que esta expresión tenga significación estadística . A diferencia de la dependencia puramente funcional y = f ( x ), cuando cada valor de la variable independiente x corresponde a un valor específico de y , con una relación de regresión, el mismo valor de x puede corresponder, según el caso, a diferentes valores de y . Si para cada valor hay valores y i 1 … y en i del valor y , entonces la dependencia de las medias aritméticas en y es una regresión en el sentido estadístico de este término [2] .
Este término fue utilizado por primera vez en estadística por Francis Galton (1886) en relación con el estudio de la herencia de las características físicas humanas. La estatura humana se tomó como una de las características; mientras que se encontró que, en general, los hijos de padres altos, como era de esperar, eran más altos que los hijos de padres de baja estatura. Más interesante fue que la variación en la altura de los hijos fue menor que la variación en la altura de los padres. Así se manifestó la tendencia a devolver el crecimiento de los hijos al promedio ( regresión a la mediocridad ), es decir, "regresión". Este hecho se demostró al calcular la estatura promedio de los hijos de los padres que miden 56 pulgadas de alto, al calcular la estatura promedio de los hijos de los padres que miden 58 pulgadas de alto, etc. , y a lo largo del eje de abscisas - los valores de la estatura promedio de los padres. Los puntos (aproximadamente) se encuentran en una línea recta con una pendiente positiva de menos de 45°; es importante que la regresión fuera lineal .
Supongamos que hay una muestra de una distribución bivariada de un par de variables aleatorias ( X, Y ). La recta en el plano ( x, y ) era el análogo selectivo de la función
En la teoría de la probabilidad, el término "regresión" se entiende como esta función, que no es más que una expectativa matemática condicional de una variable aleatoria Y , siempre que otra variable aleatoria X haya tomado el valor x . Si, por ejemplo, un par ( X, Y ) tiene una distribución normal bivariada con E ( X )=μ 1 , E ( Y )=μ 2 , var( X )=σ 1 2 , var( Y )=σ 2 2 , cor ( X, Y )=ρ, entonces se puede demostrar que la distribución condicional de Y para X = x también será normal con expectativa igual a
En este ejemplo, la regresión de Y sobre X es una función lineal . Si la regresión de Y sobre X no es lineal, entonces las ecuaciones dadas son una aproximación lineal de la verdadera ecuación de regresión.
En general, la regresión de una variable aleatoria a otra no será necesariamente lineal. Tampoco es necesario limitarse a un par de variables aleatorias. Los problemas de regresión estadística están asociados con la determinación de la forma general de la ecuación de regresión, la construcción de estimaciones de parámetros desconocidos incluidos en la ecuación de regresión y la prueba de hipótesis estadísticas sobre la regresión [3] . Estos problemas se consideran en el marco del análisis de regresión .
Un ejemplo simple de regresión Y sobre X es la relación entre Y y X , que se expresa mediante la relación: Y = u ( X ) + ε, donde u ( x )= E ( Y | X = x ), y la relación aleatoria las variables X y ε son independientes. Esta representación es útil cuando se planea un experimento para estudiar la relación funcional y = u ( x ) entre variables no aleatorias y y x . En la práctica, los coeficientes de regresión en la ecuación y = u ( x ) suelen ser desconocidos y se estiman a partir de datos experimentales.
Representamos la dependencia de y de x en forma de un modelo lineal de primer orden:
Supondremos que los valores de x están determinados sin error, β 0 y β 1 son parámetros del modelo, y ε es un error cuya distribución obedece a la ley normal con media cero y desviación constante σ 2 . Los valores de los parámetros β no se conocen de antemano y deben determinarse a partir de un conjunto de valores experimentales ( x i , y i ), i =1,…, n . Así podemos escribir:
donde significa el valor de y predicho por el modelo para un x dado , b 0 y b 1 son estimaciones de muestra de los parámetros del modelo. Determinemos también — el valor del error de aproximación para la ésima observación.
Para calcular los parámetros del modelo a partir de datos experimentales, a menudo se utilizan varios programas para el procesamiento de datos estadísticos. Sin embargo, para este caso simple, no es difícil escribir fórmulas detalladas [4] [5] .
El método de mínimos cuadrados da las siguientes fórmulas para calcular los parámetros de este modelo y sus desviaciones:
aquí, las medias se definen como de costumbre: , y s e 2 denota la desviación residual de la regresión, que es la estimación de la varianza σ 2 si el modelo es correcto.
Los errores estándar de los coeficientes de regresión se usan de la misma manera que el error estándar de la media: para encontrar intervalos de confianza y probar hipótesis. Usamos, por ejemplo, el criterio de Student para probar la hipótesis de que el coeficiente de regresión es igual a cero, es decir, que es insignificante para el modelo. Estadísticas de los estudiantes: . Si la probabilidad del valor obtenido y n − 2 grados de libertad es suficientemente pequeña, por ejemplo, <0,05, la hipótesis se rechaza. Por el contrario, si no hay razón para rechazar la hipótesis nula, digamos, hay razón para pensar en la existencia de la regresión deseada, al menos en esta forma, o en recolectar observaciones adicionales. Si el término libre es igual a cero , entonces la línea recta pasa por el origen y la estimación de la pendiente es igual a
,y su error estándar
Por lo general, los valores verdaderos de los coeficientes de regresión β 0 y β 1 no se conocen. Sólo se conocen sus estimaciones b 0 y b 1 . En otras palabras, la verdadera línea recta de regresión puede ser diferente a la construida sobre los datos de la muestra. Puede calcular la región de confianza para la línea de regresión. Para cualquier valor de x , los valores correspondientes de y se distribuyen normalmente. La media es el valor de la ecuación de regresión . La incertidumbre de su estimación se caracteriza por el error de regresión estándar:
Ahora puede calcular el intervalo de confianza de porcentaje para el valor de la ecuación de regresión en el punto x :
,donde t (1−α/2, n − 2) es el valor t de la distribución de Student. La figura muestra una línea de regresión de 10 puntos (puntos sólidos), así como la región de confianza del 95 % de la línea de regresión, que está delimitada por líneas punteadas. Con una probabilidad del 95 %, se puede argumentar que la línea verdadera está en algún lugar dentro de esta área. O de lo contrario, si recolectamos conjuntos de datos similares (indicados por círculos) y construimos líneas de regresión sobre ellos (indicados en azul), entonces en 95 casos de 100 estas líneas no saldrán de la región de confianza. (Haga clic en la imagen para visualizar) Tenga en cuenta que algunos puntos están fuera de la región de confianza. Esto es completamente natural, ya que estamos hablando de la región de confianza de la línea de regresión y no de los valores en sí. La dispersión de valores es la suma de la dispersión de valores alrededor de la línea de regresión y la incertidumbre de la posición de esta línea misma, a saber:
Aquí m es la multiplicidad de la medida y para un x dado . Y el intervalo de confianza porcentual (intervalo de predicción) para la media de los m y valores sería:
.En la figura, esta región de confianza del 95 % en m = 1 está limitada por líneas continuas. El 95% de todos los valores posibles de y en el rango estudiado de valores de x caen en esta región .
Se puede demostrar rigurosamente que si la expectativa condicional de alguna variable aleatoria bidimensional ( X, Y ) es una función lineal de , entonces esta expectativa condicional debe representarse en la forma , donde E ( X )=μ 1 , E ( Y )=μ 2 , var ( X )=σ 1 2 , var( Y )=σ 2 2 , cor( X, Y )=ρ.
Además, para el modelo lineal mencionado anteriormente , donde y son variables aleatorias independientes, y tiene expectativa cero (y una distribución arbitraria), podemos probar que . Entonces, usando la igualdad indicada arriba, se pueden obtener fórmulas para y : ,
.
Si de alguna parte se sabe a priori que el conjunto de puntos aleatorios en el plano es generado por un modelo lineal, pero con coeficientes desconocidos y , se pueden obtener estimaciones puntuales de estos coeficientes utilizando las fórmulas indicadas. Para hacer esto, en lugar de las expectativas matemáticas, las varianzas y las correlaciones de las variables aleatorias X e Y , debe sustituir sus estimaciones imparciales en estas fórmulas. Las fórmulas de estimación obtenidas coinciden exactamente con las fórmulas derivadas en base al método de mínimos cuadrados.
diccionarios y enciclopedias |
---|