Mínimos cuadrados generalizados

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 24 de octubre de 2015; las comprobaciones requieren 4 ediciones .

Los mínimos cuadrados generalizados ( GLS , GLS )  es un  método para estimar los parámetros de los modelos de regresión , que es una generalización del método clásico de mínimos cuadrados . El método de mínimos cuadrados generalizados se reduce a minimizar la "suma de cuadrados generalizada" de los residuos de la regresión , donde  es el vector de residuos,  es una matriz de peso definida positiva simétrica . El método habitual de mínimos cuadrados es un caso especial del generalizado, cuando la matriz de pesos es proporcional a la identidad.

Cabe señalar que un caso especial suele denominarse método de mínimos cuadrados generalizados, cuando se utiliza como matriz de ponderación la matriz que es la inversa de la matriz de covarianza de los errores aleatorios del modelo.

La esencia de los mínimos cuadrados generalizados

Se sabe que una matriz definida positiva simétrica se puede descomponer como , donde P es una matriz cuadrada no degenerada. Luego, la suma de cuadrados generalizada se puede representar como la suma de cuadrados de los residuos transformados (usando P) . Para la regresión lineal , esto significa que el valor se minimiza:

donde , es decir, de hecho, la esencia de los mínimos cuadrados generalizados se reduce a una transformación lineal de los datos y la aplicación de los mínimos cuadrados habituales a estos datos . Si se utiliza la matriz de covarianza inversa de errores aleatorios (es decir, ) como matriz de ponderación , la transformación P hace que el modelo transformado satisfaga los supuestos clásicos (Gauss-Markov), por lo tanto, las estimaciones de parámetros que utilizan los mínimos cuadrados ordinarios serán las más eficiente en la clase de estimadores lineales insesgados. Y dado que los parámetros de los modelos original y transformado son los mismos, esto implica la afirmación de que las estimaciones GLSM son las más eficientes en la clase de estimaciones lineales insesgadas (teorema de Aitken). La fórmula de mínimos cuadrados generalizados tiene la forma:

La matriz de covarianza de estas estimaciones es:

GLS asequible (FGLS, GLS factible)

El problema de usar mínimos cuadrados generalizados es que se desconoce la matriz de covarianza de los errores aleatorios. Por lo tanto, en la práctica se utiliza una variante accesible del GLS, cuando se utiliza alguna estimación del mismo en lugar de V. Sin embargo, en este caso también surge un problema: el número de elementos independientes de la matriz de covarianza es , donde es el número de observaciones (por ejemplo, con 100 observaciones, ¡se deben estimar 5050 parámetros!). Por tanto, esta opción no permitirá obtener estimaciones cualitativas de los parámetros. En la práctica, se hacen suposiciones adicionales sobre la estructura de la matriz de covarianza, es decir, se asume que los elementos de la matriz de covarianza dependen de un pequeño número de parámetros desconocidos . Su número debe ser mucho menor que el número de observaciones. Primero se aplica el método usual de mínimos cuadrados, se obtienen los residuos, luego se estiman los parámetros indicados en base a ellos . A partir de las estimaciones obtenidas se estima la matriz de covarianza del error y se aplica los mínimos cuadrados generalizados con esta matriz. Esta es la esencia de un GMS accesible. Se demuestra que, bajo ciertas condiciones bastante generales, si las estimaciones son consistentes, entonces las estimaciones del CLSM accesible también lo serán.

OLS ponderado

Si la matriz de covarianza de error es diagonal (hay heterocedasticidad de error pero no autocorrelación), entonces la suma de cuadrados generalizada es en realidad una suma de cuadrados ponderada, donde los pesos son inversamente proporcionales a las varianzas de error. En este caso, se habla de mínimos cuadrados ponderados (WLS, Weighted LS). La transformación P en este caso consiste en dividir los datos por la desviación estándar de los errores aleatorios. El método habitual de mínimos cuadrados se aplica a los datos ponderados de esta manera.

Como en el caso general, las varianzas del error son desconocidas y deben estimarse a partir de los mismos datos. Por lo tanto, se hacen algunos supuestos simplificadores sobre la estructura de la heterocedasticidad.

La varianza del error es proporcional al cuadrado de alguna variable

En este caso, los elementos reales de la diagonal son cantidades proporcionales a esta variable (denominémosla Z ). Además, el coeficiente de proporcionalidad no es necesario para la evaluación. Por tanto, de hecho, el procedimiento en este caso es el siguiente: dividir todas las variables por Z (incluida la constante, es decir, aparecerá una nueva variable 1/Z ). Además, Z puede ser una de las variables del propio modelo original (en este caso, el modelo transformado tendrá una constante). El método de mínimos cuadrados normales se aplica a los datos transformados para obtener estimaciones de parámetros:

Grupos homogéneos de observaciones

Sean n observaciones divididas en m grupos homogéneos, dentro de cada uno de los cuales se supone la misma varianza. En este caso, primero se evalúa el modelo mediante mínimos cuadrados convencionales y se encuentran los residuos. Para los residuos dentro de cada grupo, las varianzas del error de grupo se estiman como la razón de las sumas de los cuadrados de los residuos al número de observaciones en el grupo. Además, los datos de cada j-ésimo grupo de observaciones se dividen y se aplica el LSM habitual a los datos transformados de esta manera para estimar los parámetros.

GLM en el caso de autocorrelación

Si los errores aleatorios obedecen al modelo AR(1) , entonces sin tener en cuenta la primera observación, la transformación P será la siguiente: los valores anteriores multiplicados por: se restan del valor actual de las variables :

Esta transformación se llama transformación autorregresiva . Para la primera observación, se aplica la corrección de Price-Winsten  : los datos de la primera observación se multiplican por . El error aleatorio del modelo transformado es , que se supone que es ruido blanco. Por lo tanto, el uso de mínimos cuadrados convencionales nos permitirá obtener estimaciones cualitativas de dicho modelo.

Dado que se desconoce el coeficiente de autorregresión, se aplican diferentes procedimientos del GLS disponible.

El procedimiento Cochrane-Orcutt

Paso 1. Evaluar el modelo original utilizando el método de mínimos cuadrados y obtener los residuos del modelo.

Paso 2. Estimación del coeficiente de autocorrelación de los residuos del modelo (formalmente, también se puede obtener como estimación MCO del parámetro de autorregresión en la regresión auxiliar de residuos )

Paso 3. Transformación autorregresiva de los datos (utilizando el coeficiente de autocorrelación estimado en el segundo paso) y estimación de los parámetros del modelo transformado por mínimos cuadrados convencionales.

Las estimaciones de los parámetros del modelo transformado y son las estimaciones de los parámetros del modelo original, excepto la constante, que se restaura dividiendo la constante del modelo transformado por 1-r . El procedimiento se puede repetir desde el segundo paso hasta que se logre la precisión requerida.

Procedimiento de Hildreth-Lou

En este procedimiento se realiza una búsqueda directa del valor del coeficiente de autocorrelación que minimiza la suma de cuadrados de los residuos del modelo transformado. Es decir, los valores de r se establecen a partir del intervalo posible (-1; 1) con algún paso. Para cada uno de ellos se realiza una transformación autorregresiva, se evalúa el modelo por los mínimos cuadrados habituales y se obtiene la suma de los cuadrados de los residuos. Se elige el coeficiente de autocorrelación para el cual esta suma de cuadrados es mínima. Además, en las proximidades del punto encontrado, se construye una cuadrícula con un paso más fino y se repite el procedimiento nuevamente.

Procedimiento de Durbin

El modelo transformado se parece a:

Expandiendo los paréntesis y moviendo la variable dependiente del retraso a la derecha, obtenemos

Introduzcamos la notación . Entonces tenemos el siguiente modelo.

Este modelo debe estimarse utilizando el método habitual de mínimos cuadrados. Luego, los coeficientes del modelo original se restauran como .

En este caso, la estimación obtenida del coeficiente de autocorrelación se puede utilizar para la transformación autorregresiva y aplicar los mínimos cuadrados para este modelo transformado para obtener estimaciones de parámetros más precisas.

Véase también

Literatura