Método de mínimos cuadrados

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 3 de junio de 2022; las comprobaciones requieren 4 ediciones .

El método de mínimos cuadrados (LSM)  es un método matemático utilizado para resolver varios problemas, basado en minimizar la suma de cuadrados de las desviaciones de algunas funciones a partir de datos de entrada experimentales. Se puede usar para "resolver" sistemas de ecuaciones sobredeterminados (cuando el número de ecuaciones excede el número de incógnitas), para encontrar una solución en el caso de sistemas de ecuaciones no lineales ordinarios (no sobredeterminados), para aproximar los valores de los puntos. de una función determinada. OLS es uno de los métodos básicos de análisis de regresión para estimar parámetros desconocidos de modelos de regresión a partir de datos de muestra.

Historia

Hasta principios del siglo XIX. los científicos no tenían ciertas reglas para resolver un sistema de ecuaciones en el que el número de incógnitas es menor que el número de ecuaciones; Hasta ese momento, se usaban métodos particulares, dependiendo del tipo de ecuaciones y del ingenio de las calculadoras, y por lo tanto, diferentes calculadoras, partiendo de los mismos datos de observación, llegaban a diferentes conclusiones. A Gauss (1795) se le atribuye la primera aplicación del método, y Legendre (1805) lo descubrió y publicó de forma independiente con su nombre moderno (en francés:  Méthode des moindres quarrés ) [1] . Laplace conectó el método con la teoría de la probabilidad , y el matemático estadounidense Adrian (1808) consideró sus aplicaciones probabilísticas [2] . El método está muy extendido y mejorado por investigaciones adicionales de Encke , Bessel , Hansen y otros.

Los trabajos de A. A. Markov a principios del siglo XX permitieron incluir el método de los mínimos cuadrados en la teoría de la estimación de la estadística matemática, en la que forma parte importante y natural. A través de los esfuerzos de Y. Neiman, F. David, A. Aitken, S. Rao, se obtuvieron muchos resultados importantes en esta área [3] .

La esencia del método de los mínimos cuadrados

Sea , un conjunto de datos experimentales escalares, , un conjunto de datos experimentales vectoriales, y se supone que depende de .

Se introduce alguna función escalar (en el caso más simple, lineal) , que está determinada por el vector de parámetros desconocidos .

La tarea es encontrar un vector tal que la totalidad de los errores sea mínima en algún sentido.

Según el método de los mínimos cuadrados, la solución a este problema es el vector , que minimiza la función

En el caso más simple , y luego el resultado de los mínimos cuadrados será la media aritmética de los datos de entrada.

La ventaja de LSM sobre la minimización de otros tipos de errores es que si es diferenciable con respecto a , entonces también es diferenciable. Igualar las derivadas parciales a cero reduce el problema a resolver un sistema de ecuaciones, y si depende de forma lineal, entonces el sistema de ecuaciones será lineal.

Un ejemplo es un sistema de ecuaciones lineales

En particular, el método de los mínimos cuadrados se puede utilizar para "resolver" el sistema de ecuaciones lineales

,

donde es una matriz rectangular de tamaño (es decir, el número de filas de la matriz A es mayor que el número de variables que se buscan).

Tal sistema de ecuaciones generalmente no tiene solución. Por lo tanto, este sistema puede "resolverse" solo en el sentido de elegir dicho vector para minimizar la "distancia" entre los vectores y . Para ello se puede aplicar el criterio de minimización de la suma de las diferencias al cuadrado de las partes izquierda y derecha de las ecuaciones del sistema, es decir, . Es fácil demostrar que la solución de este problema de minimización conduce a la solución del siguiente sistema de ecuaciones

.

Usando el operador de pseudo-inversión , la solución se puede reescribir así:

,

donde  es la matriz pseudoinversa para .

Este problema también se puede "resolver" utilizando los llamados mínimos cuadrados ponderados (ver más abajo), cuando diferentes ecuaciones del sistema reciben diferentes pesos de consideraciones teóricas.

A. A. Markov y A. N. Kolmogorov dieron una justificación estricta y la determinación de los límites de aplicabilidad significativa del método .

MCO en análisis de regresión (aproximación de datos)

Que haya valores de alguna variable (pueden ser los resultados de observaciones, experimentos, etc.) y variables correspondientes . La tarea es aproximar la relación entre y por alguna función conocida hasta algunos parámetros desconocidos , es decir, de hecho, encontrar los mejores valores de los parámetros que acerquen los valores lo más posible a los valores reales . De hecho, esto se reduce al caso de "resolver" un sistema de ecuaciones sobredeterminado con respecto a :

.

En el análisis de regresión, y en particular en la econometría, se utilizan modelos probabilísticos de relación entre variables.

,

donde  están los llamados errores aleatorios del modelo.

En consecuencia, las desviaciones de los valores observados de los valores del modelo ya se asumen en el propio modelo. La esencia de LSM (usual, clásico) es encontrar tales parámetros bajo los cuales la suma de las desviaciones al cuadrado (errores, para los modelos de regresión a menudo se denominan residuos de regresión ) será mínima:

,

donde  esta el ingles La Suma Residual de Cuadrados [4] se define como:  

.

En el caso general, este problema se puede resolver mediante métodos numéricos de optimización (minimización). En este caso, hablan de mínimos cuadrados no lineales (NLS o NLLS - English  Non-Linear Least Squares ). En muchos casos, se puede obtener una solución analítica. Para resolver el problema de minimización es necesario encontrar los puntos estacionarios de la función derivándola con respecto a parámetros desconocidos , igualando las derivadas a cero y resolviendo el sistema de ecuaciones resultante:

.

MCO en el caso de regresión lineal

Sea la dependencia de la regresión lineal :

.

Sea y  un vector columna de observaciones de la variable que se está explicando, y  sea una matriz de observaciones de factores (las filas de la matriz son los vectores de valores de los factores en una observación dada, a lo largo de las columnas están los vectores de valores de un factor dado en todas las observaciones). La representación matricial del modelo lineal tiene la forma:

.

Entonces el vector de estimaciones de la variable explicada y el vector de residuos de regresión serán iguales a

.

en consecuencia, la suma de los cuadrados de los residuos de la regresión será igual a

.

Derivando esta función con respecto al vector de parámetros e igualando las derivadas a cero, obtenemos un sistema de ecuaciones (en forma matricial):

.

En la forma matricial descifrada, este sistema de ecuaciones se ve así:

donde todas las sumas se toman sobre todos los valores admisibles de .

Si se incluye una constante en el modelo (como de costumbre), entonces para todos , por lo tanto, en la esquina superior izquierda de la matriz del sistema de ecuaciones está el número de observaciones , y en los elementos restantes de la primera fila y la primera columna - solo la suma de los valores de las variables: y el primer elemento del lado derecho del sistema es .

La solución de este sistema de ecuaciones da la fórmula general para las estimaciones de mínimos cuadrados para el modelo lineal:

.

A efectos analíticos resulta útil la última representación de esta fórmula (en el sistema de ecuaciones, al dividir por n, aparecen medias aritméticas en lugar de sumas). Si los datos están centrados en el modelo de regresión , entonces en esta representación la primera matriz tiene el significado de matriz de covarianza muestral de factores, y la segunda es el vector de covarianza de factor con la variable dependiente. Si, además, los datos también se normalizan a RMS (es decir, finalmente se estandarizan ), entonces la primera matriz tiene el significado de una matriz de correlación de muestra de factores, el segundo vector: vectores de correlación de muestra de factores con una variable dependiente.

Una propiedad importante de las estimaciones de LLS para modelos con constante  es que la línea de la regresión construida pasa por el centro de gravedad de los datos de la muestra, es decir, se cumple la igualdad:

.

En particular, en el caso extremo, cuando el único regresor es una constante, encontramos que la estimación MCO de un solo parámetro (la propia constante) es igual al valor medio de la variable que se explica. Es decir, la media aritmética, conocida por sus buenas propiedades de las leyes de los grandes números, también es una estimación de mínimos cuadrados: satisface el criterio de la suma mínima de las desviaciones al cuadrado.

Los casos especiales más simples

En el caso de la regresión lineal pareada , cuando se estima la dependencia lineal de una variable con otra, las fórmulas de cálculo se simplifican (se puede prescindir del álgebra matricial). El sistema de ecuaciones tiene la forma:

.

A partir de aquí es fácil encontrar estimaciones para los coeficientes:

Aunque los modelos constantes son generalmente preferibles, en algunos casos se sabe por consideraciones teóricas que la constante debe ser cero. Por ejemplo, en física, la relación entre voltaje y corriente tiene la forma ; midiendo voltaje y corriente, es necesario estimar la resistencia. En este caso, estamos hablando del modelo . En este caso, en lugar de un sistema de ecuaciones, tenemos una sola ecuación

.

Por lo tanto, la fórmula para estimar un solo coeficiente tiene la forma

.

El caso del modelo polinomial

Si los datos se aproximan mediante una función de regresión polinomial de una variable , entonces, al percibir los grados como factores independientes para cada uno , es posible estimar los parámetros del modelo con base en la fórmula general para estimar los parámetros del modelo lineal. Para ello, en la fórmula general, basta tener en cuenta que con tal interpretación de y . Por lo tanto, las ecuaciones matriciales en este caso tomarán la forma:

Propiedades estadísticas de las estimaciones OLS

En primer lugar, observamos que para los modelos lineales, las estimaciones de mínimos cuadrados son estimaciones lineales, como se deduce de la fórmula anterior. Para estimaciones OLS no sesgadas , es necesario y suficiente cumplir la condición más importante del análisis de regresión : condicional a los factores, la expectativa matemática de un error aleatorio debe ser igual a cero. Esta condición se cumple, en particular, si

  1. la expectativa matemática de los errores aleatorios es cero y
  2. los factores y los errores aleatorios son variables aleatorias independientes .

La primera condición para los modelos con una constante se puede considerar siempre satisfecha, ya que la constante asume una expectativa matemática de errores distinta de cero (por lo tanto, los modelos con una constante son generalmente preferibles).

La segunda condición, la condición de los factores exógenos , es fundamental. Si esta propiedad no se cumple, entonces podemos suponer que casi todas las estimaciones serán extremadamente insatisfactorias: ni siquiera serán consistentes (es decir, incluso una gran cantidad de datos no permite obtener estimaciones cualitativas en este caso). En el caso clásico, se hace una suposición más fuerte sobre el determinismo de los factores, en contraste con un error aleatorio, lo que automáticamente significa que se cumple la condición exógena. En el caso general, para la consistencia de las estimaciones, basta con cumplir la condición de exogeneidad junto con la convergencia de la matriz a alguna matriz no singular con un aumento del tamaño de la muestra al infinito.

Para que, además de la consistencia y la falta de sesgo , las estimaciones de los mínimos cuadrados (usuales) también sean efectivas (las mejores de la clase de estimaciones lineales no sesgadas), se deben satisfacer propiedades adicionales del error aleatorio:

  • Varianza constante (igual) de los errores aleatorios en todas las observaciones (sin heterocedasticidad ): .
  • Falta de correlación ( autocorrelación ) de errores aleatorios en diferentes observaciones entre sí .

Estos supuestos pueden formularse para la matriz de covarianza del vector de errores aleatorios .

Un modelo lineal que satisface tales condiciones se llama clásico . Las estimaciones LLS para la regresión lineal clásica son estimaciones no sesgadas , consistentes y más eficientes en la clase de todas las estimaciones lineales no sesgadas ). Como es fácil de demostrar, la matriz de covarianza del vector de estimación de coeficientes será igual a:

.

Eficiencia significa que esta matriz de covarianza es "mínima" (cualquier combinación lineal de estimaciones de coeficientes, y en particular las propias estimaciones de coeficientes tienen una varianza mínima), es decir, en la clase de estimaciones lineales no sesgadas, las estimaciones de MCO son las mejores . Los elementos diagonales de esta matriz, las varianzas de las estimaciones de los coeficientes, son parámetros importantes para la calidad de las estimaciones obtenidas. Sin embargo, no es posible calcular la matriz de covarianza porque se desconoce la varianza del error aleatorio. Se puede demostrar que la estimación imparcial y consistente (para el modelo lineal clásico) de la varianza de los errores aleatorios es el valor:

.

Sustituyendo este valor en la fórmula de la matriz de covarianza, obtenemos una estimación de la matriz de covarianza. Las estimaciones resultantes también son imparciales y consistentes . También es importante que la estimación de la varianza del error (y por tanto las varianzas de los coeficientes) y las estimaciones de los parámetros del modelo sean variables aleatorias independientes, lo que permite obtener estadísticos de prueba para contrastar hipótesis sobre los coeficientes del modelo.

Cabe señalar que si no se cumplen los supuestos clásicos, las estimaciones de los parámetros de mínimos cuadrados no son las estimaciones más eficientes (permanecen imparciales y consistentes ). Sin embargo, la estimación de la matriz de covarianza empeora aún más: se vuelve sesgada e inconsistente . Esto significa que las conclusiones estadísticas sobre la calidad del modelo construido en este caso pueden ser extremadamente poco fiables. Una forma de resolver este problema es usar estimaciones especiales de la matriz de covarianza que sean consistentes bajo violaciones de los supuestos clásicos ( errores estándar en la forma de White y errores estándar en la forma de Newey-West ). Otro enfoque es aplicar los llamados mínimos cuadrados generalizados .

Mínimos cuadrados generalizados

El método de mínimos cuadrados permite una amplia generalización. En lugar de minimizar la suma de los cuadrados de los residuos, se puede minimizar alguna forma cuadrática definida positiva del vector residual , donde  es alguna matriz de peso definida positiva simétrica. Los mínimos cuadrados ordinarios son un caso especial de este enfoque, cuando la matriz de peso es proporcional a la matriz identidad. Como es sabido, existe una descomposición para matrices (u operadores) simétricas . Por lo tanto, el funcional especificado se puede representar de la siguiente manera: , es decir, este funcional se puede representar como la suma de los cuadrados de algunos "residuos" transformados. Por lo tanto, podemos distinguir una clase de métodos de mínimos cuadrados: métodos LS (Least Squares).

Se ha demostrado (teorema de Aitken) que para un modelo de regresión lineal generalizado (en el que no se imponen restricciones a la matriz de covarianza de errores aleatorios), las más efectivas (en la clase de estimaciones lineales no sesgadas) son las estimaciones de las denominadas . Mínimos cuadrados generalizados (GLS, GLS - Mínimos cuadrados generalizados)  - Método LS con una matriz de peso igual a la matriz de covarianza inversa de errores aleatorios: .

Se puede demostrar que la fórmula para las estimaciones GLS de los parámetros del modelo lineal tiene la forma

.

La matriz de covarianza de estas estimaciones, respectivamente, será igual a

.

De hecho, la esencia del OLS radica en una cierta transformación (lineal) (P) de los datos originales y la aplicación de los mínimos cuadrados habituales a los datos transformados. El propósito de esta transformación es que para los datos transformados, los errores aleatorios ya satisfagan los supuestos clásicos.

OLS ponderado

En el caso de una matriz de ponderación diagonal (y por lo tanto una matriz de covarianza de errores aleatorios), tenemos los llamados mínimos cuadrados ponderados. En este caso, se minimiza la suma ponderada de cuadrados de los residuos del modelo, es decir, cada observación recibe un "peso" que es inversamente proporcional a la varianza del error aleatorio en esta observación: . De hecho, los datos se transforman ponderando las observaciones (dividiendo por una cantidad proporcional a la desviación estándar supuesta de los errores aleatorios), y se aplican mínimos cuadrados normales a los datos ponderados.

Véase también

Notas

  1. Legendre, Sobre mínimos cuadrados. Traducido del francés por el profesor Henry A. Ruger y la profesora Helen M. Walker, Teachers College, Universidad de Columbia, ciudad de Nueva York. Archivado el 7 de enero de 2011 en Wayback Machine . 
  2. Aleksandrova, 2008 , pág. 102.
  3. Linnik, 1962 , pág. 21
  4. Magnus, Katyshev, Peresetsky, 2007 , designación RSS no unificada. RSS puede ser la abreviatura de suma de cuadrados de regresión, y ESS puede ser la abreviatura de suma de cuadrados de error, por lo que RSS y ESS tendrán el significado opuesto. Con. 52. Ediciones de 2004..

Literatura

  • Yu V. Linnik El método de los mínimos cuadrados y los fundamentos de la teoría matemático-estadística del procesamiento de la observación. - 2ª ed. - M. , 1962.(teoría matemática)
  • Ayvazyan S.A. Estadística aplicada. Fundamentos de econometría. Volumen 2. - M. : Unity-Dana, 2001. - 432 p. - ISBN 5-238-00305-6 .
  • Dougherty K. Introducción a la econometría: Per. De inglés. - M. : INFRA-M, 1999. - 402 p. — ISBN 8-86225-458-7 .
  • Kremer N. Sh., Putko B. A. Econometría. - M. : Unidad-Dana, 2003-2004. — 311 pág. — ISBN 8-86225-458-7 .
  • Magnus Ya. R., Katyshev P. K., Peresetsky A. A. Econometría. Curso inicial. - M. : Delo, 2007. - 504 p. - ISBN 978-5-7749-0473-0 .
  • Econometría. Libro de texto / Ed. Eliseeva I. I. - 2ª ed. - M. : Finanzas y estadísticas, 2006. - 576 p. — ISBN 5-279-02786-3 .
  • Aleksandrova N. V. Historia de términos matemáticos, conceptos, designaciones: un diccionario de referencia. - 3ra ed. - M . : LKI, 2008. - 248 p. - ISBN 978-5-382-00839-4 .
  • Vitkovsky VV Mínimos cuadrados // Diccionario enciclopédico de Brockhaus y Efron  : en 86 volúmenes (82 volúmenes y 4 adicionales). - San Petersburgo. , 1890-1907.
  • Mitin IV, Rusakov VS Análisis y procesamiento de datos experimentales. — 5ª edición. — 24 s.

Enlaces