Regresión logística

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 8 de febrero de 2022; la verificación requiere 1 edición .

La regresión logística o modelo logit ( modelo logit en inglés  ) es un modelo estadístico utilizado para predecir la probabilidad de que ocurra un evento comparándolo con una curva logística . Esta regresión da la respuesta como la probabilidad de un evento binario (1 o 0).

Descripción

La regresión logística se utiliza para predecir la probabilidad de que ocurra un evento en función de los valores de un conjunto de características. Para esto, se introduce la llamada variable dependiente , que toma solo uno de dos valores; por regla general, estos son los números 0 (el evento no ocurrió) y 1 (el evento ocurrió), y un conjunto de variables independientes (también llamadas signos, predictores o regresores) - reales , sobre la base de cuyos valores se requiere calcular la probabilidad de aceptar uno u otro valor de la variable dependiente. Como en el caso de la regresión lineal , para facilitar la notación, se introduce una función ficticia

Se supone que la probabilidad de que ocurra un evento es:

donde y  son vectores de columna de valores de variables independientes y parámetros (coeficientes de regresión) - números reales , respectivamente, y  es la llamada función logística (a veces también llamada función sigmoide o logit):

Como toma solo los valores 0 y 1, la probabilidad de tomar el valor 0 es:

Para abreviar , la función de distribución dada se puede escribir de la siguiente forma:

De hecho, esta es una distribución de Bernoulli con un parámetro igual a .

Selección de parámetros

Para seleccionar los parámetros , es necesario hacer una muestra de entrenamiento que consta de conjuntos de valores de variables independientes y valores correspondientes de la variable dependiente . Formalmente, este es un conjunto de pares , donde  es el vector de valores de las variables independientes, y  es el valor que les corresponde . Cada uno de estos pares se denomina ejemplo de entrenamiento.

Habitualmente se utiliza el método de máxima verosimilitud , según el cual se eligen parámetros que maximicen el valor de la función de verosimilitud sobre la muestra de entrenamiento:

Maximizar la función de verosimilitud es equivalente a maximizar su logaritmo :

, dónde

Para maximizar esta función, por ejemplo, se puede aplicar el método de descenso de gradiente . Consiste en realizar las siguientes iteraciones, partiendo de algún valor de parámetro inicial :

En la práctica, también se utilizan el método de Newton y el descenso de gradiente estocástico .

Regularización

Para mejorar la capacidad de generalización del modelo resultante, es decir, para reducir el efecto del sobreajuste , en la práctica se suele considerar la regresión logística con regularización .

La regularización radica en el hecho de que el vector de parámetros se trata como un vector aleatorio con cierta densidad de distribución dada a priori . Para entrenar el modelo, en lugar del método de máxima verosimilitud , se utiliza el método de maximizar la estimación a posteriori , es decir, se buscan los parámetros que maximizan el valor:

La distribución previa suele ser una distribución normal multivariante de media cero con una matriz de covarianza correspondiente a la creencia a priori de que todos los coeficientes de regresión deben ser números pequeños, idealmente muchos coeficientes de poca importancia deben ser cero. Sustituyendo la densidad de esta distribución previa en la fórmula anterior y tomando el logaritmo, obtenemos el siguiente problema de optimización:

donde  es el parámetro de regularización. Este método se conoce como regresión logística regularizada L2 porque la función objetivo incluye la norma L2 del vector de parámetros para la regularización.

Si en lugar de la norma L2 usamos la norma L1 , que es equivalente a usar la distribución de Laplace a priori en lugar de la normal, entonces obtenemos otra versión común del método: la regresión logística regularizada L1:

Aplicación

Este modelo se usa a menudo para resolver problemas de clasificación  : un objeto se puede asignar a la clase si la probabilidad predicha por el modelo y a la clase en caso contrario. Las reglas de clasificación resultantes son clasificadores lineales .

Métodos relacionados

La regresión probit es muy similar a la regresión logística , difiriendo de ella sólo en una elección diferente de función . La regresión Softmax generaliza la regresión logística al caso de clasificación multiclase, es decir, cuando la variable dependiente toma más de dos valores. Todos estos modelos, a su vez, son representantes de una amplia clase de modelos estadísticos: modelos lineales generalizados .

Véase también

Literatura