Regresión logística

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 8 de febrero de 2022; la verificación requiere 1 edición .

La regresión logística o modelo logit ( modelo logit en inglés ) es un modelo estadístico utilizado para predecir la probabilidad de que ocurra un evento comparándolo con una curva logística . Esta regresión da la respuesta como la probabilidad de un evento binario (1 o 0).

Descripción

La regresión logística se utiliza para predecir la probabilidad de que ocurra un evento en función de los valores de un conjunto de características. Para esto, se introduce la llamada variable dependiente , que toma solo uno de dos valores; por regla general, estos son los números 0 (el evento no ocurrió) y 1 (el evento ocurrió), y un conjunto de variables independientes (también llamadas signos, predictores o regresores) - reales , sobre la base de cuyos valores se requiere calcular la probabilidad de aceptar uno u otro valor de la variable dependiente. Como en el caso de la regresión lineal , para facilitar la notación, se introduce una función ficticia $y$ $x_{1},x_{2},...,x_{n}$ ${\ estilo de visualización x_ {0} = 1.}$

Se supone que la probabilidad de que ocurra un evento es: $y=1$

{\mathbb {P}}\{y=1\mid x\}=f(z),

donde y son vectores de columna de valores de variables independientes y parámetros (coeficientes de regresión) - números reales , respectivamente, y es la llamada función logística (a veces también llamada función sigmoide o logit): ${\displaystyle z=\theta ^{T}x=\theta_{0}+\theta_{1}x_{1}+\ldots +\theta_{n}x_{n))$ $X$ $\ theta$ ${\ estilo de visualización 1, x_ {1}, \ puntos, x_ {n}}$ ${\ estilo de visualización \ theta _ {0},..., \ theta _ {n}}$ $f(z)$

f(z)={\frac{1}{1+e^{{-z))))

Como toma solo los valores 0 y 1, la probabilidad de tomar el valor 0 es: $y$

{\mathbb {P}}\{y=0\mid x\}=1-f(z)=1-f(\theta ^{T}x).

Para abreviar , la función de distribución dada se puede escribir de la siguiente forma: $y$ $X$

{\mathbb {P}}\{y\mid x\}=f(\theta ^{T}x)^{y}(1-f(\theta ^{T}x))^{{1-y }},\quad y\in \{0,1\}.

De hecho, esta es una distribución de Bernoulli con un parámetro igual a . $f(\theta^{T}x)$

Selección de parámetros

Para seleccionar los parámetros , es necesario hacer una muestra de entrenamiento que consta de conjuntos de valores de variables independientes y valores correspondientes de la variable dependiente . Formalmente, este es un conjunto de pares , donde es el vector de valores de las variables independientes, y es el valor que les corresponde . Cada uno de estos pares se denomina ejemplo de entrenamiento. ${\ estilo de visualización \ theta _ {0},..., \ theta _ {n}}$ $y$ ${\ estilo de visualización (x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)})}$ $x^{{(i)}}\in {\mathbb{R}}^{n}$ $y^{{(i)}}\en \{0,1\}$ $y$

Habitualmente se utiliza el método de máxima verosimilitud , según el cual se eligen parámetros que maximicen el valor de la función de verosimilitud sobre la muestra de entrenamiento: $\ theta$

{\sombrero {\theta }}=\nombre de operador {argmax}_{{\theta }}L(\theta )=\nombre de operador {argmax}_({\theta }}\prod _{{i=1}}^ {{m}}{\mathbb {P}}\{y=y^{{(i)}}\mid x=x^{{(i)}}\}.

Maximizar la función de verosimilitud es equivalente a maximizar su logaritmo :

\ln L(\theta )=\sum _{i=1}^{m}\log \mathbb {P} \{y=y^{(i)}\mid x=x^{(i )}\}=\sum _{i=1}^{m}{\Gran [}y^{(i)}\ln f(\theta ^{T}x^{(i)})+(1 -y^{(i)})\ln(1-f(\theta ^{T}x^{(i)})){\Grande]}

, dónde

\theta ^{T}x^{(i)}=\theta_{0}+\theta_{1}x_{1}^{(i)}+\dots +\theta_{n} x_{n}^{(yo)}.

Para maximizar esta función, por ejemplo, se puede aplicar el método de descenso de gradiente . Consiste en realizar las siguientes iteraciones, partiendo de algún valor de parámetro inicial : $\ theta$

\theta :=\theta +\alpha \nabla \ln L(\theta )=\theta +\alpha \sum _{{i=1}}^{{m}}(y^{{(i)}} -f(\theta ^{T}x^{{(i)}}))x^{{(i)}},\alpha >0.

En la práctica, también se utilizan el método de Newton y el descenso de gradiente estocástico .

Regularización

Para mejorar la capacidad de generalización del modelo resultante, es decir, para reducir el efecto del sobreajuste , en la práctica se suele considerar la regresión logística con regularización .

La regularización radica en el hecho de que el vector de parámetros se trata como un vector aleatorio con cierta densidad de distribución dada a priori . Para entrenar el modelo, en lugar del método de máxima verosimilitud , se utiliza el método de maximizar la estimación a posteriori , es decir, se buscan los parámetros que maximizan el valor: $\ theta$ $p(\theta)$ $\ theta$

\prod _{{i=1}}^{m}{\mathbb {P}}\{y^{{(i)}}\mid x^{{(i)}},\theta \}\cdot p(\theta).

La distribución previa suele ser una distribución normal multivariante de media cero con una matriz de covarianza correspondiente a la creencia a priori de que todos los coeficientes de regresión deben ser números pequeños, idealmente muchos coeficientes de poca importancia deben ser cero. Sustituyendo la densidad de esta distribución previa en la fórmula anterior y tomando el logaritmo, obtenemos el siguiente problema de optimización: ${\mathcal {N}}(0,\sigma ^{2}I)$ $\sigma ^{2}yo$

\sum \limits _{{i=1}}^{m}\log {\mathbb {P}}\{y^{{(i)}}\mid x^{{(i))),\theta \}-\lambda \|\theta \|^{2}\,\to {\mbox{max)),

donde es el parámetro de regularización. Este método se conoce como regresión logística regularizada L2 porque la función objetivo incluye la norma L2 del vector de parámetros para la regularización. $\lambda ={\mbox{const}}/{\sigma^{2}}$

Si en lugar de la norma L2 usamos la norma L1 , que es equivalente a usar la distribución de Laplace a priori en lugar de la normal, entonces obtenemos otra versión común del método: la regresión logística regularizada L1:

\sum _{{i=1}}^{m}\log {\mathbb {P}}\{y^{{(i)}}\mid x^{{(i))),\theta \} -\lambda \|\theta \|_{1}\,\to {\mbox{max}}.

Aplicación

Este modelo se usa a menudo para resolver problemas de clasificación : un objeto se puede asignar a la clase si la probabilidad predicha por el modelo y a la clase en caso contrario. Las reglas de clasificación resultantes son clasificadores lineales . $X$ $y=1$ ${\mathbb {P}}\{y=1\mid x\}>0{,}5$ $y=0$

Métodos relacionados

La regresión probit es muy similar a la regresión logística , difiriendo de ella sólo en una elección diferente de función . La regresión Softmax generaliza la regresión logística al caso de clasificación multiclase, es decir, cuando la variable dependiente toma más de dos valores. Todos estos modelos, a su vez, son representantes de una amplia clase de modelos estadísticos: modelos lineales generalizados . $f(z)$ $y$

Véase también

Literatura

Andrés Ng. Notas de clase de Stanford CS229

Mínimos cuadrados y análisis de regresión

Estadísticas computacionales

Método de mínimos cuadrados
multinacional lineal
Mínimos cuadrados no lineales
LSM con recálculo iterativo de pesos

Correlación
y dependencia

Coeficiente de correlación de Pearson
Correlación de rango ( Spearman
Kendall )
Correlación parcial
factor de distorsión

Análisis de regresión

multinacional normal
Método de mínimos cuadrados parciales
Mínimos cuadrados completos
Regresión de cresta

La regresión como modelo
estadístico

Regresión lineal	Regresión lineal simple multinacional normal Mínimos cuadrados generalizados Mínimos cuadrados ponderados Modelo lineal básico
marco predictivo	Regresión polinomial curva de crecimiento regresión segmentada regresión local
Regresión personalizada	no lineal no paramétrico semiparamétrico sostenible cuantil isotónico
Errores no estándar	Modelo lineal generalizado regresión binomial Regresión de Poisson Regresión logística

descomposición de la varianza

Análisis de variación
Análisis de covarianza
Análisis de varianza multivariante

estudio modelo

C p Malvas
Regresión paso a paso
Elegir un modelo estadístico
Validación del modelo de regresión

requisitos previos

Respuesta media y esperada
Teorema de Gauss-Markov
Errores y desviaciones
Prueba estadística
Saldo estudentizado
Error cuadrático medio mínimo

Planificación
de experimentos

Metodología de superficie de respuesta
Diseño óptimo de experimentos
Diseño de experimentos bayesianos

Aproximación numérica

Aplicaciones

Aproximación mediante curvas
Curva de calibración
Filtro Savitsky-Golay
Identificación del sistema
Método de mínimos cuadrados móviles

Aprendizaje automático y minería de datos
Tareas	Problema de clasificación Aprender sin un maestro Aprendizaje asistido por profesores Análisis de regresión AutoML reglas de asociación Extracción de características entrenamiento de rasgos Entrenamiento de clasificación Derivación gramatical Aprender en línea
Aprendiendo con un maestro	método del k-vecino más cercano Clasificador bayesiano ingenuo árbol de decisión Máquinas de vectores soporte Regresión lineal Regresión logística perceptrón conjuntos de modelos Harpillera impulsar bosque aleatorio Método de vector relevante
análisis de conglomerados	método k-medias método de agrupamiento difuso Agrupación jerárquica algoritmo EM ABEDUL CURAR DBSCAN ÓPTICA Desplazamiento medio
Reducción de dimensionalidad	Análisis factorial Método de componentes principales CCA ACI LDA Expansión de matriz no negativa t-SNE
Pronóstico estructural	Graficar modelo probabilístico red bayesiana Modelo oculto de Markov FRC
Detección de anomalías	método del k-vecino más cercano Nivel de emisión local
Graficar modelos probabilísticos	red bayesiana Red de Markov Modelo oculto de Markov
Redes neuronales	Máquina Boltzmann limitada mapa autoorganizado Función de activación Sigmoideo softmax Funcion de base radial Método de propagación hacia atrás Aprendizaje profundo perceptrón multicapa Red neuronal recurrente memoria a corto plazo Bloque recurrente controlado Red neuronal convolucional U-red Codificador automático
Aprendizaje reforzado	proceso de Markov Ecuación de Bellman Algoritmo codicioso Q-aprendizaje SARAS Diferencia temporal (DT)
Teoría	Teoría de Vapnik-Chervonenkis Dilema de dispersión de sesgo Teoría del aprendizaje computacional Minimización empírica del riesgo El aprendizaje de Occam aprendizaje PAC Teoría del aprendizaje estadístico
revistas y congresos	NeurIPS ICML ML JMLR ArXiv:cs.LG