Un modelo de elección binaria es un modelo de dependencia de una variable binaria (que toma solo dos valores: 0 y 1) en un conjunto de factores utilizados en econometría . La construcción de un modelo lineal ordinario para tales variables dependientes es teóricamente incorrecta, ya que la expectativa condicional de tales variables es igual a la probabilidad de que la variable dependiente tome el valor 1, y el modelo lineal permite, entre otras cosas, valores negativos y valores superiores a 1 (a pesar de que la probabilidad debe ser de 0 a 1). Por lo tanto, algunas funciones de distribución acumulativa se usan comúnmente. Las más utilizadas son la distribución normal ( probit ), la distribución logística ( logit) , la distribución de Gompertz (gompit).
Sea la variable binaria, es decir, sólo puede tomar dos valores, los cuales, por simplicidad, se supone que son iguales a y . Por ejemplo, puede significar la presencia/ausencia de alguna condición, el éxito o fracaso de algo, la respuesta es sí/no en una encuesta, etc. Sea también un vector de regresores (factores) que afectan .
El modelo de regresión se ocupa de la expectativa factor-condicional de la variable dependiente, que en este caso es igual a la probabilidad de que la variable dependiente sea igual a 1. De hecho, por la definición de la expectativa matemática y teniendo en cuenta solo dos valores posibles , tenemos:
En este sentido, el uso de, por ejemplo, el modelo de regresión lineal estándar es teóricamente incorrecto, aunque solo sea porque la probabilidad, por definición, toma valores limitados de 0 a 1. En este sentido, es razonable modelar a través de la funciones integrales de ciertas distribuciones.
Se suele suponer que existe alguna variable "ordinaria" oculta (no observada) , dependiendo de los valores de los cuales la variable observada toma el valor 0 o uno:
Se supone que la variable latente depende de los factores en el sentido de la regresión lineal habitual , donde el error aleatorio tiene una distribución . Después
Si la distribución es simétrica, entonces podemos escribir
Otra justificación es utilizar el concepto de la utilidad de las alternativas - función no observable , es decir, de hecho, dos funciones y, respectivamente, para dos alternativas. Es lógico suponer que si, para valores dados de los factores, la utilidad de una alternativa es mayor que la utilidad de la otra, entonces se elige la primera y viceversa. En este sentido, es razonable considerar la función de diferencia de utilidad de alternativas . Si es mayor que cero, se elige la primera alternativa, si es menor o igual a cero, la segunda. Por lo tanto, la función de diferencia de utilidad de las alternativas aquí juega el papel de la variable muy oculta. La presencia de un error aleatorio en los modelos de utilidad permite tener en cuenta el determinismo de elección no absoluto (al menos, la no determinación por un conjunto dado de factores, aunque existe un elemento de aleatoriedad de elección para cualquier conjunto de factores). factores).
probito _ El modelo probitutiliza la función acumulativa de la distribución normal estándar:
Logit . El modelo logit utiliza la CDF de la distribución logística:
Gompit . Se utiliza la distribución de valores extremos, la distribución de Gompertz:
La estimación se realiza generalmente por el método de máxima verosimilitud . Sea una muestra del volumen de factores y una variable dependiente . Para un número de observación dado, utilice el índice . La probabilidad de obtener un valor en una observación se puede modelar de la siguiente manera:
De hecho, si , entonces el segundo factor es obviamente igual a 1, y el primero es solo , pero si , entonces el primer factor es igual a uno y el segundo es igual a . Se supone que los datos son independientes. Por lo tanto, la función de verosimilitud se puede obtener como el producto de las probabilidades anteriores:
En consecuencia , la función de verosimilitud logarítmica tiene la forma:
La maximización de esta función con respecto a parámetros desconocidos permite obtener estimaciones de parámetros consistentes , asintóticamente eficientes y asintóticamente normales . Esto último significa que:
donde es la matriz de covarianza asintótica de las estimaciones de los parámetros, que se determina de forma estándar para el método de máxima verosimilitud (mediante la hessiana o el gradiente de la función logaritmo de verosimilitud en el punto óptimo).
donde son los valores del log-verosimilitud del modelo estimado y del modelo restringido, en el cual es una constante (no depende de los factores x, excluyendo la constante del conjunto de factores).
Este estadístico, como en el caso general de utilizar el método de máxima verosimilitud, permite contrastar la significación estadística del modelo en su conjunto. Si su valor es lo suficientemente grande (más que el valor crítico de la distribución , donde es el número de factores (sin una constante) del modelo), entonces el modelo puede considerarse estadísticamente significativo.
También se utilizan análogos del coeficiente de determinación clásico , por ejemplo:
Ambos indicadores van de 0 a 1.
Es importante analizar la proporción de predicciones correctas en función del umbral de clasificación seleccionado (a partir de qué nivel de probabilidad se toma el valor 1). Normalmente, la curva ROC se utiliza para evaluar la calidad del modelo y el indicador AUC es el área bajo la curva ROC.
Se desconoce la distribución exacta de esta estadística, pero los autores han descubierto mediante simulación que se aproxima a la distribución .