Regresión probit

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 7 de octubre de 2019; las comprobaciones requieren 3 ediciones .

La regresión probit ( modelo probit , ing.  probit ) es un modelo y método estadístico (no lineal) para analizar la dependencia de variables cualitativas (principalmente binarias) de una variedad de factores, con base en la distribución normal (a diferencia, por ejemplo, de la regresión logit similar , que se basa en la distribución logística ). En economía ( econometría ), los modelos probit (junto con logit, gompit, etc.) se utilizan en modelos de elección binaria o en modelos de opción múltiple entre diferentes alternativas, para modelar incumplimientos de empresas , en seguros de vida - para estimar la probabilidad de muerte dependiendo sobre la edad y el género, etc. En toxicología, la regresión probit se utiliza para evaluar el efecto de una dosis o concentración de ciertas sustancias en objetos biológicos.

El modelo probit le permite estimar la probabilidad de que la variable analizada (dependiente) tome el valor 1 para valores de factor dados (es decir, es una estimación de la proporción de "unidades" para un valor de factor dado). En el modelo probit, la función probit de probabilidad se modela como una combinación lineal de factores (incluida una constante). La función probit se denomina función inversa a la función acumulada (CDF) de la distribución normal estándar, es decir, la función que determina el cuantil de la distribución normal estándar para una probabilidad dada .

El término " probit " como derivado del inglés.  La unidad de probabilidad fue sugerida (utilizada por primera vez) por Chester Ittner Bliss [1899-1979]) [1] en su artículo sobre el análisis cuantitativo del efecto letal de los venenos en el ejemplo del efecto de la nicotina en el pulgón oxal ( Aphis rumicis L. ) [1] . Desde entonces, el método de análisis probit ha sido especialmente popular en toxicología . El propio uso de la función de distribución normal para describir la relación “dosis-efecto” se remonta al matemático inglés J. W. Trevan, quien demostró que la intensidad de la respuesta celular a una determinada dosis de un fármaco obedece a la distribución gaussiana [2] .

Esencia del modelo

El modelo probit es un caso especial del modelo de elección binaria que utiliza la distribución normal. Es decir, deje que la variable dependiente sea binaria, es decir, puede tomar solo dos valores, que, por simplicidad, se supone que son y . Por ejemplo, puede significar la presencia/ausencia de alguna condición, el éxito o fracaso de algo, la respuesta es sí/no en una encuesta, etc. Sea también un vector de regresores (factores) que afectan . El modelo probit asume que la probabilidad de qué está determinada por la distribución normal, por lo que el modelo probit es:

donde  es la función de distribución acumulativa ( CDF ) de la distribución normal estándar,  son los parámetros desconocidos a estimar.

El uso de la distribución normal estándar no limita la generalidad del modelo, ya que se tiene en cuenta una posible media distinta de cero en una constante que necesariamente está presente entre los factores, y se tiene en cuenta una posible varianza no unitaria debido a la adecuada normalización de todos los coeficientes b.

Como en el caso general del modelo de elección binaria, el modelo se basa en el supuesto de que existe alguna variable oculta (no observada) , dependiendo de los valores de los cuales la variable observada toma el valor o :

Se supone que la variable latente depende de factores en el sentido de la regresión lineal ordinaria , donde el error aleatorio en este caso tiene una distribución normal estándar . Después

La última igualdad se deriva de la simetría de la distribución normal.

Además, el modelo se puede fundamentar a través de la utilidad de las alternativas: una función no observable , es decir, de hecho, dos funciones y, respectivamente, para dos alternativas. La función de diferencia de utilidad de las alternativas aquí juega el papel de esa variable muy oculta.

Estimación de Parámetros

La estimación se realiza generalmente por el método de máxima verosimilitud . Sea una muestra del volumen de factores y una variable dependiente . Para un número de observación dado, utilice el índice . La función log-verosimilitud tiene la forma:

La maximización de esta función con respecto a parámetros desconocidos permite obtener estimaciones de parámetros consistentes , asintóticamente eficientes y asintóticamente normales . Esto último significa que:

donde es la matriz de covarianza  asintótica de las estimaciones de parámetros, que se determina mediante el método estándar para el método de máxima verosimilitud (mediante la arpillera o el gradiente de la función logarítmica de verosimilitud en el punto óptimo):

,

donde  es la función de densidad de probabilidad ( PDF ) de la distribución normal estándar .

Se desconoce la matriz y se utiliza su estimación consistente :

Por lo general, la evaluación del modelo se realiza en productos de software especializados (estadísticos, econométricos ), por ejemplo, Statistica , EViews, Matrixer, R [3] , SPSS, etc. [4] , aunque la evaluación "manual" es posible, por ejemplo, en MS Office Excel, utilizando la "Búsqueda de una solución" integrada para maximizar la función de probabilidad de registro.

Métricas de calidad y pruebas de modelos

Para evaluar la calidad de la regresión probit construida, se utilizan las estadísticas estándar para modelos de elección binaria :

Es importante analizar la proporción de predicciones correctas. En particular, se analiza la proporción de pronósticos correctos y (o) incorrectos para el valor de cada uno de los valores de la variable dependiente (0 y 1).

Ejemplos

Toxicología

Considere el modelo probit utilizando el ejemplo de la acción de un insecticida sobre los insectos [5] [6] . La variable binaria dependiente es una variable que toma el valor 1 si el insecto muere y 0 en caso contrario. En una muestra de insectos, la respuesta de algunos insectos a un insecticida no depende de la respuesta de otros. El “metro” de la dosis actúa como factor del modelo , donde se encuentra la dosis del insecticida. La probabilidad de que un insecto seleccionado al azar de la población muera en un tiempo dado es igual a

.

Si se conocen los parámetros del modelo y (denotamos las estimaciones y respectivamente), entonces el nivel de dosis , en el que muere un cierto porcentaje de insectos, se encuentra a partir de la ecuación

,

donde  es el cuantil de nivel de la distribución normal estándar.

En particular, para el nivel de dosis al que muere el 50% de los insectos, . Este valor en toxicología se conoce comúnmente como LD 50 .

También puede construir un intervalo de confianza aproximado para lo siguiente: . La dispersión se puede estimar aproximadamente de la siguiente manera:

,

donde  es una estimación de la varianza de las estimaciones de los parámetros del modelo,  es una estimación de la covarianza entre las estimaciones de los parámetros.

Se puede estimar un intervalo de confianza más preciso a partir del teorema de Feller , según el cual los límites de confianza del 95% para son las raíces de la ecuación cuadrática

,

donde  es el punto de distribución t de Student del 95%.

Variaciones y generalizaciones

En la práctica, hay situaciones en las que es necesario explorar no dos alternativas, sino varias alternativas. Si estas alternativas están desordenadas, entonces se habla de un modelo probit multinominal . En el caso de alternativas ordenadas (por ejemplo, una evaluación de 5 puntos de la calidad de un servicio o producto), se habla de un modelo probit ordinal u ordenado ( ordered ) .

Véase también

Notas

  1. 12 Bliss CI. El método de los probits  (inglés)  // Ciencia. - 1934. - Vol. 79 , núm. 2037 . - Pág. 38-39 . -doi : 10.1126 / ciencia.79.2037.38 . — PMID 17813446 . — .
  2. Trevan, JW 1927. El error de determinación de la toxicidad. proc. Sociedad Real 101B: 483-514. citado en Albert A. Toxicidad selectiva. Bases físicas y químicas de la terapia. Por. De inglés. En 2 tomos. T. 1.- M: Medicina, 1989, S. 247. ISBN 5-225-01519-0
  3. Ejemplos de análisis de datos de R: regresión probit . Consultado el 3 de agosto de 2012. Archivado desde el original el 29 de noviembre de 2012.
  4. en:Comparación_de_paquetes_estadísticos#Regresión
  5. Finney, DJ Probit Analysis (3.ª edición  ) . - Cambridge University Press, Cambridge, Reino Unido, 1971. - ISBN 052108041X .
  6. Manual de Estadística Aplicada. En 2 volúmenes T. 1: Per. De inglés. / Ed. E. Lloyd, W. Lederman, Yu. N. Tyurin. — M.: Finanzas y estadísticas, 1989. — 510 p. — ISBN 5-279-00245-3

Literatura