Errores de primer y segundo tipo.

Error del primer tipo ( error α, conclusión positiva falsa ): una situación en la que se rechaza la hipótesis nula correcta (sobre la ausencia de una conexión entre los fenómenos o el efecto deseado).

El error de segundo tipo ( error β, conclusión negativa falsa ) es una situación en la que se acepta una hipótesis nula incorrecta.

En estadística matemática , estos son los conceptos clave de los problemas de prueba de hipótesis estadísticas . Estos conceptos se suelen utilizar en otros ámbitos a la hora de tomar una decisión “binaria” (sí/no) en base a algún criterio (prueba, verificación, medida), que, con cierta probabilidad, puede dar un resultado falso.

Definiciones

Deje que se dé una muestra de una distribución conjunta desconocida y se plantee el problema binario de probar hipótesis estadísticas: ${\mathbf {X}}=(X_{1},\ldots,X_{n})^{{\arriba}}$ ${\mathbb {P}}^{{{\mathbf {X}}}}$

{\begin{matriz}H_{0}\\H_{1},\end{matriz}}

donde es la hipótesis nula , y es la hipótesis alternativa . Suponga que se da una prueba estadística $H_{0}$ $H_1$

f:{\mathbb {R}}^{n}\a \{H_{0},H_{1}\}

comparando cada implementación de la muestra con una de las hipótesis disponibles. Entonces son posibles las siguientes cuatro situaciones: $\mathbf{X} =\mathbf{x}$

La distribución de la muestra corresponde a la hipótesis , y está precisamente determinada por el criterio estadístico, es decir, . ${\mathbb {P}}^{{{\mathbf {X}}}}$ $\mathbf{X}$ $H_{0}$ $f({\mathbf{x}})=H_{0}$
La distribución muestral corresponde a la hipótesis , pero es incorrectamente rechazada por la prueba estadística, es decir, . ${\mathbb {P}}^{{{\mathbf {X}}}}$ $\mathbf{X}$ $H_{0}$ $f({\mathbf{x}})=H_{1}$
La distribución de la muestra corresponde a la hipótesis , y está precisamente determinada por el criterio estadístico, es decir, . ${\mathbb {P}}^{{{\mathbf {X}}}}$ $\mathbf{X}$ $H_1$ $f({\mathbf{x}})=H_{1}$
La distribución muestral corresponde a la hipótesis , pero es incorrectamente rechazada por la prueba estadística, es decir, . ${\mathbb {P}}^{{{\mathbf {X}}}}$ $\mathbf{X}$ $H_1$ $f({\mathbf{x}})=H_{0}$

En el segundo y cuarto caso, decimos que se ha producido un error estadístico, y se denomina error de primera y segunda clase, respectivamente [1] [2] .

		Hipótesis correcta
		$H_{0}$	$H_1$
El resultado de aplicar el criterio	$H_{0}$	$H_{0}$ correctamente aceptado	$H_{0}$ recibido incorrectamente (error de segundo tipo)
El resultado de aplicar el criterio	$H_1$	$H_{0}$ rechazado incorrectamente ( error tipo I )	$H_{0}$ correctamente rechazado

Sobre el significado de los errores de primer y segundo tipo

De la definición anterior se puede ver que los errores del primer y segundo tipo son mutuamente simétricos, es decir, si las hipótesis y se intercambian , los errores del primer tipo se convertirán en errores del segundo tipo y viceversa. Sin embargo, en la mayoría de las situaciones prácticas, no hay confusión, ya que generalmente se acepta que la hipótesis nula corresponde al estado "predeterminado" (el estado de cosas natural y más esperado), por ejemplo, que la persona que se examina está sana, o que un pasajero que pasa por el detector de metales no tiene objetos metálicos prohibidos. En consecuencia, la hipótesis alternativa denota la situación contraria, que suele interpretarse como menos probable, extraordinaria, que requiere algún tipo de reacción. $H_{0}$ $H_1$ $H_{0}$ $H_1$

Dicho esto, un error de tipo I a menudo se denomina falsa alarma , falso positivo o falso positivo . Si, por ejemplo, un análisis de sangre mostró la presencia de una enfermedad, aunque en realidad la persona está sana, o un detector de metales dio una alarma al activar una hebilla de cinturón de metal, entonces la hipótesis aceptada no es correcta, y por lo tanto un Tipo I se ha cometido un error. La palabra "falso positivo" en este caso no tiene nada que ver con la conveniencia o indeseabilidad del evento en sí.

El término es ampliamente utilizado en medicina. Por ejemplo, las pruebas diseñadas para diagnosticar enfermedades a veces dan un resultado positivo (es decir, muestran que un paciente tiene una enfermedad) cuando, de hecho, el paciente no padece esta enfermedad. Tal resultado se llama falso positivo .

En otras áreas, se suelen usar frases con un significado similar, por ejemplo, "falso positivo", "falsa alarma", etc. En tecnología de la información, el término inglés falso positivo se usa a menudo sin traducción.

Debido a la posibilidad de falsos positivos, no es posible automatizar por completo la lucha contra muchos tipos de amenazas. Como regla general, la probabilidad de un falso positivo se correlaciona con la probabilidad de perder un evento (error de segundo tipo). Es decir: cuanto más sensible es el sistema, más eventos peligrosos detecta y, por lo tanto, previene. Pero a medida que aumenta la sensibilidad, la probabilidad de falsos positivos aumenta inevitablemente. Por lo tanto, un sistema de defensa configurado demasiado sensible (paranoico) puede degenerar en su opuesto y llevar al hecho de que el daño colateral excederá el beneficio.

En consecuencia, un error de tipo II a veces se denomina evento perdido o falso negativo . La persona está enferma, pero el análisis de sangre no lo mostró, o el pasajero tiene un arma fría, pero el marco del detector de metales no la detectó (por ejemplo, debido al hecho de que la sensibilidad del marco se ajusta para detectar solo objetos metálicos muy masivos). Estos ejemplos apuntan a un error de tipo II. La palabra "falso negativo" en este caso no tiene nada que ver con la conveniencia o indeseabilidad del evento en sí.

El término es ampliamente utilizado en medicina. Por ejemplo, las pruebas diseñadas para diagnosticar enfermedades a veces dan un resultado negativo (es decir, muestran que el paciente no tiene una enfermedad) cuando en realidad el paciente tiene esta enfermedad. Tal resultado se llama falso negativo .

En otros ámbitos se suelen utilizar frases con un significado similar, por ejemplo, "faltar un evento", etc.

Dado que la probabilidad de cometer un error de tipo I suele disminuir cuando aumenta la probabilidad de cometer un error de tipo II, y viceversa, la puesta a punto del sistema de toma de decisiones debe representar un compromiso. Dónde se ubica exactamente el punto de equilibrio obtenido por tal ajuste depende de la evaluación de las consecuencias de cometer ambos tipos de errores.

Probabilidades de error ( nivel de significación y potencia)

La probabilidad de un error de tipo I al probar hipótesis estadísticas se denomina nivel de significación y generalmente se denota con una letra griega (de ahí el nombre de error). $\alfa$ $\alfa$

La probabilidad de un error del segundo tipo no tiene ningún nombre especial generalmente aceptado, se denota con una letra griega (de ahí el nombre error). Sin embargo, este valor está estrechamente relacionado con otro, que tiene una gran significación estadística: el poder del criterio . Se calcula según la fórmula Así, cuanto mayor sea la potencia del criterio, menor será la probabilidad de cometer un error de tipo II. $\beta$ $\beta$ ${\ estilo de visualización (1- \ beta).}$

Ambas características generalmente se calculan utilizando la llamada función de potencia de prueba . En particular, la probabilidad de error Tipo I es una función de potencia calculada bajo la hipótesis nula. Para las pruebas basadas en una muestra de un tamaño fijo, la probabilidad de un error de tipo II es uno menos una función de potencia calculada asumiendo que la distribución de las observaciones se ajusta a la hipótesis alternativa. Para criterios sucesivos , esto también es cierto si el criterio se detiene con probabilidad uno (dada la distribución de la alternativa).

En las pruebas estadísticas, suele haber una compensación entre un nivel aceptable de errores de tipo I y tipo II . A menudo, se utiliza un valor de umbral para tomar una decisión, que puede variar para que la prueba sea más estricta o, por el contrario, más suave. Este valor de umbral es el nivel de significación que se otorga al probar hipótesis estadísticas . Por ejemplo, en el caso de un detector de metales, aumentar la sensibilidad del dispositivo aumentará el riesgo de error de tipo 1 (falsa alarma), mientras que reducir la sensibilidad aumentará el riesgo de error de tipo 2 (falta de alarma prohibida). artículo).

Ejemplos de uso

Radar

En la tarea de detección por radar de objetivos aéreos, principalmente en el sistema de defensa aérea, los errores de primer y segundo tipo, con la redacción "falsa alarma" y "falta de objetivo" son uno de los elementos principales tanto de la teoría como de la práctica de construcción de estaciones de radar . Este es probablemente el primer ejemplo de una aplicación consistente de métodos estadísticos en todo el campo técnico.

Computadoras

Los conceptos de errores Tipo I y Tipo II son ampliamente utilizados en el campo de las computadoras y el software.

Seguridad informática

La presencia de vulnerabilidades en los sistemas informáticos lleva a que, por un lado, sea necesario solucionar el problema del mantenimiento de la integridad de los datos informáticos, y por otro lado, garantizar el normal acceso de los usuarios legales a estos datos ( ver seguridad informática ). En este contexto, son posibles las siguientes situaciones indeseables [3] :

cuando los usuarios autorizados son clasificados como infractores ( Errores Tipo I );
cuando los infractores son calificados como usuarios autorizados ( errores de segunda especie ).

Filtrado de spam

Un error de tipo 1 se produce cuando un mecanismo de filtrado/bloqueo de correo no deseado clasifica por error un mensaje de correo electrónico legítimo como correo no deseado y evita que se entregue con normalidad. Si bien la mayoría de los algoritmos antispam son capaces de bloquear/filtrar un gran porcentaje de correos electrónicos no deseados, es mucho más importante minimizar la cantidad de "falsas alarmas" (bloqueo erróneo de mensajes deseados).

Un error de tipo II se produce cuando un sistema antispam deja pasar por error un mensaje no deseado, clasificándolo como "no spam". El bajo nivel de tales errores es un indicador de la eficacia del algoritmo antispam.

Hasta el momento, no ha sido posible crear un sistema anti-spam sin una correlación entre la probabilidad de errores del primer y segundo tipo. La probabilidad de perder spam en los sistemas modernos oscila entre el 1 % y el 30 %. La probabilidad de rechazar por error un mensaje válido es del 0,001% al 3%. La elección de un sistema y su configuración depende de las condiciones de un destinatario en particular: para algunos destinatarios, el riesgo de perder el 1 % del correo correcto se considera insignificante, para otros, la pérdida de incluso el 0,1 % es inaceptable.

Software malicioso

El concepto de error Tipo I también se utiliza cuando el software antivirus clasifica erróneamente un archivo inofensivo como un virus . La detección incorrecta puede ser causada por heurística o por una firma de virus incorrecta en la base de datos. También pueden ocurrir problemas similares con los programas anti - troyanos y anti- spyware .

Búsqueda de bases de datos informáticas

Al buscar en una base de datos, los errores del primer tipo incluyen documentos que son emitidos por la búsqueda, a pesar de su irrelevancia (inconsistencia) con la consulta de búsqueda. Los falsos positivos son típicos de la búsqueda de texto completo , cuando el algoritmo de búsqueda analiza los textos completos de todos los documentos almacenados en la base de datos e intenta hacer coincidir uno o más términos especificados por el usuario en la consulta.

La mayoría de los falsos positivos se deben a la complejidad de los lenguajes naturales , la ambigüedad de las palabras: por ejemplo, "casa" puede significar tanto "el lugar de residencia de una persona" como "la página raíz de un sitio web". El número de tales errores se puede reducir utilizando un diccionario especial . Sin embargo, esta solución es relativamente costosa, ya que dicho vocabulario y marcado de documentos ( indexación ) debe ser creado por un experto.

Reconocimiento óptico de caracteres (OCR)

Varios algoritmos de detección a menudo dan errores del primer tipo . El software OCR puede reconocer la letra "a" en una situación en la que en realidad hay varios puntos.

Inspección de pasajeros y equipajes

Los errores de tipo I ocurren regularmente todos los días en los sistemas informáticos de inspección de los aeropuertos. Los detectores instalados en ellos están diseñados para impedir el porte de armas a bordo de la aeronave; sin embargo, a menudo tienen un nivel de sensibilidad tan alto que muchas veces al día disparan contra objetos menores como llaves, hebillas de cinturones, monedas, teléfonos móviles, clavos en las suelas de los zapatos, etc. (consulte Detección de explosivos)., detectores de metales ).

Así, la relación entre el número de falsas alarmas (identificación de un pasajero digno como delincuente) y el número de alarmas correctas (detección de elementos realmente prohibidos) es muy alta.

Biometría

Los errores del primer y segundo tipo son un gran problema en los sistemas de escaneo biométrico que utilizan el reconocimiento del iris o la retina del ojo, rasgos faciales , etc. Dichos sistemas de escaneo pueden identificar erróneamente a alguien con otra persona "conocida" por el sistema, información sobre quién está almacenado en la base de datos (por ejemplo, puede ser una persona con derecho a iniciar sesión o un presunto delincuente, etc.). El error contrario sería que el sistema no reconozca a un usuario registrado legítimo, o que no identifique a un sospechoso de un delito [4] .

Diagnósticos médicos masivos (detección)

En la práctica médica, existe una diferencia significativa entre la detección y la prueba :

La detección implica pruebas relativamente baratas que se realizan en un gran grupo de personas en ausencia de signos clínicos de enfermedad (como una prueba de Papanicolaou ).
Las pruebas implican procedimientos mucho más costosos , a menudo invasivos, que se realizan solo en aquellos que muestran signos clínicos de la enfermedad y se utilizan principalmente para confirmar un diagnóstico sospechoso.

Por ejemplo, la mayoría de los estados de los Estados Unidos requieren que los recién nacidos sean examinados para detectar hidroxifenilcetonuria e hipotiroidismo , entre otras anomalías congénitas . A pesar de la alta tasa de errores de Tipo I , estos procedimientos de detección se consideran valiosos porque aumentan sustancialmente la probabilidad de detectar estos trastornos en una etapa muy temprana [5] .

Los análisis de sangre sencillos que se utilizan para detectar el VIH y la hepatitis en los donantes potenciales tienen un nivel significativo de error de tipo I ; sin embargo, los médicos tienen pruebas mucho más precisas (y por lo tanto costosas) en su arsenal para verificar si una persona está realmente infectada con alguno de estos virus.

Quizás el más debatido es el error de tipo I en los procedimientos de detección del cáncer de mama ( mamografía ). En los Estados Unidos, la tasa de error de tipo I en las mamografías llega al 15 %, la más alta del mundo [6] . El nivel más bajo se observa en los Países Bajos , 1% [7] .

Pruebas médicas

Los errores de tipo II son un problema significativo en las pruebas médicas . Dan al paciente y al médico la falsa creencia de que la enfermedad no está presente, cuando en realidad sí lo está. Esto a menudo conduce a un tratamiento inapropiado o inadecuado. Un ejemplo típico es la confianza en los resultados de la bicicleta ergométrica para detectar aterosclerosis coronaria , aunque se sabe que la bicicleta ergométrica revela sólo aquellas obstrucciones en el flujo sanguíneo de la arteria coronaria que son causadas por estenosis .

Los errores del segundo tipo causan problemas serios y difíciles de entender, especialmente cuando la condición deseada está muy extendida. Si se utiliza una prueba con una tasa de error tipo II del 10 % en una población en la que la probabilidad de casos "verdaderos positivos" es del 70 %, entonces muchos resultados negativos de la prueba serán falsos. (Véase el teorema de Bayes ).

Los errores de tipo I también pueden causar problemas graves y difíciles de entender. Esto ocurre cuando la condición que se busca es rara. Si una prueba tiene una tasa de error Tipo I de uno en diez mil, pero en el grupo de muestras (o personas) que se está analizando, la probabilidad de casos "verdaderos positivos" es en promedio de uno en un millón, entonces la mayoría de los resultados positivos de esa prueba será falso [8] .

Investigaciones sobre lo sobrenatural

El término error Tipo I ha sido acuñado por investigadores en el campo de lo paranormal y los fantasmas para describir una fotografía o grabación o cualquier otra prueba que se interprete erróneamente como de origen paranormal; en este contexto , un error Tipo I es cualquier insostenible "evidencia mediática" (imagen, video, audio, etc.) que tiene la explicación habitual . [9]

Véase también

Notas

↑ GOST R 50779.10-2000. "Métodos de estadística. Probabilidad y bases de la estadística. Términos y definiciones". — Pág. 26 Archivado el 9 de noviembre de 2018 en Wayback Machine .
↑ Easton VJ, McColl JH Glosario estadístico: Prueba de hipótesis. Archivado el 24 de septiembre de 2011 en Wayback Machine .
↑ Moulton RT Network Security // Datamation . - 1983. - vol. 29 , edición. 7 . - pág. 121-127 .
↑ Este ejemplo solo caracteriza el caso en el que la clasificación de los errores dependerá del propósito del sistema: si se utiliza el escaneo biométrico para admitir empleados ( hipótesis nula : “la persona que se somete al escaneo es realmente un empleado”), entonces se producirá una identificación errónea. ser un error del segundo tipo , y "falta de reconocimiento" - error del primer tipo ; si se utiliza el escaneo para identificar delincuentes ( hipótesis nula : “la persona escaneada no es un delincuente”), entonces la identificación errónea será un error de tipo I y la “falta de reconocimiento” será un error de tipo II .
↑ En cuanto al cribado neonatal, estudios recientes han demostrado que el número de errores de primer tipo es 12 veces superior al número de detecciones correctas (Gambrill, 2006. [1] )
↑ Una consecuencia de esta alta tasa de errores de tipo I en los EE. UU. es que durante un período arbitrario de 10 años, la mitad de las mujeres estadounidenses encuestadas reciben al menos una mamografía con falso positivo. Estas mamografías erróneas son costosas y generan un costo anual de $100 millones en tratamientos de seguimiento (innecesarios). Además, provocan una ansiedad innecesaria en las mujeres. Como resultado de la alta tasa de errores de tipo I en los Estados Unidos, aproximadamente el 90-95 % de las mujeres que reciben una mamografía positiva al menos una vez en la vida en realidad no tienen la enfermedad.
↑ Los niveles más bajos de estos errores se observan en el norte de Europa, donde las películas mamográficas se leen dos veces y se establece un umbral mayor para pruebas adicionales ( un umbral alto reduce la eficacia estadística de la prueba).
↑ La probabilidad de que el resultado de una prueba sea un error de tipo I se puede calcular utilizando el teorema de Bayes .
↑ Algunos sitios proporcionan ejemplos de errores Tipo I, por ejemplo: The Atlantic Paranormal Society (TAPS) Archivado el 28 de marzo de 2005. (enlace descendente al 13-05-2013 [3457 días]) y Moorestown Ghost Research Archivado el 14-06-2006 . (enlace descendente desde el 13-05-2013 [3457 días] - historial ) .