Curva ROC ( característica operativa del receptor en inglés , receiver operating character ) - un gráfico que le permite evaluar la calidad de la clasificación binaria , muestra la relación entre la proporción de objetos del número total de portadores de la función, clasificados correctamente como portadores de la característica ( ing. tasa de verdaderos positivos , TPR, llamado algoritmo de clasificación de sensibilidad ), y la proporción de objetos del número total de objetos que no tienen una característica, clasificados erróneamente como portadores de una característica ( ing. tasa de falsos positivos , FPR, el valor de 1-FPR se denomina especificidad del algoritmo de clasificación) al variar el umbral de la regla de decisión.
También conocida como la curva de error . El análisis de clasificaciones mediante curvas ROC se denomina análisis ROC .
La interpretación cuantitativa de la ROC da el AUC ( ing. Área bajo la curva , área bajo la curva ), el área delimitada por la curva ROC y el eje de la proporción de clasificaciones de falsos positivos. Cuanto mayor sea el AUC, mejor será el clasificador, mientras que el valor de 0,5 demuestra la inadecuación del método de clasificación seleccionado (correspondiente a la adivinación aleatoria). Un valor inferior a 0,5 dice que el clasificador funciona exactamente al revés: si a los positivos se les llama negativos y viceversa, el clasificador funcionará mejor.
Los tumores malignos son una aplicación clásica de los problemas de clasificación: los síntomas a menudo aparecen cuando la enfermedad es incurable y las pruebas confiables son extremadamente costosas. Por lo tanto, se demandan pruebas baratas, aunque no tan confiables, y lo explicaremos usando el ejemplo de personas sanas y enfermas.
La tarea de clasificación es asignar objetos previamente desconocidos a una clase particular. Un ejemplo de tal tarea puede ser el diagnóstico de una enfermedad, si el paciente se enfermó ( resultado positivo ) o no ( resultado negativo ). Entonces, como resultado de la clasificación, se pueden observar cuatro situaciones diferentes:
Los cuatro resultados posibles se pueden formular y formatear como una tabla de contingencia de 2×2 .
Entonces, el valor Sen=TP/(TP+FN), la capacidad del algoritmo para “ver” a los pacientes, se denomina sensibilidad o frecuencia de verdaderos positivos , Spe=TN/(TN+FP) es la especificidad o frecuencia de verdaderos negativos , la capacidad del algoritmo de no tomar a las personas sanas por enfermas. El efecto económico de estos errores es diferente: un paciente falso negativo vendrá con una enfermedad desatendida, se gastarán recursos en un examen adicional de un falso positivo. El valor 1−Spe=FP/(TN+FP) se denomina tasa de falsos positivos .
A menudo, el clasificador no devuelve el bit saludable-enfermo, sino un número en una escala continua: por ejemplo, 0="obviamente saludable", 25="probablemente saludable", 50="indeterminado", 75="probablemente enfermo ", 100="claramente enfermo". Pero de todos modos, el conjunto de decisiones tomadas suele ser finito, o incluso binario: ¿debería enviarse al paciente para un examen más detenido? ¿Debería funcionar el empujador, dejando caer la pieza en el contenedor con el matrimonio ? Al variar el umbral de respuesta, cambiamos las características de sensibilidad y especificidad: cuanto más alto uno, más bajo el otro.
Como resultado de cambiar el umbral de −∞ a ∞ y graficar los puntos X=1−Spe e Y=Sen en el espacio de coordenadas X,Y, se obtiene un gráfico que se denomina curva ROC. En el umbral −∞, el clasificador clasifica a todos los pacientes como enfermos (1−Spe=1, Sen=1). En el umbral +∞, todos se clasifican como sanos (1−Spe=0, Sen=0). Por tanto, la curva ROC siempre va de (0,0) a (1,1).
La clasificación se basa a menudo en variables aleatorias continuas . En este caso, es conveniente escribir la probabilidad de pertenecer a una clase en particular como una función de distribución de probabilidad dependiendo de cierto valor umbral (límite) del parámetro en la forma , y la probabilidad de no pertenecer como . Luego, el número de soluciones de falsos positivos (tasa de falsos positivos, FPR) se puede expresar como . Al mismo tiempo, el número de decisiones positivas verdaderas (tasa de resultados positivos verdaderos, TPR) se puede expresar como . Al construir la curva ROC a lo largo del eje , y a lo largo del eje , se obtiene a diferentes valores del parámetro .
Por ejemplo, imagina que los niveles de alguna proteína en sangre se distribuyen normalmente con centros iguales a 1 g / dL y 2 g / dL en personas sanas y enfermas , respectivamente. Una prueba médica puede dar una indicación del nivel de cualquier proteína en el plasma sanguíneo . Un nivel de proteína por encima de cierto límite puede considerarse como un signo de enfermedad . El investigador puede mover el borde (línea vertical negra en la figura), lo que cambiará el número de resultados falsos positivos. La forma resultante de la curva ROC depende del grado de intersección de las dos distribuciones .
Si la población general es finita (lo que suele ocurrir en conjuntos de datos reales), entonces cuando el umbral t se mueve de −∞ a ∞, son posibles las siguientes situaciones:
Dado que la probabilidad del cuarto evento es pequeña, la curva ROC de la población general final tiene una forma escalonada, con un pequeño número de segmentos inclinados donde los errores en la recopilación y procesamiento de datos dieron el mismo resultado en objetos de diferentes clases.
En consecuencia, el algoritmo para construir una curva ROC para una población general finita es el siguiente. Ordenemos los objetos por el valor del criterio. Tomamos un conjunto de objetos con un valor de criterio igual, volvemos a calcular Sen y Spe y dibujamos un segmento. Continuamos hasta que se agoten los objetos.
La curva ROC de un clasificador binario que produce 0 o 1 (por ejemplo, un árbol de decisión ) parece dos segmentos (0,0) → (1−Spe,Sen) → (1,1).
En el caso ideal, cuando el clasificador separa por completo los miembros positivos y negativos de la población general, primero todos los falsos positivos se convierten en verdaderos negativos (segmento (1,1) - (0,1)), luego todos los verdaderos positivos se convierten en falsos negativos ( segmento (0,1)—(0,0)). Es decir, la curva ROC de un clasificador ideal, independientemente de los números que produzca el criterio y de si la población general es finita, parece dos segmentos (0,0) - (0,1) - (1,1).
En esos umbrales t , donde la curva ROC está por debajo de la diagonal 1−Spe = Sen , el criterio puede invertirse (todo lo que sea menor que t puede declararse positivo), y el clasificador funcionará mejor que inicialmente: tanto la sensibilidad como la especificidad aumentan .
Las curvas ROC se utilizaron por primera vez en la teoría del procesamiento de señales en los Estados Unidos durante la Segunda Guerra Mundial para mejorar la calidad del reconocimiento de objetos enemigos a partir de una señal de radar [1] . Después del ataque a Pearl Harbor en 1941 , el ejército de los EE . UU. comenzó una nueva investigación destinada a tratar de aumentar la precisión de la identificación de aviones japoneses a partir de señales de radar.
Posteriormente, las curvas ROC se utilizaron ampliamente en el diagnóstico médico [2] [3] [4] . Las curvas ROC se utilizan en epidemiología e investigación médica y, a menudo, se las denomina en el mismo contexto que la medicina basada en la evidencia . En radiología , las curvas ROC se utilizan para validar y probar nuevas técnicas [5] . En las ciencias sociales , las curvas ROC se utilizan para emitir juicios sobre la calidad de los modelos de probabilidad. Las curvas también se utilizan en la gestión de la calidad del producto y la calificación crediticia .
Como ya se señaló, las curvas ROC se utilizan ampliamente en el aprendizaje automático . Se utilizaron por primera vez en este contexto en el trabajo de Spakman, quien demostró el uso de curvas ROC al comparar varios algoritmos de clasificación . [6]
En un espacio normalizado , el área bajo la curva ( AUC - Area Under Curve, AUROC - Area Under Receiver Operating Characteristic ) es equivalente a la probabilidad de que el clasificador asigne más peso a una entidad positiva elegida al azar que a una negativa elegida al azar. . [7] Esto se puede mostrar de la siguiente manera: el área bajo la curva está dada por la integral (el eje se gira con un signo menos; un valor mayor de la coordenada corresponde a un valor menor del parámetro ): . Los paréntesis angulares denotan la operación de sacar el promedio.
Se ha demostrado que el AUC está estrechamente relacionado con la prueba U de Mann-Whitney [8] [9] , que es una medida de si los elementos positivos tienen más peso que los negativos. El valor de AUC también está relacionado con la prueba de Wilcoxon [9] y con el coeficiente de Gini ( ) de la siguiente manera: , donde:
[10] .
El AUC también se usa a menudo para comparar modelos basados en el conjunto de entrenamiento [11] . Sin embargo, en algunos casos, el uso de este indicador es difícil porque el AUC es sensible al ruido [12] . Además, en algunos artículos, se señalan problemas adicionales que surgen cuando se usa el valor AUC para comparar modelos [13] [14] . Como se señaló anteriormente, el valor del área bajo la curva se puede utilizar como un valor de la probabilidad con la que a una entidad positiva seleccionada al azar se le asignará un peso mayor que a una entidad negativa seleccionada al azar. Sin embargo, en varios trabajos [12] [13] , se hicieron suposiciones sobre la dificultad de obtener estimaciones confiables de los valores de AUC . Por lo tanto, el valor práctico del indicador AUC ha sido cuestionado [14] , indicando que a menudo el valor puede introducir más incertidumbre que claridad.
La extensión de las curvas ROC al caso de problemas de clasificación con más de dos clases siempre ha estado plagada de dificultades, ya que el número de grados de libertad crece cuadráticamente con el número de clases, y el espacio ROC tiene dimensiones , donde es el número de clases. [15] También se han desarrollado algunos enfoques prácticos para el caso en que el número de clases sea tres. [16] El volumen bajo la superficie ROC ( VUS - Volume Under Surface ) se considera como una métrica de calidad de clasificadores para problemas de clasificación no binarios. [17] Sin embargo, debido a la complejidad del análisis de la variable VUS , se han desarrollado otros enfoques [18] basados en la extensión del concepto VUS .
Debido a la exitosa aplicación de las curvas ROC para analizar la calidad de los clasificadores, se han estudiado las extensiones de las curvas ROC a otros problemas de aprendizaje supervisado . Entre los trabajos dignos de mención se encuentran los dedicados a las llamadas curvas REC ( regression error character - REC-curve ) [19] y curvas RROC (regression ROC curves ) [20] . Vale la pena señalar que el área bajo la curva RROC es proporcional a la varianza del error del modelo de regresión .
diccionarios y enciclopedias | |
---|---|
En catálogos bibliográficos |