Detección de anomalías

La detección de anomalías (también conocida como detección de valores atípicos [1] ) es la identificación durante la extracción de datos de datos raros, eventos u observaciones que son sospechosas debido a que son significativamente diferentes de la mayor parte de los datos [1] . Normalmente, los datos anómalos caracterizan algún tipo de problema, como un fraude bancario un defecto estructural, problemas médicos o errores en el texto. Las anomalías también se conocen como valores atípicos , rarezas, ruido, desviaciones o excepciones [2] .

Discusión General

Detección de anomalías en el contexto de detección de uso malicioso e intrusión en la red, los objetos de interés a menudo no son raros , pero muestran un estallido inesperado de actividad. Esto no se ajusta a la definición estadística habitual de valores atípicos como objetos raros, y muchos métodos de detección de valores atípicos (especialmente los métodos no supervisados ) fallan en dichos datos hasta que se agrupan adecuadamente. Por otro lado, los algoritmos de análisis de conglomerados son capaces de detectar microconglomerados formados por tal comportamiento [3] .

Existe una amplia gama de categorías de técnicas de detección de anomalías [4] . La técnica de detección de anomalías no supervisada detecta anomalías en conjuntos de datos de prueba no etiquetados, bajo el supuesto de que la mayor parte del conjunto de datos es normal, al buscar representantes que se ajustan menos al resto del conjunto de datos. La técnica de detección de anomalías supervisadas requiere el suministro de datos etiquetados como "normales" y "anormales" y utiliza el entrenamiento del clasificador (una diferencia clave de muchos otros problemas de clasificación radica en la naturaleza desequilibrada inherente de la detección de valores atípicos). La técnica de detección de anomalías supervisada parcial construye un modelo que representa el comportamiento normal de un conjunto dado de conjunto de entrenamiento normal y luego prueba la plausibilidad del modelo resultante.

Aplicaciones

La detección de anomalías es aplicable a una amplia gama de áreas, como la detección de intrusos, la detección de fraudes , la detección de fallas, el monitoreo de salud, la detección de eventos en redes de sensores y la detección de perturbaciones ambientales. A menudo, la detección de anomalías se usa para preprocesar datos para eliminar anomalías. En el aprendizaje supervisado, la eliminación de datos anómalos de un conjunto a menudo da como resultado un aumento estadístico significativo en la precisión [5] [6] .

Técnicas populares

Varias técnicas de detección de anomalías han sido propuestas en la literatura [7] . Aquí hay algunas técnicas populares:

El rendimiento de los diferentes métodos depende de los datos y los parámetros y tiene poca ventaja sistemática entre sí cuando se comparan múltiples conjuntos de datos y parámetros [27] [28] .

Aplicación a la protección de datos

La detección de anomalías fue propuesta por Dorothy Denning en 1986 para los sistemas de detección de intrusos [29] . La detección de anomalías para los sistemas de detección de intrusos generalmente se realiza con un umbral y estadísticas, pero se puede realizar con software y aprendizaje inductivo [30] . Los tipos de estadísticas ofrecidos en 1999 incluían perfiles de usuarios, estaciones de trabajo , redes, hosts remotos, grupos de usuarios y programas basados ​​en frecuencias, medios y varianzas [31] . El equivalente a la detección de anomalías en la detección de intrusos es la detección de uso malicioso .

Software

Conjuntos de datos

Véase también

Notas

  1. 1 2 Zimek, Schubert, 2017 , pág. 1–5.
  2. Hodge, Austin, 2004 , pág. 85–126.
  3. Dokas, Ertoz, Kumar et al., 2002 .
  4. Chandola, Banerjee, Kumar, 2009 , pág. 1–58.
  5. Tomek, 1976 , pág. 448–452.
  6. Smith y Martínez, 2011 , p. 2690.
  7. Zimek, Filzmoser, 2018 , pág. e1280.
  8. Knorr, Ng, Tucakov, 2000 , pág. 237–253.
  9. Ramaswamy, Rastogi, Shim, 2000 , pág. 427.
  10. Angiulli, Pizzuti, 2002 , pág. quince.
  11. Breunig, Kriegel, Ng, Sander, 2000 , pág. 93–104.
  12. Liu, Ting, Zhou, 2008 , pág. 413–422.
  13. Schubert, Zimek, Kriegel, 2012 , pág. 190–237.
  14. Kriegel, Kröger, Schubert, Zimek, 2009 , pág. 831.
  15. Kriegel, Kroger, Schubert, Zimek, 2012 , pág. 379.
  16. Zimek, Schubert, Kriegel, 2012 , pág. 363–387.
  17. Schölkopf, Platt, Shawe-Taylor, Smola, Williamson, 2001 , pág. 1443-1471.
  18. 1 2 3 Hawkins, Él, Williams, Baxter, 2002 , pág. 170–180.
  19. Él, Xu, Deng, 2003 , pág. 1641-1650
  20. Campello, Moulavi, Zimek, Sander, 2015 , p. 5:1-51.
  21. Lazarevic y Kumar 2005 , pág. 157–166.
  22. Nguyen, Ang, Gopalkrishnan, 2010 , pág. 368.
  23. Kriegel, Kröger, Schubert, Zimek, 2011 , pág. 13–24.
  24. Schubert, Wojdanowski, Zimek, Kriegel, 2012 , pág. 1047-1058.
  25. Zimek, Campello, Sander (1), 2014 , p. 11–22.
  26. Zimek, Campello, Sander (2), 2014 , p. una.
  27. Campos, Zimek, Sander et al., 2016 , pág. 891.
  28. Ver conjuntos de datos a continuación
  29. Denning, 1987 , pág. 222–232.
  30. Teng, Chen, Lu, 1990 , pág. 278–284.
  31. Jones, Sielken, 1999 .

Literatura