Detección de anomalías
La detección de anomalías (también conocida como detección de valores atípicos [1] ) es la identificación durante la extracción de datos de datos raros, eventos u observaciones que son sospechosas debido a que son significativamente diferentes de la mayor parte de los datos [1] . Normalmente, los datos anómalos caracterizan algún tipo de problema, como un fraude bancario un defecto estructural, problemas médicos o errores en el texto. Las anomalías también se conocen como valores atípicos , rarezas, ruido, desviaciones o excepciones [2] .
Discusión General
Detección de anomalías en el contexto de detección de uso malicioso e intrusión en la red, los objetos de interés a menudo no son raros , pero muestran un estallido inesperado de actividad. Esto no se ajusta a la definición estadística habitual de valores atípicos como objetos raros, y muchos métodos de detección de valores atípicos (especialmente los métodos no supervisados ) fallan en dichos datos hasta que se agrupan adecuadamente. Por otro lado, los algoritmos de análisis de conglomerados son capaces de detectar microconglomerados formados por tal comportamiento [3] .
Existe una amplia gama de categorías de técnicas de detección de anomalías [4] . La técnica de detección de anomalías no supervisada detecta anomalías en conjuntos de datos de prueba no etiquetados, bajo el supuesto de que la mayor parte del conjunto de datos es normal, al buscar representantes que se ajustan menos al resto del conjunto de datos. La técnica de detección de anomalías supervisadas requiere el suministro de datos etiquetados como "normales" y "anormales" y utiliza el entrenamiento del clasificador (una diferencia clave de muchos otros problemas de clasificación radica en la naturaleza desequilibrada inherente de la detección de valores atípicos). La técnica de detección de anomalías supervisada parcial construye un modelo que representa el comportamiento normal de un conjunto dado de conjunto de entrenamiento normal y luego prueba la plausibilidad del modelo resultante.
Aplicaciones
La detección de anomalías es aplicable a una amplia gama de áreas, como la detección de intrusos, la detección de fraudes , la detección de fallas, el monitoreo de salud, la detección de eventos en redes de sensores y la detección de perturbaciones ambientales. A menudo, la detección de anomalías se usa para preprocesar datos para eliminar anomalías. En el aprendizaje supervisado, la eliminación de datos anómalos de un conjunto a menudo da como resultado un aumento estadístico significativo en la precisión [5] [6] .
Técnicas populares
Varias técnicas de detección de anomalías han sido propuestas en la literatura [7] . Aquí hay algunas técnicas populares:
El rendimiento de los diferentes métodos depende de los datos y los parámetros y tiene poca ventaja sistemática entre sí cuando se comparan múltiples conjuntos de datos y parámetros [27] [28] .
Aplicación a la protección de datos
La detección de anomalías fue propuesta por Dorothy Denning en 1986 para los sistemas de detección de intrusos [29] . La detección de anomalías para los sistemas de detección de intrusos generalmente se realiza con un umbral y estadísticas, pero se puede realizar con software y aprendizaje inductivo [30] . Los tipos de estadísticas ofrecidos en 1999 incluían perfiles de usuarios, estaciones de trabajo , redes, hosts remotos, grupos de usuarios y programas basados en frecuencias, medios y varianzas [31] . El equivalente a la detección de anomalías en la detección de intrusos es la detección de uso malicioso .
Software
- ELKI es un conjunto de herramientas de lenguaje Java de código abierto para el análisis de datos que contiene algunos algoritmos de detección de anomalías, así como aceleradores basados en índices para ellos.
Conjuntos de datos
Véase también
Notas
- ↑ 1 2 Zimek, Schubert, 2017 , pág. 1–5.
- ↑ Hodge, Austin, 2004 , pág. 85–126.
- ↑ Dokas, Ertoz, Kumar et al., 2002 .
- ↑ Chandola, Banerjee, Kumar, 2009 , pág. 1–58.
- ↑ Tomek, 1976 , pág. 448–452.
- ↑ Smith y Martínez, 2011 , p. 2690.
- ↑ Zimek, Filzmoser, 2018 , pág. e1280.
- ↑ Knorr, Ng, Tucakov, 2000 , pág. 237–253.
- ↑ Ramaswamy, Rastogi, Shim, 2000 , pág. 427.
- ↑ Angiulli, Pizzuti, 2002 , pág. quince.
- ↑ Breunig, Kriegel, Ng, Sander, 2000 , pág. 93–104.
- ↑ Liu, Ting, Zhou, 2008 , pág. 413–422.
- ↑ Schubert, Zimek, Kriegel, 2012 , pág. 190–237.
- ↑ Kriegel, Kröger, Schubert, Zimek, 2009 , pág. 831.
- ↑ Kriegel, Kroger, Schubert, Zimek, 2012 , pág. 379.
- ↑ Zimek, Schubert, Kriegel, 2012 , pág. 363–387.
- ↑ Schölkopf, Platt, Shawe-Taylor, Smola, Williamson, 2001 , pág. 1443-1471.
- ↑ 1 2 3 Hawkins, Él, Williams, Baxter, 2002 , pág. 170–180.
- ↑ Él, Xu, Deng, 2003 , pág. 1641-1650
- ↑ Campello, Moulavi, Zimek, Sander, 2015 , p. 5:1-51.
- ↑ Lazarevic y Kumar 2005 , pág. 157–166.
- ↑ Nguyen, Ang, Gopalkrishnan, 2010 , pág. 368.
- ↑ Kriegel, Kröger, Schubert, Zimek, 2011 , pág. 13–24.
- ↑ Schubert, Wojdanowski, Zimek, Kriegel, 2012 , pág. 1047-1058.
- ↑ Zimek, Campello, Sander (1), 2014 , p. 11–22.
- ↑ Zimek, Campello, Sander (2), 2014 , p. una.
- ↑ Campos, Zimek, Sander et al., 2016 , pág. 891.
- ↑ Ver conjuntos de datos a continuación
- ↑ Denning, 1987 , pág. 222–232.
- ↑ Teng, Chen, Lu, 1990 , pág. 278–284.
- ↑ Jones, Sielken, 1999 .
Literatura
- Arthur Zimek, Erich Schubert. Detección de valores atípicos // Enciclopedia de sistemas de bases de datos . - Springer Nueva York, 2017. - ISBN 9781489979933 . -doi : 10.1007 / 978-1-4899-7993-3_80719-1 .
- Hodge VJ, Austin J. Una encuesta sobre metodologías de detección de valores atípicos // Revisión de inteligencia artificial. - 2004. - T. 22 , núm. 2 . -doi : 10.1007 / s10462-004-4304-y .
- Paul Dokas, Levent Ertoz, Vipin Kumar, Aleksandar Lazarevic, Jaideep Srivastava, Pang-Ning Tan. Minería de datos para la detección de intrusos en la red // Actas Taller NSF sobre minería de datos de próxima generación. — 2002.
- Chandola V., Banerjee A., Kumar V. Detección de anomalías: una encuesta // ACM Computing Surveys . - 2009. - T. 41 , núm. 3 . -doi : 10.1145/ 1541880.1541882 .
- Iván Tomek. Un experimento con la regla del vecino más cercano editada // Transacciones IEEE en sistemas, el hombre y la cibernética . - 1976. - T. 6 , núm. 6 _ -doi : 10.1109/ TSMC.1976.4309523 .
- Smith MR, Martinez T. Mejora de la precisión de la clasificación mediante la identificación y eliminación de instancias que deberían clasificarse incorrectamente // La Conferencia Internacional Conjunta sobre Redes Neuronales de 2011 . - 2011. - ISBN 978-1-4244-9635-8 . -doi : 10.1109/ IJCNN.2011.6033571 .
- Arthur Zimek, Peter Filzmoser. De ida y vuelta: detección de valores atípicos entre el razonamiento estadístico y los algoritmos de minería de datos // Revisiones interdisciplinarias de Wiley: minería de datos y descubrimiento de conocimiento. - 2018. - V. 8 , n. 6 _ — ISSN 19424787 . -doi : 10.1002/ widm.1280 .
- Knorr EM, Ng RT, Tucakov V. Valores atípicos basados en la distancia: Algoritmos y aplicaciones // The VLDB Journal the International Journal on Very Large Data Bases. - 2000. - T. 8 , núm. 3–4 . -doi : 10.1007/ s007780050006 .
- Ramaswamy S., Rastogi R., Shim K. Algoritmos eficientes para extraer valores atípicos de grandes conjuntos de datos // Actas de la conferencia internacional ACM SIGMOD de 2000 sobre gestión de datos: SIGMOD '00. - 2000. - ISBN 1-58113-217-4 . -doi : 10.1145/ 342009.335437 .
- Angiulli F., Pizzuti C. Detección rápida de valores atípicos en espacios de alta dimensión // Principios de minería de datos y descubrimiento de conocimiento. - 2002. - T. 2431. - (Apuntes de cátedra en Informática). — ISBN 978-3-540-44037-6 . -doi : 10.1007/ 3-540-45681-3_2 .
- Breunig MM, Kriegel H.-P., Ng RT, Sander J. LOF: Identificación de valores atípicos locales basados en la densidad // Actas de la Conferencia internacional ACM SIGMOD de 2000 sobre gestión de datos . - 2000. - ( SIGMOD ). — ISBN 1-58113-217-4 . -doi : 10.1145/ 335191.335388 .
- Fei Tony Liu, Kai Ming Ting, Zhi-Hua Zhou. Isolation Forest // 2008 Octava Conferencia Internacional IEEE sobre Minería de Datos. - 2008. - ISBN 9780769535029 . -doi : 10.1109/ ICDM.2008.17 .
- Schubert E., Zimek A., Kriegel H.-P. Reconsideración de la detección de valores atípicos locales: una visión generalizada de la localidad con aplicaciones para la detección de valores atípicos espaciales, de video y de red // Minería de datos y descubrimiento de conocimientos. - 2012. - T. 28 . -doi : 10.1007 / s10618-012-0300-z .
- Kriegel HP, Kröger P., Schubert E., Zimek A. Detección de valores atípicos en subespacios paralelos al eje de datos de alta dimensión // Avances en el descubrimiento del conocimiento y la minería de datos. - 2009. - T. 5476. - (Apuntes de cátedra en Informática). - ISBN 978-3-642-01306-5 . -doi : 10.1007 / 978-3-642-01307-2_86 .
- Kriegel HP, Kroger P., Schubert E., Zimek A. Detección de valores atípicos en subespacios orientados arbitrariamente // 2012 IEEE 12th International Conference on Data Mining. - 2012. - ISBN 978-1-4673-4649-8 . -doi : 10.1109/ ICDM.2012.21 .
- Zimek A., Schubert E., Kriegel H.-P. Una encuesta sobre la detección de valores atípicos no supervisados en datos numéricos de alta dimensión // Análisis estadístico y minería de datos. - 2012. - V. 5 , núm. 5 . -doi : 10.1002/ sam.11161 .
- Schölkopf B., Platt JC, Shawe-Taylor J., Smola AJ, Williamson R.C. Estimación del soporte de una distribución de alta dimensión // Computación neuronal. - 2001. - T. 13 , núm. 7 . doi : 10.1162 / 089976601750264965 . — PMID 11440593 .
- Simon Hawkins, Hongxing He, Graham Williams, Rohan Baxter. Detección de valores atípicos utilizando redes neuronales replicadoras // Almacenamiento de datos y descubrimiento de conocimiento. - 2002. - T. 2454. - (Apuntes de cátedra en Informática). - ISBN 978-3-540-44123-6 . -doi : 10.1007/ 3-540-46145-0_17 .
- He Z., Xu X., Deng S. Descubrimiento de valores atípicos locales basados en clústeres // Letras de reconocimiento de patrones. - 2003. - T. 24 , núm. 9–10 . - doi : 10.1016/S0167-8655(03)00003-5 .
- Campello RJGB, Moulavi D., Zimek A., Sander J. Estimaciones de densidad jerárquica para agrupación de datos, visualización y detección de valores atípicos // Transacciones de ACM en el descubrimiento de conocimiento a partir de datos. - 2015. - T. 10 , núm. 1 . -doi : 10.1145/ 2733381 .
- Lazarevic A., Kumar V. Embolsado de características para la detección de valores atípicos // Proc. XI Congreso Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento en Minería de Datos. - 2005. - ISBN 978-1-59593-135-1 . -doi : 10.1145/ 1081870.1081891 .
- Nguyen HV, Ang HH, Gopalkrishnan V. Minería de valores atípicos con un conjunto de detectores heterogéneos en subespacios aleatorios // Sistemas de bases de datos para aplicaciones avanzadas. - 2010. - T. 5981. - (Apuntes de cátedra en Informática). - ISBN 978-3-642-12025-1 . -doi : 10.1007 / 978-3-642-12026-8_29 .
- Kriegel HP, Kröger P., Schubert E., Zimek A. Interpretación y unificación de puntajes atípicos // Actas de la Conferencia internacional SIAM 2011 sobre minería de datos . - 2011. - ISBN 978-0-89871-992-5 . -doi : 10.1137/ 1.9781611972818.2 .
- Schubert E., Wojdanowski R., Zimek A., Kriegel HP Sobre la evaluación de clasificaciones de valores atípicos y puntuaciones de valores atípicos // Actas de la Conferencia Internacional SIAM 2012 sobre minería de datos . - 2012. - ISBN 978-1-61197-232-0 . -doi : 10.1137/ 1.9781611972825.90 .
- Zimek A., Campello RJGB, Sander JR Conjuntos para la detección de valores atípicos no supervisados // ACM SIGKDD Explorations Newsletter. - 2014. - T. 15 . -doi : 10.1145/ 2594473.2594476 .
- Zimek A., Campello RJGB, Sander JR Perturbación de datos para conjuntos de detección de valores atípicos // Actas de la 26ª Conferencia Internacional sobre Gestión de Bases de Datos Científicas y Estadísticas - SSDBM '14. - 2014. - ISBN 978-1-4503-2722-0 . -doi : 10.1145/ 2618243.2618257 .
- Guilherme O. Campos, Arthur Zimek, Jörg Sander, Ricardo JGB Campello, Barbora Micenková, Erich Schubert, Ira Assent, Michael E. Houle. Sobre la evaluación de la detección de valores atípicos no supervisados: medidas, conjuntos de datos y un estudio empírico // Minería de datos y descubrimiento de conocimiento. - 2016. - T. 30 , núm. 4 . - ISSN 1384-5810 . -doi : 10.1007/ s10618-015-0444-8 .
- Denning DE Un modelo de detección de intrusos // Transacciones IEEE en ingeniería de software . - 1987. - T. SE-13 , núm. 2 . -doi : 10.1109/ TSE.1987.232894 .
- Teng HS, Chen K., Lu SC Detección adaptativa de anomalías en tiempo real mediante patrones secuenciales generados inductivamente // Actas del Simposio de la IEEE Computer Society sobre investigación en seguridad y privacidad. - 1990. - ISBN 978-0-8186-2060-7 . -doi : 10.1109/ RISP.1990.63857 .
- Anita K. Jones, Robert S. Sielken. Detección de intrusos en sistemas informáticos: una encuesta // Informe técnico, Departamento de Ciencias de la Computación. — Universidad de Virginia, Charlottesville, VA, 1999.