Detección de anomalías

La detección de anomalías (también conocida como detección de valores atípicos [1] ) es la identificación durante la extracción de datos de datos raros, eventos u observaciones que son sospechosas debido a que son significativamente diferentes de la mayor parte de los datos [1] . Normalmente, los datos anómalos caracterizan algún tipo de problema, como un fraude bancario un defecto estructural, problemas médicos o errores en el texto. Las anomalías también se conocen como valores atípicos , rarezas, ruido, desviaciones o excepciones [2] .

Discusión General

Detección de anomalías en el contexto de detección de uso malicioso e intrusión en la red, los objetos de interés a menudo no son raros , pero muestran un estallido inesperado de actividad. Esto no se ajusta a la definición estadística habitual de valores atípicos como objetos raros, y muchos métodos de detección de valores atípicos (especialmente los métodos no supervisados ) fallan en dichos datos hasta que se agrupan adecuadamente. Por otro lado, los algoritmos de análisis de conglomerados son capaces de detectar microconglomerados formados por tal comportamiento [3] .

Existe una amplia gama de categorías de técnicas de detección de anomalías [4] . La técnica de detección de anomalías no supervisada detecta anomalías en conjuntos de datos de prueba no etiquetados, bajo el supuesto de que la mayor parte del conjunto de datos es normal, al buscar representantes que se ajustan menos al resto del conjunto de datos. La técnica de detección de anomalías supervisadas requiere el suministro de datos etiquetados como "normales" y "anormales" y utiliza el entrenamiento del clasificador (una diferencia clave de muchos otros problemas de clasificación radica en la naturaleza desequilibrada inherente de la detección de valores atípicos). La técnica de detección de anomalías supervisada parcial construye un modelo que representa el comportamiento normal de un conjunto dado de conjunto de entrenamiento normal y luego prueba la plausibilidad del modelo resultante.

Aplicaciones

La detección de anomalías es aplicable a una amplia gama de áreas, como la detección de intrusos, la detección de fraudes , la detección de fallas, el monitoreo de salud, la detección de eventos en redes de sensores y la detección de perturbaciones ambientales. A menudo, la detección de anomalías se usa para preprocesar datos para eliminar anomalías. En el aprendizaje supervisado, la eliminación de datos anómalos de un conjunto a menudo da como resultado un aumento estadístico significativo en la precisión [5] [6] .

Técnicas populares

Varias técnicas de detección de anomalías han sido propuestas en la literatura [7] . Aquí hay algunas técnicas populares:

Técnicas basadas en la densidad ( k-vecinos más cercanos [8] [9] [10] , nivel local de valores atípicos [11] , bosques aislados [12] y muchas otras variaciones de este concepto [13] ).
Detección de valores atípicos basada en el subespacio [14] y en la correlación [15] para datos de alta dimensión [16] .
Máquina de vectores de soporte para una clase [17] .
Replicador de redes neuronales [18] .
Redes bayesianas [18] .
Modelos ocultos de Markov (HMM) [18] .
Identificación de valores atípicos basados en análisis de conglomerados [19] [20] .
Desviaciones de las reglas de asociación y conjuntos frecuentes.
Identificación de outliers basada en lógica difusa .
Una técnica de conjunto que utiliza el embolsado de características [21] [22] , el promedio de puntuación [23] [24] y la discriminación de fuente de disimilitud [25] [26] .

El rendimiento de los diferentes métodos depende de los datos y los parámetros y tiene poca ventaja sistemática entre sí cuando se comparan múltiples conjuntos de datos y parámetros [27] [28] .

Aplicación a la protección de datos

La detección de anomalías fue propuesta por Dorothy Denning en 1986 para los sistemas de detección de intrusos [29] . La detección de anomalías para los sistemas de detección de intrusos generalmente se realiza con un umbral y estadísticas, pero se puede realizar con software y aprendizaje inductivo [30] . Los tipos de estadísticas ofrecidos en 1999 incluían perfiles de usuarios, estaciones de trabajo , redes, hosts remotos, grupos de usuarios y programas basados en frecuencias, medios y varianzas [31] . El equivalente a la detección de anomalías en la detección de intrusos es la detección de uso malicioso .

Software

ELKI es un conjunto de herramientas de lenguaje Java de código abierto para el análisis de datos que contiene algunos algoritmos de detección de anomalías, así como aceleradores basados en índices para ellos.

Conjuntos de datos

Archivo de datos para la comparación de algoritmos de detección de anomalías de la Universidad de Munich ; Espejo en la Universidad de São Paulo .
ODDS – ODDS: una gran colección de conjuntos de datos de detección de valores atípicos disponibles públicamente con situaciones reales en varios campos.

Véase también

Valores atípicos en las estadísticas
Detección de cambios
Detección de novedad
Memoria temporal jerárquica

Notas

↑ 1 2 Zimek, Schubert, 2017 , pág. 1–5.
↑ Hodge, Austin, 2004 , pág. 85–126.
↑ Dokas, Ertoz, Kumar et al., 2002 .
↑ Chandola, Banerjee, Kumar, 2009 , pág. 1–58.
↑ Tomek, 1976 , pág. 448–452.
↑ Smith y Martínez, 2011 , p. 2690.
↑ Zimek, Filzmoser, 2018 , pág. e1280.
↑ Knorr, Ng, Tucakov, 2000 , pág. 237–253.
↑ Ramaswamy, Rastogi, Shim, 2000 , pág. 427.
↑ Angiulli, Pizzuti, 2002 , pág. quince.
↑ Breunig, Kriegel, Ng, Sander, 2000 , pág. 93–104.
↑ Liu, Ting, Zhou, 2008 , pág. 413–422.
↑ Schubert, Zimek, Kriegel, 2012 , pág. 190–237.
↑ Kriegel, Kröger, Schubert, Zimek, 2009 , pág. 831.
↑ Kriegel, Kroger, Schubert, Zimek, 2012 , pág. 379.
↑ Zimek, Schubert, Kriegel, 2012 , pág. 363–387.
↑ Schölkopf, Platt, Shawe-Taylor, Smola, Williamson, 2001 , pág. 1443-1471.
↑ 1 2 3 Hawkins, Él, Williams, Baxter, 2002 , pág. 170–180.
↑ Él, Xu, Deng, 2003 , pág. 1641-1650
↑ Campello, Moulavi, Zimek, Sander, 2015 , p. 5:1-51.
↑ Lazarevic y Kumar 2005 , pág. 157–166.
↑ Nguyen, Ang, Gopalkrishnan, 2010 , pág. 368.
↑ Kriegel, Kröger, Schubert, Zimek, 2011 , pág. 13–24.
↑ Schubert, Wojdanowski, Zimek, Kriegel, 2012 , pág. 1047-1058.
↑ Zimek, Campello, Sander (1), 2014 , p. 11–22.
↑ Zimek, Campello, Sander (2), 2014 , p. una.
↑ Campos, Zimek, Sander et al., 2016 , pág. 891.
↑ Ver conjuntos de datos a continuación
↑ Denning, 1987 , pág. 222–232.
↑ Teng, Chen, Lu, 1990 , pág. 278–284.
↑ Jones, Sielken, 1999 .

Literatura

Arthur Zimek, Erich Schubert. Detección de valores atípicos // Enciclopedia de sistemas de bases de datos . - Springer Nueva York, 2017. - ISBN 9781489979933 . -doi : 10.1007 / 978-1-4899-7993-3_80719-1 .
Hodge VJ, Austin J. Una encuesta sobre metodologías de detección de valores atípicos // Revisión de inteligencia artificial. - 2004. - T. 22 , núm. 2 . -doi : 10.1007 / s10462-004-4304-y .
Paul Dokas, Levent Ertoz, Vipin Kumar, Aleksandar Lazarevic, Jaideep Srivastava, Pang-Ning Tan. Minería de datos para la detección de intrusos en la red // Actas Taller NSF sobre minería de datos de próxima generación. — 2002.
Chandola V., Banerjee A., Kumar V. Detección de anomalías: una encuesta // ACM Computing Surveys . - 2009. - T. 41 , núm. 3 . -doi : 10.1145/ 1541880.1541882 .
Iván Tomek. Un experimento con la regla del vecino más cercano editada // Transacciones IEEE en sistemas, el hombre y la cibernética . - 1976. - T. 6 , núm. 6 _ -doi : 10.1109/ TSMC.1976.4309523 .
Smith MR, Martinez T. Mejora de la precisión de la clasificación mediante la identificación y eliminación de instancias que deberían clasificarse incorrectamente // La Conferencia Internacional Conjunta sobre Redes Neuronales de 2011 . - 2011. - ISBN 978-1-4244-9635-8 . -doi : 10.1109/ IJCNN.2011.6033571 .
Arthur Zimek, Peter Filzmoser. De ida y vuelta: detección de valores atípicos entre el razonamiento estadístico y los algoritmos de minería de datos // Revisiones interdisciplinarias de Wiley: minería de datos y descubrimiento de conocimiento. - 2018. - V. 8 , n. 6 _ — ISSN 19424787 . -doi : 10.1002/ widm.1280 .
Knorr EM, Ng RT, Tucakov V. Valores atípicos basados en la distancia: Algoritmos y aplicaciones // The VLDB Journal the International Journal on Very Large Data Bases. - 2000. - T. 8 , núm. 3–4 . -doi : 10.1007/ s007780050006 .
Ramaswamy S., Rastogi R., Shim K. Algoritmos eficientes para extraer valores atípicos de grandes conjuntos de datos // Actas de la conferencia internacional ACM SIGMOD de 2000 sobre gestión de datos: SIGMOD '00. - 2000. - ISBN 1-58113-217-4 . -doi : 10.1145/ 342009.335437 .
Angiulli F., Pizzuti C. Detección rápida de valores atípicos en espacios de alta dimensión // Principios de minería de datos y descubrimiento de conocimiento. - 2002. - T. 2431. - (Apuntes de cátedra en Informática). — ISBN 978-3-540-44037-6 . -doi : 10.1007/ 3-540-45681-3_2 .
Breunig MM, Kriegel H.-P., Ng RT, Sander J. LOF: Identificación de valores atípicos locales basados en la densidad // Actas de la Conferencia internacional ACM SIGMOD de 2000 sobre gestión de datos . - 2000. - ( SIGMOD ). — ISBN 1-58113-217-4 . -doi : 10.1145/ 335191.335388 .
Fei Tony Liu, Kai Ming Ting, Zhi-Hua Zhou. Isolation Forest // 2008 Octava Conferencia Internacional IEEE sobre Minería de Datos. - 2008. - ISBN 9780769535029 . -doi : 10.1109/ ICDM.2008.17 .
Schubert E., Zimek A., Kriegel H.-P. Reconsideración de la detección de valores atípicos locales: una visión generalizada de la localidad con aplicaciones para la detección de valores atípicos espaciales, de video y de red // Minería de datos y descubrimiento de conocimientos. - 2012. - T. 28 . -doi : 10.1007 / s10618-012-0300-z .
Kriegel HP, Kröger P., Schubert E., Zimek A. Detección de valores atípicos en subespacios paralelos al eje de datos de alta dimensión // Avances en el descubrimiento del conocimiento y la minería de datos. - 2009. - T. 5476. - (Apuntes de cátedra en Informática). - ISBN 978-3-642-01306-5 . -doi : 10.1007 / 978-3-642-01307-2_86 .
Kriegel HP, Kroger P., Schubert E., Zimek A. Detección de valores atípicos en subespacios orientados arbitrariamente // 2012 IEEE 12th International Conference on Data Mining. - 2012. - ISBN 978-1-4673-4649-8 . -doi : 10.1109/ ICDM.2012.21 .
Zimek A., Schubert E., Kriegel H.-P. Una encuesta sobre la detección de valores atípicos no supervisados en datos numéricos de alta dimensión // Análisis estadístico y minería de datos. - 2012. - V. 5 , núm. 5 . -doi : 10.1002/ sam.11161 .
Schölkopf B., Platt JC, Shawe-Taylor J., Smola AJ, Williamson R.C. Estimación del soporte de una distribución de alta dimensión // Computación neuronal. - 2001. - T. 13 , núm. 7 . doi : 10.1162 / 089976601750264965 . — PMID 11440593 .
Simon Hawkins, Hongxing He, Graham Williams, Rohan Baxter. Detección de valores atípicos utilizando redes neuronales replicadoras // Almacenamiento de datos y descubrimiento de conocimiento. - 2002. - T. 2454. - (Apuntes de cátedra en Informática). - ISBN 978-3-540-44123-6 . -doi : 10.1007/ 3-540-46145-0_17 .
He Z., Xu X., Deng S. Descubrimiento de valores atípicos locales basados en clústeres // Letras de reconocimiento de patrones. - 2003. - T. 24 , núm. 9–10 . - doi : 10.1016/S0167-8655(03)00003-5 .
Campello RJGB, Moulavi D., Zimek A., Sander J. Estimaciones de densidad jerárquica para agrupación de datos, visualización y detección de valores atípicos // Transacciones de ACM en el descubrimiento de conocimiento a partir de datos. - 2015. - T. 10 , núm. 1 . -doi : 10.1145/ 2733381 .
Lazarevic A., Kumar V. Embolsado de características para la detección de valores atípicos // Proc. XI Congreso Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento en Minería de Datos. - 2005. - ISBN 978-1-59593-135-1 . -doi : 10.1145/ 1081870.1081891 .
Nguyen HV, Ang HH, Gopalkrishnan V. Minería de valores atípicos con un conjunto de detectores heterogéneos en subespacios aleatorios // Sistemas de bases de datos para aplicaciones avanzadas. - 2010. - T. 5981. - (Apuntes de cátedra en Informática). - ISBN 978-3-642-12025-1 . -doi : 10.1007 / 978-3-642-12026-8_29 .
Kriegel HP, Kröger P., Schubert E., Zimek A. Interpretación y unificación de puntajes atípicos // Actas de la Conferencia internacional SIAM 2011 sobre minería de datos . - 2011. - ISBN 978-0-89871-992-5 . -doi : 10.1137/ 1.9781611972818.2 .
Schubert E., Wojdanowski R., Zimek A., Kriegel HP Sobre la evaluación de clasificaciones de valores atípicos y puntuaciones de valores atípicos // Actas de la Conferencia Internacional SIAM 2012 sobre minería de datos . - 2012. - ISBN 978-1-61197-232-0 . -doi : 10.1137/ 1.9781611972825.90 .
Zimek A., Campello RJGB, Sander JR Conjuntos para la detección de valores atípicos no supervisados // ACM SIGKDD Explorations Newsletter. - 2014. - T. 15 . -doi : 10.1145/ 2594473.2594476 .
Zimek A., Campello RJGB, Sander JR Perturbación de datos para conjuntos de detección de valores atípicos // Actas de la 26ª Conferencia Internacional sobre Gestión de Bases de Datos Científicas y Estadísticas - SSDBM '14. - 2014. - ISBN 978-1-4503-2722-0 . -doi : 10.1145/ 2618243.2618257 .
Guilherme O. Campos, Arthur Zimek, Jörg Sander, Ricardo JGB Campello, Barbora Micenková, Erich Schubert, Ira Assent, Michael E. Houle. Sobre la evaluación de la detección de valores atípicos no supervisados: medidas, conjuntos de datos y un estudio empírico // Minería de datos y descubrimiento de conocimiento. - 2016. - T. 30 , núm. 4 . - ISSN 1384-5810 . -doi : 10.1007/ s10618-015-0444-8 .
Denning DE Un modelo de detección de intrusos // Transacciones IEEE en ingeniería de software . - 1987. - T. SE-13 , núm. 2 . -doi : 10.1109/ TSE.1987.232894 .
Teng HS, Chen K., Lu SC Detección adaptativa de anomalías en tiempo real mediante patrones secuenciales generados inductivamente // Actas del Simposio de la IEEE Computer Society sobre investigación en seguridad y privacidad. - 1990. - ISBN 978-0-8186-2060-7 . -doi : 10.1109/ RISP.1990.63857 .
Anita K. Jones, Robert S. Sielken. Detección de intrusos en sistemas informáticos: una encuesta // Informe técnico, Departamento de Ciencias de la Computación. — Universidad de Virginia, Charlottesville, VA, 1999.

Aprendizaje automático y minería de datos
Tareas	Problema de clasificación Aprender sin un maestro Aprendizaje asistido por profesores Análisis de regresión AutoML reglas de asociación Extracción de características entrenamiento de rasgos Entrenamiento de clasificación Derivación gramatical Aprender en línea
Aprendiendo con un maestro	método del k-vecino más cercano Clasificador bayesiano ingenuo árbol de decisión Máquinas de vectores soporte Regresión lineal Regresión logística perceptrón conjuntos de modelos Harpillera impulsar bosque aleatorio Método de vector relevante
análisis de conglomerados	método k-medias método de agrupamiento difuso Agrupación jerárquica algoritmo EM ABEDUL CURAR DBSCAN ÓPTICA Desplazamiento medio
Reducción de dimensionalidad	Análisis factorial Método de componentes principales CCA ICA LDA Expansión de matriz no negativa t-SNE
Pronóstico estructural	Graficar modelo probabilístico red bayesiana Modelo oculto de Markov FRC
Detección de anomalías	método del k-vecino más cercano Nivel de emisión local
Graficar modelos probabilísticos	red bayesiana Red de Markov Modelo oculto de Markov
Redes neuronales	Máquina Boltzmann limitada mapa autoorganizado Función de activación Sigmoideo softmax Funcion de base radial Método de propagación hacia atrás Aprendizaje profundo perceptrón multicapa Red neuronal recurrente memoria a corto plazo Bloque recurrente controlado Red neuronal convolucional U-red Codificador automático
Aprendizaje reforzado	proceso de Markov Ecuación de Bellman Algoritmo codicioso Q-aprendizaje SARAS Diferencia temporal (DT)
Teoría	Teoría de Vapnik-Chervonenkis Dilema de dispersión de sesgo Teoría del aprendizaje computacional Minimización empírica del riesgo El aprendizaje de Occam aprendizaje PAC Teoría del aprendizaje estadístico
revistas y congresos	NeurIPS ICML ML JMLR ArXiv:cs.LG