Conjunto de métodos (aprendizaje automático)

Un conjunto de métodos en estadística y aprendizaje automático utiliza múltiples algoritmos entrenados para lograr un mejor rendimiento predictivo que el que se podría obtener de cada algoritmo de entrenamiento por separado [1] [2] [3] . A diferencia del conjunto estadístico en la mecánica estadística, que suele ser infinito, el conjunto de métodos en el aprendizaje automático consiste en un conjunto finito específico de modelos alternativos, pero generalmente permite que existan estructuras mucho más flexibles.

Resumen

Los algoritmos de aprendizaje supervisado se describen con mayor frecuencia como la solución del problema de encontrar una hipótesis adecuada en el espacio de las hipótesis, una que haga buenas predicciones para un problema en particular. Pero encontrar una buena hipótesis puede ser una tarea difícil. Un conjunto de métodos utiliza una combinación de varias hipótesis con la esperanza de que sea mejor que las hipótesis solas. El término conjunto suele reservarse para métodos que generan múltiples hipótesis con el mismo maestro base.[ ¿Qué? ] . La noción más amplia de un sistema clasificador múltiple también utiliza múltiples hipótesis, pero no generadas por el mismo profesor. .

Calcular una predicción de conjunto generalmente requiere más cómputo que predecir un solo modelo, por lo que los conjuntos pueden verse como una forma de compensar un algoritmo de aprendizaje deficiente con cálculos adicionales. Los métodos de conjunto generalmente usan algoritmos rápidos como árboles de decisión (por ejemplo , bosques aleatorios ), aunque los algoritmos lentos también pueden beneficiarse de las técnicas de construcción de conjuntos.

Por analogía, la técnica de ensamblaje de conjuntos también se utiliza en escenarios de aprendizaje no supervisados , como la agrupación por consenso la detección de anomalías .

Teoría de conjuntos

El conjunto en sí es un algoritmo de aprendizaje supervisado porque puede entrenarse y luego usarse para hacer una predicción. El conjunto entrenado, por lo tanto, representa una hipótesis. Esta hipótesis, sin embargo, no reside necesariamente en el espacio de hipótesis de los modelos a partir de los cuales se construye. Por lo tanto, los conjuntos pueden tener mucha flexibilidad en las funciones que pueden representar. Esta flexibilidad puede, en teoría, llevarlos a sobreajustar los datos de entrenamiento más rápido de lo que podría hacerlo un solo modelo, pero, en la práctica, algunas técnicas de creación de conjuntos (en particular, el embolsado ) tienden a reducir los problemas asociados con el sobreajuste de los datos de entrenamiento.

Empíricamente, los conjuntos tienden a funcionar mejor si hay una diferencia significativa entre los modelos [4] [5] . Muchos conjuntos de métodos, por lo tanto, buscan aumentar la diferencia en los modelos que combinan [6] [7] . Aunque tal vez no sea intuitivo, se pueden usar algoritmos más aleatorios (como árboles de decisión aleatorios) para producir conjuntos más ajustados que algoritmos bien pensados (como árboles de decisión de reducción de entropía) [8] . Sin embargo, el uso de diferentes algoritmos de aprendizaje riguroso ha demostrado ser más eficiente que el uso de técnicas que intentan simplificar los modelos para proporcionar una mayor distinción [9] .

Tamaño del conjunto

Si bien la cantidad de clasificadores en un conjunto tiene un gran impacto en la precisión de la predicción, solo hay una cantidad limitada de artículos que investigan este tema. Determinar a priori el tamaño del conjunto y el tamaño de la velocidad de los grandes flujos de datos hace que este factor sea aún más crítico para los conjuntos de clasificadores en línea. La mayoría de las pruebas estadísticas se han utilizado para determinar el número apropiado de componentes. Más recientemente, un marco teórico ha dado lugar a la suposición de que existe un número ideal de clasificadores en un conjunto, de modo que el número de clasificadores mayor o menor que este número ideal conduce a un deterioro de la precisión. Esto se llama la "ley de los rendimientos decrecientes en la construcción de conjuntos". Este marco teórico muestra que el uso de una cantidad de clasificadores independientes igual a la cantidad de etiquetas de clase brinda la mayor precisión [10] [11] .

Tipos de conjuntos comúnmente utilizados

Clasificador óptimo bayesiano

El clasificador óptimo bayesiano es una técnica de clasificación. Es el conjunto de todas las hipótesis del espacio de las hipótesis. En promedio, ninguno de los conjuntos puede superarlo [12] . El clasificador óptimo bayesiano simple es una versión que asume que los datos son condicionalmente independientes de la clase y realiza cálculos en más tiempo real. Cada hipótesis recibe un voto proporcional a la probabilidad de que los datos de entrenamiento sean seleccionados del sistema si la hipótesis fuera verdadera. Para obtener datos de entrenamiento de tamaño finito, el voto de cada hipótesis se multiplica por la probabilidad previa de esa hipótesis. El clasificador óptimo bayesiano se puede expresar mediante la siguiente igualdad:

y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{h_{i}\in H}{P(c_{j}|h_{i}) P(T|h_{i})P(h_{i})}

donde la clase pronosticada es el conjunto de todas las clases posibles, es la clase de hipótesis, se refiere a la probabilidad y son los datos de entrenamiento. Como conjunto, el clasificador óptimo bayesiano representa una hipótesis que no necesariamente pertenece a . La hipótesis representada por el clasificador óptimo bayesiano, sin embargo, es la hipótesis óptima en el espacio de conjuntos (el espacio de todos los conjuntos posibles que consiste solo en hipótesis espaciales ). $y$ $C$ $H$ $PAGS$ $T$ $H$ $H$

La fórmula se puede reescribir usando el teorema de Bayes , que dice que la probabilidad posterior es proporcional a la probabilidad previa:

P(h_{i}|T)\propto P(T|h_{i})P(h_{i})

dónde

y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{h_{i}\in H}{P(c_{j}|h_{i}) P(h_{i}|T)}

Embolsado

La agregación Bootstrap, a menudo abreviada como embolsado , otorga a cada modelo del conjunto el mismo peso (voz). Para mantener la varianza, el embolsado entrena cada modelo del conjunto con un subconjunto seleccionado al azar del conjunto de entrenamiento. Como ejemplo, el algoritmo de bosque aleatorio combina árboles de decisión aleatorios con embolsado para obtener una alta precisión de clasificación [13] .

Impulso

Impulsar construye el conjunto en incrementos sucesivos entrenando cada nuevo modelo para resaltar las instancias de entrenamiento que los modelos anteriores clasificaron incorrectamente. En algunos casos, se ha demostrado que impulsar da mejores resultados que embolsar, pero tiende a sobreajustarse en los datos de entrenamiento. La implementación más común de impulso es el algoritmo AdaBoost , aunque se ha afirmado que algunos algoritmos más nuevos dan mejores resultados.

Promedio bayesiano

El promedio de parámetros bayesianos (BPA) es una técnica de construcción de conjuntos que intenta aproximarse a un clasificador óptimo bayesiano muestreando el espacio de hipótesis y combinándolos usando la Ley de Bayes [14] . A diferencia del clasificador óptimo bayesiano, el modelo de promedio bayesiano se puede implementar de forma práctica. Las hipótesis generalmente se seleccionan utilizando una técnica de Monte Carlo , como MCMC . Por ejemplo, el muestreo de Gibbs se puede utilizar para muestrear hipótesis que representan una distribución . Se ha demostrado que bajo algunas circunstancias, si las hipótesis se eligen de esta manera y se promedian de acuerdo con la ley de Bayes, esta técnica tiene un error esperado que se limita al doble del error esperado del clasificador óptimo bayesiano [15] . A pesar de la corrección teórica de esta técnica, en los primeros trabajos, basados en datos experimentales, se sugirió que el método es propenso al sobreajuste y se comporta peor que las técnicas de ensamblaje de conjuntos simples como el embolsado [16] . Sin embargo, estas conclusiones se basaron en un malentendido del propósito del modelo de promediación bayesiano para una combinación de modelos [17] . Además, hay ventajas significativas en la teoría y la práctica de BMA. Evidencia rigurosa reciente muestra la precisión del BMA para la selección y estimación de variables en condiciones multivariadas [18] y proporciona evidencia empírica del papel esencial de proporcionar escasez en el BMA para mitigar el sobreajuste [19] . ${\ estilo de visualización P (T | H)}$

Una combinación de modelos bayesianos

La combinación de modelos bayesianos (BMC) es una corrección algorítmica del promedio del modelo bayesiano ( BMA ) . En lugar de seleccionar cada modelo en el conjunto individualmente, el algoritmo selecciona del espacio de conjuntos posibles (con pesos de modelo elegidos aleatoriamente de una distribución de Dirichlet con parámetros uniformes). Esta modificación evita la tendencia de la BMU de dar todo el peso de un modelo. Aunque el CBM es algo más derrochador desde el punto de vista computacional que el MBM, ofrece resultados significativamente mejores. Se ha demostrado que los resultados de BMS son mejores en promedio que BMS y embolsado [20] .

Usar la ley de Bayes para calcular los pesos de los modelos implica inevitablemente calcular la probabilidad de los datos para cada modelo. Normalmente, ninguno de los modelos de un conjunto tiene exactamente la misma distribución que los datos de entrenamiento a partir de los que se generaron, por lo que todos los términos obtienen correctamente un valor cercano a cero. Esto funcionaría bien si el conjunto fuera lo suficientemente grande como para muestrear el espacio del modelo completo, pero esto rara vez es posible. Por lo tanto, cada miembro del conjunto de entrenamiento hace que el peso del conjunto se desplace hacia el modelo del conjunto que está más cerca de la distribución de los datos de entrenamiento. Esto reduce sustancialmente la necesidad de un método de selección de modelos demasiado complejo.

Los pesos posibles para el conjunto pueden representarse sobre el símplex. En cada vértice del símplex, todos los pesos están dados por un modelo de conjunto separado. El BMA converge a un vértice que tiene una distribución más cercana a los datos de entrenamiento. En contraste, el KBM converge hasta el punto en que esta distribución se proyecta hacia el símplex. En otras palabras, en lugar de elegir un modelo que se acerque más a la distribución, el método busca la combinación de modelos que se acerque más a la distribución.

Los resultados de BMA a menudo se pueden aproximar mediante la validación cruzada para seleccionar un modelo de un conjunto de modelos. De manera similar, los resultados de KBM se pueden aproximar mediante validación cruzada para seleccionar la mejor combinación de conjuntos de una muestra aleatoria de pesos posibles.

Balde modelo

El cubo de modelos es una técnica de construcción de conjuntos que utiliza un algoritmo de selección de modelos para obtener el mejor modelo para cada problema. Cuando solo se prueba una tarea, es posible que el grupo de modelos no funcione mejor que el mejor modelo del conjunto; sin embargo, en el caso de ejecutar varias tareas, el algoritmo suele dar mejores resultados que cualquier modelo del conjunto.

El enfoque más común utilizado para la selección de modelos es el muestreo cruzado . Se describe mediante el siguiente pseudocódigo:

Para cada modelo en el cubo: Ejecutar c veces: (donde 'c' es una constante) Dividimos aleatoriamente los datos de entrenamiento en dos conjuntos: A y B. Tren m en A Comprobación de m contra B Elija el modelo que mostrará el resultado promedio más alto

El muestreo cruzado se puede describir como: "ejecutar todo en el conjunto de entrenamiento y elegir el que funcione mejor" [21] .

El gating es una generalización del muestreo cruzado. El método implica entrenar un modelo de aprendizaje diferente para decidir cuál de los modelos en el cubo es mejor para resolver el problema. A menudo, se utiliza un perceptrón para aislar el modelo . Se puede usar para seleccionar el "mejor" modelo o se puede usar para obtener un peso lineal para las predicciones de cada modelo en el depósito.

Cuando se usa un grupo de modelos con un gran conjunto de tareas, puede ser conveniente evitar entrenar algunos modelos que requieren mucho tiempo de entrenamiento. El aprendizaje histórico es un enfoque de metaaprendizaje que busca resolver este problema. Entrena solo algoritmos rápidos (pero inexactos) y luego usa el rendimiento de estos algoritmos para determinar cuál de los algoritmos lentos (pero precisos) elegir como el mejor [22] .

Apilamiento

El apilamiento (a veces llamado generalización de la pila ) implica entrenar un algoritmo de aprendizaje para combinar las predicciones de varios otros algoritmos de aprendizaje. Primero, todos los demás algoritmos se entrenan con datos válidos, luego los algoritmos de combinación se entrenan para hacer una predicción final con todas las predicciones de los demás algoritmos como una entrada adicional. Si se usa un algoritmo de combinación arbitrario, entonces el apilamiento teóricamente puede representar cualquiera de las técnicas de conjunto descritas en este artículo, aunque, en la práctica, a menudo se usa un modelo de regresión logística como herramienta para el algoritmo de combinación.

El apilamiento generalmente produce un mejor rendimiento que cualquiera de los patrones de entrenamiento solos [23] . Se ha utilizado con éxito tanto en problemas de aprendizaje supervisado (regresión [24] , clasificación y aprendizaje a distancia [25] ) como en problemas de aprendizaje no supervisado (estimación de densidad) [26] . También se ha utilizado para estimar el error de embolsado [3] [27] . Se afirmó que el método superaba al modelo de promediación bayesiano [28] . Los dos ganadores del concurso de Netflix utilizan blending , que puede considerarse una forma de apilamiento [29] .

Implementación en paquetes estadísticos

R : Al menos tres paquetes ofrecen funciones para el modelo promedio bayesiano [30] , incluido el paquete BMS (abreviatura de selección de modelo bayesiano) [31] , el paquete BAS (abreviatura de muestreo adaptativo bayesiano) [32] y el paquete BMA [33] . El paquete H2O ofrece una gran cantidad de modelos de aprendizaje automático, incluido un modelo de ensamblaje de conjuntos que se puede entrenar con Spark .
Python : Scikit-learn , un paquete de aprendizaje automático de Python, ofrece paquetes para aprendizaje conjunto, incluidos paquetes para métodos de embolsado y promedio.
MATLAB : Los conjuntos de clasificadores se implementan en el kit de herramientas Estadísticas y aprendizaje automático [34] .

Aplicaciones de aprendizaje en conjunto

En los últimos años, debido a la creciente potencia informática que permite entrenar grandes conjuntos de entrenamiento en un tiempo razonable, el número de aplicaciones ha crecido rápidamente [35] . Algunas de las aplicaciones de los conjuntos clasificadores se dan a continuación.

Teledetección de la Tierra

Reflejo de Vegetación

La reflexión de la vegetación es una de las principales aplicaciones de la observación de la Tierra , que utiliza sensores remotos y datos geográficos para reconocer objetos que se encuentran en la superficie de áreas objetivo. Por lo general, las clases de materiales de destino incluyen carreteras, edificios, ríos, lagos y vegetación [36] . Se han propuesto diferentes enfoques para el entrenamiento de conjuntos basados en redes neuronales artificiales [37] , análisis de componentes principales del kernel ( KPCA ) [38] , árboles de decisión potenciados [ 39] , bosques aleatorios [36] y creación automática de varios clasificadores. sistemas [40] para el reconocimiento efectivo de objetos de cobertura vegetal .

Detección de cambios

La detección de cambios es una tarea de análisis de imágenes que consiste en identificar lugares donde la cobertura vegetal ha cambiado con el tiempo. La detección de cambios es ampliamente utilizada en áreas como el crecimiento urbano , la dinámica de cambios en los bosques y la vegetación , el uso del suelo y la detección de desastres naturales [41] . Las primeras aplicaciones de conjuntos de clasificadores para determinar el cambio se desarrollaron utilizando la votación mayoritaria , la media bayesiana y la estimación máxima posterior [42] .

Protección informática

Ataque DoS

Un ataque de denegación de servicio distribuido es uno de los ataques cibernéticos más amenazantes que le pueden ocurrir a un ISP [35] . Al combinar la salida de clasificadores individuales, un conjunto de clasificadores reduce el error general al detectar y separar tales ataques de flash mobs legítimos [43] .

Detección de malware

La clasificación de códigos de malware como virus informáticos , gusanos , troyanos , ransomware y spyware utilizando técnicas de aprendizaje automático se inspira en la tarea de categorización de documentos [44] . Los sistemas de aprendizaje por conjuntos han mostrado un desempeño sólido en esta área [45] [46] .

Detección de intrusos

Un sistema de detección de intrusos rastrea una red de computadoras o computadoras para identificar códigos de intrusión, similar a un proceso de detección de anomalías . El entrenamiento en conjunto ha tenido éxito en ayudar a tales sistemas a reducir el número total de errores [47] [48] .

Reconocimiento facial

El reconocimiento facial , que se ha convertido recientemente en el área de investigación más popular en el reconocimiento de patrones , se ocupa de identificar o verificar a una persona a partir de su imagen digital [49] .

Los conjuntos jerárquicos basados en el clasificador Gabor Fischer y las técnicas de preprocesamiento de datos en el análisis de componentes independientes son algunos de los primeros conjuntos utilizados en este campo [50] [51] [52] .

Reconocimiento de emociones

Si bien el reconocimiento de voz se basa principalmente en el aprendizaje profundo , dado que la mayoría de los actores de la industria en este campo, como Google , Microsoft e IBM , lo utilizan como base de la tecnología de reconocimiento de voz , el reconocimiento de emociones basado en conversaciones puede funcionar satisfactoriamente con aprendizaje conjunto [ 53] [54] .

El método también se ha utilizado con éxito en el reconocimiento de emociones faciales [55] [56] [57] .

Detección de fraude

La detección de fraude se ocupa de la identificación del fraude bancario , como el blanqueo de capitales , el fraude con tarjetas de pago y el fraude de telecomunicaciones. La detección de fraude tiene un amplio margen para la investigación y la aplicación del aprendizaje automático . Debido a que el aprendizaje conjunto mejora la solidez del comportamiento de simulación normal, se ha propuesto como una técnica eficaz para detectar tales instancias de fraude y actividad bancaria sospechosa en los sistemas de tarjetas de crédito [58] [59] .

Tomar decisiones financieras

La precisión de la predicción del fracaso comercial es un tema crítico en la toma de decisiones financieras, por lo que se han propuesto varios conjuntos de clasificadores para predecir crisis financieras y colapsos financieros [60] . También en el problema de la manipulación basada en ofertas , donde los comerciantes intentan manipular los precios de las acciones comprando o vendiendo, se requiere un conjunto de clasificadores para analizar los cambios en los datos del mercado de valores e identificar síntomas de manipulación sospechosa de los precios de las acciones [60] .

Medicina

El sistema clasificador se ha aplicado con éxito en neurociencias , proteómica y diagnóstico médico , como el reconocimiento de trastornos neurocognitivos (es decir , enfermedad de Alzheimer o distrofia miotónica ) basados en datos de imágenes de resonancia magnética [61] [62] [63] o clasificación de citología cervical basada en microscopía [64] [65] .

Véase también

Promedio de conjuntos (aprendizaje automático)
Serie temporal estructural bayesiana (BSTS)

Notas

↑ Opitz, Maclin, 1999 , pág. 169-198.
↑ Polikar, 2006 , pág. 21-45.
↑ 1 2 Rokach, 2010 , pág. 1-39.
↑ Kuncheva, Whitaker, 2003 , pág. 181-207.
↑ Sollich y Krogh 1996 , pág. 190-196, 1996.
↑ Brown, Wyatt, Harris, Yao, 2005 , pág. 5-20.
↑ Adeva, Cerviño, Calvo, 2005 .
↑ Ho, 1995 , pág. 278-282.
↑ Gashler, Giraud-Carrier, Martínez, 2008 , p. 900-905.
↑ Bonab, Can, 2016 , pág. 2053.
↑ Bonab, Can, 2017 .
↑ Mitchell, 1997 , pág. 175.
↑ Breiman, 1996 , pág. 123-140.
↑ Hoeting, Madigan, Raftery, Volinsky, 1999 , pág. 382–401.
↑ Haussler, Kearns, Schapire, 1994 , pág. 83–113.
↑ Domingos, 2000 , p. 223–230.
↑ Minka, 2002 .
↑ Castillo, Schmidt-Hieber, van der Vaart, 2015 , p. 1986-2018
↑ Hernández-Lobato, Hernández-Lobato, Dupont, 2013 , pág. 1891-1945
↑ Monteith, Carroll, Seppi, Martínez, 2011 , p. 2657-2663.
↑ Dzeroski, Zenko, 2004 , pág. 255-273.
↑ Bensusan, Giraud-Carrier, 2000 , p. 325-330.
↑ Wolpert, 1992 , pág. 241-259.
↑ Breiman, 1996 .
↑ Ozay, Vural, 2013 .
↑ Smyth, Wolpert, 1999 , pág. 59-83.
↑ Wolpert, Macready, 1999 , pág. 41-55.
↑ Clarke, 2003 , pág. 683-712.
↑ Sill, Takacs, Mackey, Lin, 2009 .
↑ Amini, Parámetro, 2011 , pág. 253–287.
↑ BMS: Biblioteca de promedios del modelo bayesiano . La Red Integral de Archivos R. Consultado el 9 de septiembre de 2016. Archivado desde el original el 28 de noviembre de 2020. (indefinido)
↑ BAS: promedio del modelo bayesiano mediante muestreo adaptativo bayesiano . La Red Integral de Archivos R. Consultado el 9 de septiembre de 2016. Archivado desde el original el 7 de octubre de 2020. (indefinido)
↑ BMA: promedio del modelo bayesiano . La Red Integral de Archivos R. Consultado el 9 de septiembre de 2016. Archivado desde el original el 7 de mayo de 2021. (indefinido)
↑ Conjuntos de clasificación . MATLAB y Simulink . Consultado el 8 de junio de 2017. Archivado desde el original el 1 de diciembre de 2020. (indefinido)
↑ 1 2 Woźniak, Graña, Corchado, 2014 , p. 3–17.
↑ 1 2 Rodríguez-Galiano, Ghimire, Rogan et al., 2012 , p. 93–104.
↑ Giacinto, Roli, 2001 , p. 699–707.
↑ Xia, Yokoya, Iwasaki, 2017 , pág. 6185-6189.
↑ Mochizuki, Murakami, 2012 , pág. 126-133.
↑ Giacinto, Roli, Fumera, 2000 , p. 160-163.
↑ Du, Liu, Xia, Zhao, 2013 , pág. 19–27.
↑ Bruzzone, Cossu, Vernazza, 2002 , p. 289–297.
↑ Raj Kumar, Selvakumar, 2011 , pág. 1328-1341.
↑ Shabtai, Moskovitch, Elovici, Glezer, 2009 , pág. 16–29.
↑ Zhang, Yin, Hao, Zhang, Wang, 2007 , pág. 468-477.
↑ Menahem, Shabtai, Rokach, Elovici, 2009 , pág. 1483-1494
↑ Locasto, Wang, Keromytis, Salvatore, 2005 , pág. 82-101.
↑ Giacinto, Perdisci, Del Río, Roli, 2008 , pág. 69–82.
↑ Mu, Lu, Watta, Hassoun, 2009 .
↑ Yu, Shan, Chen, Gao, 2006 , pág. 91-96.
↑ Yu, Shan, Chen, Gao, 2006 , pág. 528-531.
↑ Liu, Lin, Chen, 2008 , pág. 144-148.
↑ Rieger, Muraleedharan, Ramachandran, 2014 , pág. 589-593.
↑ Krajewski, Batliner, Kessel, 2010 , pág. 3716-3719.
↑ Rani, Muneeswaran, 2016 , pág. 10017–10040.
↑ Rani, Muneeswaran, 2016 , pág. 1655020.
↑ Rani, Muneeswaran, 2018 .
↑ Louzada, Ara, 2012 , p. 11583–11592.
↑ Sundarkumar, Ravi, 2015 , pág. 368–377.
↑ 1 2 Kim y Sohn, 2012 , pág. 8986–8992.
↑ Savio, García-Sebastián, Chyzyk et al., 2011 , p. 600–610.
↑ Ayerdi, Savio, Graña, 2013 , p. 122-130.
↑ Gu, Ding, Zhang, 2015 , pág. 110–118.
↑ Dan Xue, Xiaomin Zhou, Chen Li, Yudong Yao, Md Mamunur Rahaman. Una aplicación de técnicas de aprendizaje por transferencia y aprendizaje por conjuntos para la clasificación de imágenes de histopatología cervical // Acceso IEEE. - 2020. - T. 8 . — P. 104603–104618 . — ISSN 2169-3536 . -doi : 10.1109/ ACCESO.2020.2999816 . Archivado desde el original el 31 de agosto de 2021.
↑ Ankur Manna, Rohit Kundu, Dmitrii Kaplun, Alexander Sinitca, Ram Sarkar. Un conjunto difuso basado en rangos de modelos CNN para la clasificación de la citología cervical // Scientific Reports. — 2021-12. — vol. 11 , edición. 1 . — Pág. 14538 . — ISSN 2045-2322 . -doi : 10.1038/ s41598-021-93783-8 . Archivado desde el original el 31 de agosto de 2021.

Literatura

Opitz D., Maclin R. Métodos de conjuntos populares: un estudio empírico // Journal of Artificial Intelligence Research . - 1999. - T. 11 . - S. 169-198 . -doi : 10.1613 / jair.614 .
Polikar R. Sistemas basados en conjuntos en la toma de decisiones // Revista IEEE Circuits and Systems. - 2006. - T. 6 , núm. 3 . - S. 21-45 . -doi : 10.1109/ MCAS.2006.1688199 .
Rokach L. Clasificadores basados en conjuntos // Revisión de inteligencia artificial. - 2010. - T. 33 , núm. 1-2 . -doi : 10.1007/ s10462-009-9124-7 .
Kuncheva L., Whitaker C. Medidas de diversidad en conjuntos clasificadores y su relación con la precisión del conjunto // Aprendizaje automático. - 2003. - T. 51 , núm. 2 .
Sollich P., Krogh A. Aprendizaje con conjuntos: cómo puede ser útil el sobreajuste // Avances en los sistemas de procesamiento de información neuronal. - 1996. - T. 8 .
Brown G., Wyatt J., Harris R., Yao X. Métodos de creación de diversidad: una encuesta y categorización // Fusión de información. - 2005. - T. 6 , núm. 1 .
JJ García Adeva, Ulises Cerviño, R. Calvo. Precisión y diversidad en conjuntos de categorías de texto // CLEI Journal. - 2005. - Diciembre ( vol. 8 , número 2 ). Archivado desde el original el 7 de julio de 2011.
Ho T. Random Decision Forests // Actas de la Tercera Conferencia Internacional sobre Análisis y Reconocimiento de Documentos. — 1995.
Gashler M., Giraud-Carrier C., Martinez T. Conjunto de árboles de decisión: lo pequeño heterogéneo es mejor que lo grande homogéneo // La séptima conferencia internacional sobre aprendizaje automático y aplicaciones . - 2008. - doi : 10.1109/ICMLA.2008.154 .
Hamed R. Bonab, Fazli Can. Un marco teórico sobre el número ideal de clasificadores para conjuntos en línea en flujos de datos // 25ª Conferencia sobre Gestión de la Información y el Conocimiento . — EE. UU.: ACM, 2016. — doi : 10.1145/2983323.2983907 .
Hamed R. Bonab, Fazli Can. Menos es más: un marco integral para la cantidad de componentes de clasificadores de conjunto // Transacciones IEEE en redes neuronales y sistemas de aprendizaje 2017 . EE. UU.: IEEE, 2017.
Tom M Mitchell . aprendizaje automático. - Ciencias/Ingeniería/Matemáticas de McGraw-Hill, 1997. - ISBN 0070428077 .
Breiman, L. Predictores de embolsado // Aprendizaje automático. - 1996. - T. 24 , núm. 2 .
Hoeting JA, Madigan D., Raftery AE, Volinsky CT Promedio del modelo bayesiano: un tutorial // Ciencia estadística. - 1999. - T. 14 , núm. 4 . -doi : 10.2307/ 2676803 . — .
David Haussler, Michael Kearns, Robert E. Schapire. Límites en la complejidad muestral del aprendizaje bayesiano utilizando la teoría de la información y la dimensión VC // Machine Learning. - 1994. - T. 14 .
Pedro Domingos. Promedio bayesiano de clasificadores y el problema de sobreajuste // Actas de la 17.ª Conferencia internacional sobre aprendizaje automático (ICML) . - 2000. - S. 223--230.
Tomas Minka. El promedio del modelo bayesiano no es una combinación de modelos . — 2002.
Castillo I., Schmidt-Hieber J., van der Vaart A. Regresión lineal bayesiana con antecedentes dispersos // Annals of Statistics . - 2015. - T. 43 , núm. 5 . -doi : 10.1214 / 15-AOS1334 . -arXiv : 1403.0735 . _
Hernández-Lobato D., Hernández-Lobato JM, Dupont P. Generalized Spike-and-Slab Priors for Bayesian Group Feature Selection Using Expectation Propagation // Journal of Machine Learning Research. - 2013. - T. 14 .
Convertir el promedio del modelo bayesiano en una combinación de modelos bayesianos // Actas de la Conferencia Internacional Conjunta sobre Redes Neuronales IJCNN'11 . - 2011. - S. 2657-2663.
Saso Dzeroski, Bernard Zenko. ¿Es mejor combinar clasificadores que seleccionar el mejor ? // Aprendizaje automático. — 2004.
Hilan Bensusan, Christophe G. Giraud-Carrier. Descubriendo vecindarios de tareas a través de actuaciones de aprendizaje históricas // PKDD '00: Actas de la 4ª Conferencia Europea sobre Principios de Minería de Datos y Descubrimiento de Conocimiento. — Springer-Verlag, 2000.
Smyth P., Wolpert DH Combinación lineal de estimadores de densidad mediante apilamiento // Diario de aprendizaje automático. - 1999. - T. 36 .
Wolpert DH, Macready WG Un método eficiente para estimar el error de generalización de Bagging // Machine Learning Journal. - 1999. - T. 35 .
Promedio y apilamiento de modelos de Clarke B. Bayes cuando no se puede ignorar el error de aproximación del modelo // Journal of Machine Learning Research. — 2003.
Wolpert D. Generalización apilada // Redes neuronales. - 1992. - V. 5 , núm. 2 .
Breiman L. Regresión apilada // Aprendizaje automático. - 1996. - T. 24 . -doi : 10.1007/ BF00117832 .
Ozay M., Yarman Vural FT Una nueva técnica de generalización apilada difusa y análisis de su rendimiento. - 2013. - . -arXiv : 1204.0171 . _
Sill J., Takacs G., Mackey L., Lin D. Apilamiento lineal ponderado por características. - 2009. - . -arXiv : 0911.0460 . _
Shahram M. Amini, Christopher F. Parmeter. Modelo bayesiano promediando en R // Revista de Medición Económica y Social. - 2011. - T. 36 , núm. 4 .
Michał Woźniak, Manuel Graña, Emilio Corchado. Una encuesta de sistemas clasificadores múltiples como sistemas híbridos // Fusión de información. - 2014. - marzo ( vol. 16 ). -doi : 10.1016/ j.inffus.2013.04.006 .
Rodriguez-Galiano VF, Ghimire B., Rogan J., Chica-Olmo, M., Rigol-Sanchez JP Una evaluación de la efectividad de un clasificador aleatorio de bosques para la clasificación de la cobertura terrestre // ISPRS Journal of Photogrametry and Remote Sensing. - 2012. - T. 67 . -doi : 10.1016/ j.isprsjprs.2011.11.002 . — .
Giorgio Giacinto, Fabio Roli. Diseño de conjuntos de redes neuronales efectivos para fines de clasificación de imágenes // Computación de imágenes y visión. - 2001. - Agosto ( vol. 19 , número 9-10 ). - doi : 10.1016/S0262-8856(01)00045-2 .
Junshi Xia, Naoto Yokoya, Yakira Iwasaki. Un clasificador de conjunto novedoso de datos hiperespectrales y LiDAR que utiliza características morfológicas // Conferencia internacional IEEE 2017 sobre procesamiento de acústica, voz y señales (ICASSP). - 2017. - Marzo. -doi : 10.1109/ ICASSP.2017.7953345 .
Mochizuki S., Murakami T. Comparación de precisión del mapeo de cobertura terrestre utilizando la clasificación de imágenes orientada a objetos con algoritmos de aprendizaje automático // 33.ª Conferencia asiática sobre teledetección 2012, ACRS 2012. - 2012. - noviembre ( vol. 1 ).
Giacinto G., Roli F., Fumera G. Diseño de sistemas clasificadores múltiples efectivos mediante agrupamiento de clasificadores // Actas 15th International Conference on Pattern Recognition. ICPR-2000. - 2000. - Septiembre. -doi : 10.1109/ ICPR.2000.906039 .
Peijun Du, Sicong Liu, Junshi Xia, Yindi Zhao. Técnicas de fusión de información para la detección de cambios a partir de imágenes multitemporales de teledetección // Fusión de información. - 2013. - Enero ( vol. 14 , número 1 ). -doi : 10.1016/ j.inffus.2012.05.003 .
Lorenzo Bruzzone, Roberto Cossu, Gianni Vernazza. Combinación de algoritmos paramétricos y no paramétricos para una clasificación parcialmente no supervisada de imágenes multitemporales de teledetección // Fusión de información. - 2002. - Diciembre ( vol. 3 , número 4 ). -doi : 10.1016 / S1566-2535(02)00091-X .
P. Arun Raj Kumar, S. Selvakumar. Detección distribuida de ataques de denegación de servicio mediante un conjunto de clasificadores neuronales // Comunicaciones informáticas. - 2011. - julio ( vol. 34 , número 11 ). -doi : 10.1016/ j.comcom.2011.01.012 .
Asaf Shabtai, Robert Moskovitch, Yuval Elovici, Chanan Glezer. Detección de código malicioso mediante la aplicación de clasificadores de aprendizaje automático en características estáticas: una encuesta de última generación // Informe técnico de seguridad de la información. - 2009. - febrero ( vol. 14 , número 1 ). -doi : 10.1016/ j.istr.2009.03.003 .
Boyun Zhang, Jianping Yin, Jingbo Hao, Dingxing Zhang, Shulin Wang. Detección de códigos maliciosos basada en Ensemble Learning // Computación autónoma y confiable. - 2007. - doi : 10.1007/978-3-540-73547-2_48 .
Eitan Menahem, Asaf Shabtai, Lior Rokach, Yuval Elovici. Mejora de la detección de malware mediante la aplicación de conjuntos de inductores múltiples // Estadísticas computacionales y análisis de datos. - 2009. - febrero ( vol. 53 , número 4 ). -doi : 10.1016/ j.csda.2008.10.015 .
Michael E. Locasto, Ke Wang, Ángeles D. Keromytis, J. Stolfo Salvatore. FLIPS: prevención de intrusos adaptativa híbrida // Avances recientes en la detección de intrusos. -2005. - doi : 10.1007/11663812_5 .
Giorgio Giacinto, Roberto Perdisci, Mauro Del Rio, Fabio Roli. Detección de intrusiones en redes informáticas mediante un conjunto modular de clasificadores de una clase // Fusión de información. - 2008. - Enero ( vol. 9 , número 1 ). -doi : 10.1016/ j.inffus.2006.10.002 .
Xiaoyan Mu, Jiangfeng Lu, Paul Watta, Mohamad H. Hassoun. Clasificadores de conjunto basados en votación ponderada con aplicación al reconocimiento de rostro humano y reconocimiento de voz // 2009 International Joint Conference on Neural Networks. - 2009. - julio. -doi : 10.1109/ IJCNN.2009.5178708 .
Su Yu, Shiguang Shan, Xilin Chen, Wen Gao. Conjunto jerárquico del clasificador Gabor Fisher para reconocimiento facial // Automatic Face and Gesture Recognition, 2006. FGR 2006. 7th International Conference on Automatic Face and Gesture Recognition (FGR06). - 2006. - Abril. -doi : 10.1109/ FGR.2006.64 .
Su Yu, Shiguang Shan, Xilin Chen, Wen Gao. Clasificador gabor fisher basado en parches para reconocimiento facial // Actas - Conferencia internacional sobre reconocimiento de patrones. - 2006. - Septiembre ( vol. 2 ). -doi : 10.1109/ ICPR.2006.917 .
Yang Liu, Yongzheng Lin, Yuehui Chen. Clasificación de conjuntos basada en ICA para el reconocimiento facial // Actas - 1.er Congreso internacional sobre procesamiento de imágenes y señales, Conferencia IEEE, CISP 2008. - 2008. - Julio. -doi : 10.1109/ CISP.2008.581 .
Steven A. Rieger, Rajani Muraleedharan, Ravi P. Ramachandran. Reconocimiento de emociones basado en el habla mediante extracción de características espectrales y un conjunto de clasificadores kNN // Actas del 9º Simposio Internacional sobre Procesamiento del Lenguaje Hablado Chino, ISCSLP 2014. - 2014. - doi : 10.1109/ISCSLP.2014.6936711 .
Jarek Krajewski, Anton Batliner, Silke Kessel. Comparación de clasificadores múltiples para la detección de confianza en uno mismo basada en el habla: un estudio piloto // 20.ª Conferencia internacional sobre reconocimiento de patrones. - 2010. - doi : 10.1109/ICPR.2010.905 .
P. Ithaya Rani, K. Muneeswaran. Reconozca la emoción facial en secuencias de video utilizando las características temporales de ojos y boca de Gabor // Herramientas y aplicaciones multimedia. - 2016. - mayo ( vol. 76 , número 7 ). -doi : 10.1007 / s11042-016-3592-y .
P. Ithaya Rani, K. Muneeswaran. Reconocimiento de emociones faciales basado en regiones de ojos y boca // Revista internacional de reconocimiento de patrones e inteligencia artificial. - 2016. - Agosto ( vol. 30 , número 07 ). -doi : 10.1142/ S021800141655020X .
P. Ithaya Rani, K. Muneeswaran. Reconocimiento de emociones basado en componentes faciales // Sādhanā. - 2018. - marzo ( vol. 43 , número 3 ). -doi : 10.1007/ s12046-018-0801-6 .
Francisco Louzada, Anderson Ara. Redes probabilísticas de k-dependencia de embolsado: una poderosa herramienta alternativa de detección de fraude // Sistemas expertos con aplicaciones. - 2012. - Octubre ( vol. 39 , número 14 ). -doi : 10.1016/ j.eswa.2012.04.024 .
G. Ganesh Sundarkumar, Vadlamani Ravi. Un novedoso método híbrido de submuestreo para extraer conjuntos de datos desequilibrados en banca y seguros // Aplicaciones de ingeniería de inteligencia artificial. - 2015. - Enero ( vol. 37 ). -doi : 10.1016/ j.engappai.2014.09.019 .
Yoonseong Kim, So Young Sohn. Detección de fraude bursátil mediante análisis de grupos de pares // Sistemas Expertos con Aplicaciones. - 2012. - agosto ( vol. 39 , número 10 ). -doi : 10.1016/ j.eswa.2012.02.025 .
Yoonseong Kim, So Young Sohn. Detección de fraude bursátil mediante análisis de grupos de pares // Sistemas Expertos con Aplicaciones. - 2012. - agosto ( vol. 39 , número 10 ). -doi : 10.1016/ j.eswa.2012.02.025 .
Savio A., García-Sebastián MT, Chyzyk D., Hernandez C., Graña M., Sistiaga A., López de Munain A., Villanúa J. Detección de trastornos neurocognitivos basada en vectores de características extraídos del análisis VBM de resonancia magnética estructural // Informática en Biología y Medicina. - 2011. - Agosto ( vol. 41 , número 8 ). -doi : 10.1016/ j.compbiomed.2011.05.010 .
Ayerdi B., Savio A., Graña M. Meta-ensamblajes de clasificadores para la detección de la enfermedad de Alzheimer utilizando funciones de ROI independientes // Apuntes de lección en informática (incluidas las subseries Apuntes de lección sobre inteligencia artificial y Apuntes de lección sobre bioinformática). - 2013. - Junio ( edición Parte 2 ). -doi : 10.1007 / 978-3-642-38622-0_13 .
Quan Gu, Yong-Sheng Ding, Tong-Liang Zhang. Un clasificador de conjunto basado en la predicción de las clases de receptores acoplados a proteínas G en baja homología // Neurocomputación. - 2015. - Abril ( vol. 154 ). -doi : 10.1016/ j.neucom.2014.12.013 .

Lectura para leer más

Zhou Zhihua. Métodos de conjunto: fundamentos y algoritmos. - Chapman and Hall/CRC, 2012. - ISBN 978-1-439-83003-1 .
Robert Schapire, Yoav Freund. Impulso: Fundamentos y Algoritmos. - MIT, 2012. - ISBN 978-0-262-01718-3 .

Enlaces

Sistema de waffles que contiene implementaciones de embolsado, impulso, promediado de modelos bayesianos, combinación bayesiana de modelos, cubeta de modelos y otras técnicas de ensamblaje.

Aprendizaje automático y minería de datos
Tareas	Problema de clasificación Aprender sin un maestro Aprendizaje asistido por profesores Análisis de regresión AutoML reglas de asociación Extracción de características entrenamiento de rasgos Entrenamiento de clasificación Derivación gramatical Aprender en línea
Aprendiendo con un maestro	método del k-vecino más cercano Clasificador bayesiano ingenuo árbol de decisión Máquinas de vectores soporte Regresión lineal Regresión logística perceptrón conjuntos de modelos Harpillera impulsar bosque aleatorio Método de vector relevante
análisis de conglomerados	método k-medias método de agrupamiento difuso Agrupación jerárquica algoritmo EM ABEDUL CURAR DBSCAN ÓPTICA Desplazamiento medio
Reducción de dimensionalidad	Análisis factorial Método de componentes principales CCA ICA LDA Expansión de matriz no negativa t-SNE
Pronóstico estructural	Graficar modelo probabilístico red bayesiana Modelo oculto de Markov FRC
Detección de anomalías	método del k-vecino más cercano Nivel de emisión local
Graficar modelos probabilísticos	red bayesiana Red de Markov Modelo oculto de Markov
Redes neuronales	Máquina Boltzmann limitada mapa autoorganizado Función de activación Sigmoideo softmax Funcion de base radial Método de propagación hacia atrás Aprendizaje profundo perceptrón multicapa Red neuronal recurrente memoria a corto plazo Bloque recurrente controlado Red neuronal convolucional U-red Codificador automático
Aprendizaje reforzado	proceso de Markov Ecuación de Bellman Algoritmo codicioso Q-aprendizaje SARAS Diferencia temporal (DT)
Teoría	Teoría de Vapnik-Chervonenkis Dilema de dispersión de sesgo Teoría del aprendizaje computacional Minimización empírica del riesgo El aprendizaje de Occam aprendizaje PAC Teoría del aprendizaje estadístico
revistas y congresos	NeurIPS ICML ML JMLR ArXiv:cs.LG