Aprender sin un maestro

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 11 de julio de 2021; las comprobaciones requieren 3 ediciones .

El aprendizaje no supervisado (autoaprendizaje, aprendizaje espontáneo, aprendizaje no supervisado en inglés ) es uno de los métodos de aprendizaje automático , en el que el sistema bajo prueba aprende espontáneamente a realizar la tarea sin la intervención del experimentador. Desde el punto de vista de la cibernética , este es uno de los tipos de experimento cibernético . Por regla general, esto solo es adecuado para tareas en las que se conocen las descripciones de un conjunto de objetos (muestra de entrenamiento), y se requiere para detectar relaciones internas, dependencias y patrones que existen entre los objetos.

El aprendizaje no supervisado a menudo se contrasta con el aprendizaje supervisado , cuando se fuerza una "respuesta correcta" para cada objeto de aprendizaje y se requiere encontrar una relación entre los estímulos y las respuestas del sistema.

Conexión con la fisiología

A pesar de los numerosos avances aplicados, el aprendizaje supervisado ha sido criticado por su inverosimilitud biológica. Es difícil imaginar un mecanismo de aprendizaje en el cerebro que compare los valores de salida deseados y reales, corrigiéndolos con retroalimentación. Si permitimos tal mecanismo en el cerebro, ¿de dónde vienen los resultados deseados? El aprendizaje no supervisado es un modelo mucho más plausible para el aprendizaje en un sistema biológico. Desarrollado por Kohonen y muchos otros, no necesita un vector objetivo para los resultados y, por lo tanto, no requiere comparación con respuestas ideales predefinidas [1] .

El concepto de "aprender sin maestro" en la teoría del reconocimiento de patrones

Para construir una teoría y alejarse del experimento cibernético en varias teorías, se intenta formalizar matemáticamente el experimento con aprendizaje no supervisado. Hay muchas subespecies diferentes de configuración y definición de esta formalización, una de las cuales se refleja en la teoría del reconocimiento de patrones .

Tal desviación del experimento y la construcción de una teoría están asociadas con diferentes opiniones de especialistas en sus puntos de vista. Las diferencias, en particular, surgen al responder a la pregunta: “¿Es posible tener principios uniformes para una adecuada descripción de imágenes de distinta naturaleza, o tal descripción es cada vez tarea de especialistas en conocimientos específicos?”.

En el primer caso, la formulación debe estar dirigida a identificar los principios generales para utilizar información a priori en la elaboración de una adecuada descripción de las imágenes. Es importante que aquí la información a priori sobre imágenes de diferente naturaleza sea diferente, pero el principio de su contabilidad es el mismo. En el segundo caso, el problema de obtener una descripción queda fuera del alcance del enunciado general, y la teoría de las máquinas que aprenden a reconocer imágenes desde el punto de vista de la teoría estadística de aprender a reconocer imágenes puede reducirse a la problema de minimizar el riesgo promedio en una clase especial de reglas de decisión [2] .

En la teoría del reconocimiento de patrones , existen principalmente tres enfoques para este problema [3] :

métodos heurísticos;
métodos matemáticos;
Métodos lingüísticos (sintácticos).

Tipos de datos de entrada

Descripción indicativa de objetos. Cada objeto se describe por un conjunto de sus características, llamadas características . Las características pueden ser numéricas o no numéricas.
Matriz de distancia entre objetos. Cada objeto se describe por distancias a todos los demás objetos en el conjunto de entrenamiento.

Tareas a resolver

Un esquema experimental de aprendizaje no supervisado se usa a menudo en la teoría del reconocimiento de patrones , el aprendizaje automático . Al mismo tiempo, según el enfoque, se formaliza en uno u otro concepto matemático. Y solo en la teoría de las redes neuronales artificiales , el problema se resuelve de forma experimental, utilizando uno u otro tipo de redes neuronales. En este caso, por regla general, el modelo resultante puede no tener una interpretación, lo que a veces se denomina desventajas de las redes neuronales. Sin embargo, los resultados no son peores y, si se desea, se pueden interpretar utilizando métodos especiales.

Problemas de agrupamiento

Un experimento de aprendizaje no supervisado para resolver un problema de reconocimiento de patrones se puede formular como un problema de análisis de conglomerados . La muestra de objetos se divide en subconjuntos que no se superponen, denominados conglomerados , de modo que cada conglomerado consta de objetos similares y los objetos de diferentes conglomerados difieren significativamente. La información inicial se presenta en forma de matriz de distancia.

Métodos de solución

La agrupación puede desempeñar un papel auxiliar en la resolución de problemas de clasificación y regresión. Para hacer esto, primero debe dividir la muestra en conglomerados, luego aplicar un método muy simple a cada conglomerado, por ejemplo, aproximar la dependencia objetivo con una constante.

Métodos de solución

Red neuronal de retropropagación
Red de funciones de base radial

Problemas de generalización

Al igual que en el caso de los experimentos de discriminación , que pueden formularse matemáticamente como agrupamiento , al generalizar conceptos, se puede investigar la generalización espontánea , en la que los criterios de similitud no se introducen desde el exterior o no son impuestos por el experimentador.

Al mismo tiempo, en un experimento de “generalización pura”, se requiere un modelo del cerebro o perceptrón para pasar de una respuesta selectiva a un estímulo (por ejemplo, un cuadrado ubicado en el lado izquierdo de la retina) a un estímulo similar. que no activa ninguna de las mismas terminaciones sensoriales (cuadrado en el lado derecho de la retina). Una generalización de tipo más débil incluye, por ejemplo, el requisito de que las respuestas del sistema se extiendan a elementos de una clase de estímulos similares que no están necesariamente separados del estímulo previamente mostrado (o escuchado o percibido por el tacto).

Tareas de detección de anomalías

Los métodos de aprendizaje no supervisados son comunes para resolver problemas de detección de anomalías, es decir, aquellas secciones de datos en las que el comportamiento del objeto difiere significativamente del comportamiento típico (esperado). [cuatro]

Problemas de encontrar reglas de asociación

La información inicial se presenta en forma de descripciones indicativas. La tarea es encontrar tales conjuntos de características y tales valores de estas características, que se encuentran con especial frecuencia (no por casualidad) en las descripciones de características de los objetos.

Problemas de reducción de dimensiones

La información inicial se presenta en forma de descripciones de características y el número de características puede ser bastante grande. El reto es representar estos datos en un espacio de menores dimensiones, minimizando al máximo la pérdida de información.

Métodos de solución

Tareas de visualización de datos

Algunos métodos de agrupamiento y reducción de dimensionalidad construyen representaciones de muestra en un espacio bidimensional. Esto le permite mostrar datos multidimensionales en forma de gráficos planos y analizarlos visualmente, lo que contribuye a una mejor comprensión de los datos y la esencia misma del problema que se está resolviendo.

Métodos de solución

Dendograma
Mapa autoorganizado de Kohonen
Mapa topográfico generativo
Mapa de afinidad

Algunas aplicaciones

Investigación sociológica : la formación de submuestras representativas en la organización de encuestas sociológicas.
Investigación de mercados: dividir el conjunto de todos los clientes en grupos para identificar las preferencias típicas.
Análisis de la cesta de la compra: identifique combinaciones de productos que a menudo aparecen juntos en las compras de los clientes.

Véase también

Notas

↑ Wasserman, F. Tecnología de neurocomputadoras: teoría y práctica. — M.: Mir, 1992
↑ Vapnik V. N., Chervonenkis A. Ya., Teoría del reconocimiento de patrones. Problemas estadísticos del aprendizaje, 1974
↑ Tu J., Gonzalez R. Principios de reconocimiento de patrones, M. 1978
↑ Chandola, V. Detección de anomalías: una encuesta // Encuestas informáticas ACM (CSUR). - 2009. - T. 41 , N º 3 . - S. 1-58 . Archivado desde el original el 28 de junio de 2020.

Literatura

Ayvazyan S. A., Enyukov I. S., Meshalkin L. D. Estadística aplicada: conceptos básicos de modelado y procesamiento de datos primarios. - M.: Finanzas y estadísticas, 1983.
Ayvazyan S. A., Enyukov I. S., Meshalkin L. D. Estadística aplicada: el estudio de las dependencias. - M.: Finanzas y estadísticas, 1985.
Ayvazyan S. A., Buchstaber V. M., Enyukov I. S., Meshalkin L. D. Estadística aplicada: clasificación y reducción de dimensionalidad. - M.: Finanzas y estadísticas, 1989.
Zhuravlev Yu. I. , Ryazanov V. V., Senko O. V. "Reconocimiento". Métodos matemáticos. Sistema de software. Aplicaciones prácticas. — M.: Fazis, 2006. ISBN 5-7036-0108-8 .
Zagoruiko NG Métodos aplicados de análisis de datos y conocimiento. - Novosibirsk: IM SO RAN, 1999. ISBN 5-86134-060-9 .
Mandel ID Análisis de conglomerados. - M.: Finanzas y Estadísticas, 1988. ISBN 5-279-00050-7 .
Shlesinger M., Glavach V. Diez conferencias sobre reconocimiento estadístico y estructural. - Kiev: Naukova Dumka, 2004. ISBN 966-00-0341-2 .
Hastie, T., Tibshirani R., Friedman J. Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción . — 2ª ed. - Springer-Verlag, 2009. - 746 p. - ISBN 978-0-387-84857-0 . .
Rosenblatt, F. Principios de neurodinámica: perceptrones y la teoría de los mecanismos cerebrales. - M. : Mir, 1965. - 480 p. Archivadoel 21 de mayo de 2015 enWayback Machine
Wasserman, F. Ingeniería Neurocomputadora: Teoría y Práctica = Computación Neural. teoría y práctica. — M .: Mir, 1992. — 240 p. — ISBN 5-03-002115-9 . Archivado el 30 de junio de 2009 en Wayback Machine .
Emelyanov-Yaroslavsky L. B. Sistema cuasi-biológico inteligente, M., "NAUKA", 1990 - un libro sobre un enfoque para el autoaprendizaje de acuerdo con el paradigma cuasi-biológico

Enlaces

Wiki profesional para aprendizaje automático y minería de datos

Aprendizaje automático y minería de datos
Tareas	Problema de clasificación Aprender sin un maestro Aprendizaje asistido por profesores Análisis de regresión AutoML reglas de asociación Extracción de características entrenamiento de rasgos Entrenamiento de clasificación Derivación gramatical Aprender en línea
Aprendiendo con un maestro	método del k-vecino más cercano Clasificador bayesiano ingenuo árbol de decisión Máquinas de vectores soporte Regresión lineal Regresión logística perceptrón conjuntos de modelos Harpillera impulsar bosque aleatorio Método de vector relevante
análisis de conglomerados	método k-medias método de agrupamiento difuso Agrupación jerárquica algoritmo EM ABEDUL CURAR DBSCAN ÓPTICA Desplazamiento medio
Reducción de dimensionalidad	Análisis factorial Método de componentes principales CCA ACI LDA Expansión de matriz no negativa t-SNE
Pronóstico estructural	Graficar modelo probabilístico red bayesiana Modelo oculto de Markov FRC
Detección de anomalías	método del k-vecino más cercano Nivel de emisión local
Graficar modelos probabilísticos	red bayesiana Red de Markov Modelo oculto de Markov
Redes neuronales	Máquina Boltzmann limitada mapa autoorganizado Función de activación Sigmoideo softmax Funcion de base radial Método de propagación hacia atrás Aprendizaje profundo perceptrón multicapa Red neuronal recurrente memoria a corto plazo Bloque recurrente controlado Red neuronal convolucional U-red Codificador automático
Aprendizaje reforzado	proceso de Markov Ecuación de Bellman Algoritmo codicioso Q-aprendizaje SARAS Diferencia temporal (DT)
Teoría	Teoría de Vapnik-Chervonenkis Dilema de dispersión de sesgo Teoría del aprendizaje computacional Minimización empírica del riesgo El aprendizaje de Occam aprendizaje PAC Teoría del aprendizaje estadístico
revistas y congresos	NeurIPS ICML ML JMLR ArXiv:cs.LG