Aprendiendo con un maestro

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 12 de abril de 2020; la verificación requiere 1 edición .

El aprendizaje supervisado es uno de los métodos de aprendizaje automático , durante el cual el sistema bajo prueba se ve obligado a aprender utilizando ejemplos de estímulo-respuesta. Desde el punto de vista de la cibernética , es uno de los tipos de experimento cibernético . Puede haber alguna relación entre las entradas y las salidas de referencia (estímulo-respuesta), pero esto se desconoce. Solo se conoce un conjunto finito de precedentes : pares de estímulo-respuesta, llamado muestra de entrenamiento . A partir de estos datos, se requiere restaurar la dependencia (construir un modelo de relaciones estímulo-respuesta adecuado para el pronóstico), es decir, construir un algoritmo capaz de dar una respuesta bastante precisa para cualquier objeto. Para medir la precisión de las respuestas, así como en el aprendizaje mediante ejemplos , se puede introducir un funcional de calidad .

El principio de la creación de este experimento

Este experimento es un caso especial de un experimento cibernético con retroalimentación. Establecer este experimento presupone la existencia de un sistema experimental, un método de entrenamiento y un método para probar el sistema o medir las características.

El sistema experimental, a su vez, está compuesto por el sistema probado (usado), el espacio de estímulos recibidos del medio externo y el sistema de control de refuerzo (regulador de parámetros internos). Como sistema de control de refuerzo, se puede utilizar un dispositivo de control automático (por ejemplo, un termostato) o un operador humano (maestro), capaz de responder a las reacciones del sistema probado y los estímulos ambientales aplicando reglas de refuerzo especiales que cambian el estado. de la memoria del sistema.

Hay dos opciones: (1) cuando la respuesta del sistema bajo prueba no cambia el estado del ambiente, y (2) cuando la respuesta del sistema cambia los estímulos del ambiente. Estos esquemas indican la similitud fundamental de tal sistema general con el sistema nervioso biológico.

Tipología de tareas de aprendizaje supervisado

Tipos de datos de entrada

Una descripción indicativa es el caso más común. Cada objeto se describe por un conjunto de sus características, llamadas características . Las características pueden ser numéricas o no numéricas.
Matriz de distancia entre objetos. Cada objeto se describe por distancias a todos los demás objetos en el conjunto de entrenamiento. Pocos métodos funcionan con este tipo de entrada, en particular, el método de k vecinos más cercanos , el método de ventana de Parzen y el método de función potencial .
Una serie temporal o señal es una secuencia de mediciones a lo largo del tiempo. Cada dimensión se puede representar mediante un número, un vector y, en el caso general, una descripción indicativa del objeto de estudio en un momento dado.
Secuencia de imagen o video .
También hay casos más complejos cuando los datos de entrada se presentan en forma de gráficos , textos, resultados de consultas a bases de datos , etc. Por regla general, se reducen al primer o segundo caso mediante el preprocesamiento de los datos y la extracción de características .

Tipos de respuesta

Cuando el conjunto de posibles respuestas es infinito (las respuestas son números reales o vectores), se habla de problemas de regresión y aproximación ;
Cuando el conjunto de posibles respuestas es finito, se habla de problemas de clasificación y reconocimiento de patrones ;
Cuando las respuestas caracterizan el comportamiento futuro de un proceso o fenómeno, se habla de tareas de previsión .

Tipos degenerados de sistemas de control de refuerzo ("maestros")

Un sistema de refuerzo controlado por reacción ( R es un sistema controlado ) se caracteriza por el hecho de que el canal de información desde el entorno externo al sistema de refuerzo no funciona. Este sistema, a pesar de la presencia de un sistema de control, se refiere al aprendizaje espontáneo , ya que el sistema bajo prueba aprende de forma autónoma, bajo la influencia únicamente de sus señales de salida, independientemente de su "corrección". Con este método de aprendizaje, no se requiere información externa para controlar el cambio en el estado de la memoria;
El sistema de refuerzo con control de incentivos ( S - sistema controlado ) - se caracteriza por el hecho de que el canal de información del sistema probado al sistema de refuerzo no funciona. A pesar del canal no funcional de las salidas del sistema probado, se trata de un aprendizaje supervisado, ya que en este caso el sistema de refuerzo (el profesor) obliga al sistema probado a producir reacciones de acuerdo con una regla determinada, aunque la presencia de reacciones verdaderas del sistema probado no se tiene en cuenta.

Esta distinción permite una mirada más profunda a las diferencias entre las diferentes formas de aprendizaje, ya que la línea entre el aprendizaje supervisado y no supervisado es más sutil. Además, tal diferencia permitió mostrar ciertas limitaciones para las redes neuronales artificiales para sistemas controlados por S y R (ver Teorema de la convergencia del perceptrón ).

Véase también

Literatura

Rosenblatt, F. Principios de neurodinámica: perceptrones y la teoría de los mecanismos cerebrales. - M. : Mir, 1965. - 480 p. Archivadoel 21 de mayo de 2015 enWayback Machine

Wasserman, F. Ingeniería Neurocomputadora: Teoría y Práctica = Computación Neural. teoría y práctica. — M .: Mir, 1992. — 240 p. — ISBN 5-03-002115-9 . Archivado el 30 de junio de 2009 en Wayback Machine .

Aprendizaje automático y minería de datos
Tareas	Problema de clasificación Aprender sin un maestro Aprendizaje asistido por profesores Análisis de regresión AutoML reglas de asociación Extracción de características entrenamiento de rasgos Entrenamiento de clasificación Derivación gramatical Aprender en línea
Aprendiendo con un maestro	método del k-vecino más cercano Clasificador bayesiano ingenuo árbol de decisión Máquinas de vectores soporte Regresión lineal Regresión logística perceptrón conjuntos de modelos Harpillera impulsar bosque aleatorio Método de vector relevante
análisis de conglomerados	método k-medias método de agrupamiento difuso Agrupación jerárquica algoritmo EM ABEDUL CURAR DBSCAN ÓPTICA Desplazamiento medio
Reducción de dimensionalidad	Análisis factorial Método de componentes principales CCA ACI LDA Expansión de matriz no negativa t-SNE
Pronóstico estructural	Graficar modelo probabilístico red bayesiana Modelo oculto de Markov FRC
Detección de anomalías	método del k-vecino más cercano Nivel de emisión local
Graficar modelos probabilísticos	red bayesiana Red de Markov Modelo oculto de Markov
Redes neuronales	Máquina Boltzmann limitada mapa autoorganizado Función de activación Sigmoideo softmax Funcion de base radial Método de propagación hacia atrás Aprendizaje profundo perceptrón multicapa Red neuronal recurrente memoria a corto plazo Bloque recurrente controlado Red neuronal convolucional U-red Codificador automático
Aprendizaje reforzado	proceso de Markov Ecuación de Bellman Algoritmo codicioso Q-aprendizaje SARAS Diferencia temporal (DT)
Teoría	Teoría de Vapnik-Chervonenkis Dilema de dispersión de sesgo Teoría del aprendizaje computacional Minimización empírica del riesgo El aprendizaje de Occam aprendizaje PAC Teoría del aprendizaje estadístico
revistas y congresos	NeurIPS ICML ML JMLR ArXiv:cs.LG