Aprendizaje reforzado

El aprendizaje por refuerzo es uno de los métodos de aprendizaje automático  , durante el cual el sistema bajo prueba ( agente ) aprende interactuando con algún entorno . Desde el punto de vista de la cibernética , es uno de los tipos de experimento cibernético . La respuesta del entorno (y no un sistema de control de refuerzo especial, como ocurre en el aprendizaje supervisado ) a las decisiones que se toman son señales de refuerzo , por tanto dicho aprendizaje es un caso especial de aprendizaje supervisado , pero el profesor es el entorno o su modelo. También es necesario tener en cuenta que algunas reglas de refuerzo se basan en maestros implícitos, por ejemplo, en el caso de un entorno neuronal artificial , en la actividad simultánea de las neuronas formales, por lo que se pueden atribuir a un aprendizaje no supervisado .

Entorno y Agente

El agente afecta al entorno y el entorno afecta al agente. Se dice que un sistema de este tipo tiene retroalimentación . Tal sistema debe ser considerado como un todo y, por lo tanto, la línea divisoria entre el entorno y el agente es bastante arbitraria. Por supuesto, desde un punto de vista anatómico o físico, existe una frontera bien definida entre el ambiente y el agente (organismo), pero si se considera este sistema desde un punto de vista funcional, la división se torna borrosa. Por ejemplo, un cincel en la mano de un escultor puede considerarse parte del complejo mecanismo biofísico que da forma a una pieza de mármol o parte del material que el sistema nervioso está tratando de manipular.

Por primera vez este tipo de aprendizaje por retroalimentación fue propuesto y estudiado en 1961 en el trabajo de Mikhail Lvovich Tsetlin , un famoso matemático soviético [1] .

M. L. Tsetlin colocó entonces un autómata finito de cierto diseño en el ambiente externo, el cual, con probabilidades dependiendo de la acción realizada por el autómata, castigaba o alentaba al autómata. De acuerdo con la reacción del entorno, el autómata cambió independientemente su estado interno, lo que condujo a una disminución gradual en la cantidad de castigos, es decir, aprendizaje.

Para analizar el comportamiento de este autómata se utilizó por primera vez el aparato de cadenas de Markov , desarrollado por A. A. Markov, que permitió obtener resultados precisos y concluyentes.

Este material se publicó en una de las publicaciones científicas soviéticas más prestigiosas e influyentes: "Informes de la Academia de Ciencias de la URSS". ML Tsetlin llamó a este problema el estudio del comportamiento de un autómata en un entorno aleatorio.

El artículo de M. L. Tsetlin provocó una oleada de publicaciones en las que se proponían todo tipo de mejoras en el diseño de autómatas finitos, que se utilizaron de forma intensiva en numerosas aplicaciones.

M. L. Tsetlin acuñó un nuevo término: el comportamiento conveniente de un autómata en un entorno aleatorio. Su alumno, V. L. Stefanyuk, consideró en 1963 el problema del comportamiento colectivo, definiendo un nuevo término: "comportamiento colectivo de autómatas" y estudiando en detalle el comportamiento de un par de autómatas introducido por M. L. Tsetlin en su primera publicación sobre el comportamiento conveniente de los autómatas. autómatas

V. L. Stefanyuk hizo un modelo de aprendizaje operativo sobre elementos semiconductores y tubos de radio de vacío, en el que se realizó el comportamiento colectivo de dos de estos autómatas. Este modelo fue defendido en 1962 como trabajo de grado en la Facultad de Física de la Universidad Estatal de Moscú.

Al mismo tiempo (1963), M. L. Tsetlin formuló el problema de los juegos de autómatas, que modeló varios problemas importantes en biología y sociología. Algo más tarde, M. L. Tsetlin y S. L. Ginzburg describieron la construcción del llamado autómata ε, que se usa a menudo en las publicaciones modernas sobre el aprendizaje por refuerzo.

Numerosas publicaciones soviéticas sobre el comportamiento intencional de los autómatas, presentadas en forma de informes en conferencias nacionales e internacionales, muchos años después llevaron a los autores del aprendizaje por refuerzo a la idea de separar este tipo de aprendizaje en una clase separada.

En cuanto al comportamiento colectivo de los autómatas, algo similar resultó de autores extranjeros en el concepto de sistemas multiagente , que se estudió en términos de inteligencia artificial y programación. Sin embargo, los métodos matemáticos de análisis y prueba en sistemas multiagente prácticamente no se utilizaron, en contraste con los trabajos de M. L. Tsetlin y V. L. Stefanyuk sobre el comportamiento conveniente de un autómata, así como sobre el comportamiento colectivo y los juegos de varios autómatas.

Sistema de refuerzo y sus tipos

Rosenblatt trató de clasificar varios algoritmos de aprendizaje, llamándolos sistemas de refuerzo. [2] Da la siguiente definición:

Un sistema de refuerzo es cualquier conjunto de reglas basado en el cual es posible cambiar la matriz de interacción (o estado de memoria) del perceptrón a lo largo del tiempo.

Además del método clásico de aprendizaje del perceptrón , el método de corrección de errores , que se puede atribuir al aprendizaje supervisado , Rosenblatt también introdujo el concepto de aprendizaje no supervisado , proponiendo varios métodos de aprendizaje:

Implementaciones

Véase también

Notas

  1. Gelfand I. M., Pyatetsky-Shapiro I. I., Tsetlin M. L. Sobre algunas clases de juegos y juegos de autómatas // Dokl. AN SSSR, 1963, volumen 152, número 4, pp. 845-848.
  2. Rosenblatt, F., pág. 85-88.

Literatura

Enlaces