Neurorretroalimentación

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 20 de febrero de 2016; las comprobaciones requieren 26 ediciones .

Neurocontrol ( eng.  Neurocontrol ) es un caso especial de control inteligente que utiliza redes neuronales artificiales para resolver problemas de control de objetos dinámicos. El neurocontrol se encuentra en la intersección de disciplinas como la inteligencia artificial , la neurofisiología , la teoría del control automático y la robótica . Redes neuronalestienen una serie de propiedades únicas que los convierten en una poderosa herramienta para crear sistemas de control: la capacidad de aprender de ejemplos y generalizar datos, la capacidad de adaptarse a los cambios en las propiedades del objeto de control y el entorno, la idoneidad para la síntesis de sistemas no lineales controladores, alta resistencia al daño a sus elementos debido a inicial inherente en la arquitectura de red neuronal de paralelismo. El término "neurofeedback" fue utilizado por primera vez por uno de los autores del método de retropropagación, Paul J. Verbos, en 1976 [1] [2] . Hay numerosos ejemplos de la aplicación práctica de las redes neuronales para resolver problemas de control de una aeronave [3] [4] , un helicóptero [5] , un automóvil robótico [6] , la velocidad del eje de un motor [7] , un motor de automóvil híbrido [8] , un horno eléctrico [9] , turbogenerador [10] , soldadora [11] , cilindro neumático [12] , sistema de control de armamento para vehículos blindados ligeros [13] , modelo de péndulo invertido [14] .

Métodos de Neurofeedback

Según la forma en que se utilizan las redes neuronales, los métodos de neurocontrol se dividen en directos e indirectos . En los métodos directos , la red neuronal se entrena para generar directamente acciones de control sobre el objeto, en los métodos indirectos , la red neuronal se entrena para realizar funciones auxiliares: identificación del objeto de control , supresión de ruido , ajuste operativo de los coeficientes del controlador PID . Dependiendo del número de redes neuronales que componen el neurocontrolador, los sistemas de neurocontrol se dividen en monomódulo y multimódulo . Los sistemas de neurocontrol que se utilizan junto con los reguladores tradicionales se denominan híbridos .

En el campo del control, los sistemas neuronales artificiales (SNA) se utilizan en las tareas de identificación de objetos, en algoritmos de predicción y diagnóstico, así como para la síntesis de Sistemas de Control Automático (SCA) óptimos . Para implementar ACP basado en ANN, actualmente se está desarrollando intensamente la producción de neurochips y neurocontroladores (NC) .

En cierto sentido, la RNA es un imitador del cerebro, que tiene la capacidad de aprender y navegar en condiciones de incertidumbre. Una red neuronal artificial es similar al cerebro en dos aspectos. La red adquiere conocimiento en el proceso de aprendizaje, y para almacenar conocimiento, utiliza no los objetos en sí, sino sus conexiones: los valores de los coeficientes de conexiones interneuronales, llamados pesos sinápticos o coeficientes sinápticos [15] .

En las tareas de neurocontrol se utiliza un modelo de caja negra para representar el objeto de control, en el que son observables los valores de entrada y salida actuales. El estado del objeto se considera inaccesible a la observación externa, aunque la dimensión del vector de estado suele considerarse fija. La dinámica del comportamiento del objeto de control se puede representar de forma discreta:

donde:  es el estado del objeto de control de órdenes en el ciclo ;  es el valor del vector de control dimensional en el ciclo ,  es el valor de la salida dimensional del objeto de control en el ciclo .

Para estimar el estado actual del objeto de control , se puede utilizar el modelo NARX, que consiste en las posiciones pasadas del objeto y las señales de control retrasadas :

El vector de estimación de estado también se puede representar sin el uso de señales retardadas:

También es posible representar el estado de un objeto como una instantánea de su trayectoria de fase:

Imitar neurofeedback

El neurocontrol imitativo [16] [17] [18] (aprendizaje de neurocontrol basado en mímica, modelado de controladores, aprendizaje supervisado usando un controlador existente) cubre los sistemas de neurocontrol en los que el neurocontrolador se entrena con ejemplos de la dinámica de un controlador de retroalimentación convencional construido, para ejemplo, basado en el esquema de control PID convencional . Después del entrenamiento, la red neuronal reproduce exactamente las funciones del controlador original. El registro del comportamiento de un operador humano se puede utilizar como ejemplo de la dinámica del controlador. Un controlador de retroalimentación convencional (o un operador humano) controla el objeto de control en el modo normal. Se registran los valores en la entrada y salida del controlador y, según el protocolo, se forma una muestra de entrenamiento para la red neuronal que contiene pares de valores de entrada y reacciones esperadas de la red neuronal:

Después de entrenar con, por ejemplo , retropropagación , la red neuronal se conecta en lugar del controlador original. El neurocontrolador resultante puede reemplazar a una persona en la gestión del dispositivo y también ser más rentable que el controlador original.

Neurocontrol inverso generalizado

En el esquema de neurocontrol inverso generalizado (neurocontrol inverso directo, control inverso adaptativo) [19] [20] , se utiliza como controlador un modelo neuronal de dinámica inversa del objeto de control, denominado neuroemulador inverso . Un neuroemulador inverso es una red neuronal entrenada fuera de línea para simular la dinámica inversa de un objeto de control en función de las trayectorias registradas del comportamiento de un objeto dinámico. Para obtener dichas trayectorias, se envía algún proceso aleatorio al objeto de control como señal de control. Se registran los valores de las señales de control y las respuestas del objeto y, sobre esta base, se forma una muestra de entrenamiento :

En el curso del entrenamiento, la red neuronal debe captar y recordar la dependencia de los valores de la señal de control del valor posterior de la reacción del objeto de control , que estaba previamente en el estado . Al controlar un objeto, se conecta un neuroemulador inverso como controlador, mientras recibe en la entrada los valores del punto de consigna (un determinado valor o parámetro, al alcanzar el cual cambia el estado del sistema) y el estado del objeto de control que pasa. el canal de comentarios :

Se supone que el modelo inverso del objeto de control formado durante el entrenamiento es adecuado, por lo tanto, la señal de control emitida por la red neuronal asegurará la transición del objeto a la posición especificada por la configuración.

Neurofeedback inverso especializado

El neurocontrol inverso especializado [19] [20] utiliza el método de entrenamiento del neurocontrolador en línea utilizando el error actual de la desviación de la posición del objeto desde el punto de ajuste . El diagrama de conexión del neurocontrolador es el mismo que en el método de neurocontrol inverso generalizado . El vector se alimenta a la entrada de la red :

La red neuronal genera un vector de control que mueve el objeto de control a la posición . A continuación, se calcula el error actual del neurocontrolador

El gradiente del cambio de peso se calcula

Luego, los pesos de los neurocontroladores se corrigen utilizando el método de descenso más pronunciado o algún otro método de gradiente .

La derivada es el jacobiano del objeto de control, cuyo valor se establece analíticamente de acuerdo con el modelo matemático dado del objeto de control. Sin embargo, en la práctica, para obtener una calidad de control aceptable, suele ser suficiente calcular únicamente el signo del jacobiano. Las iteraciones de corrección de los valores de los coeficientes continúan hasta lograr una calidad de control aceptable.

El método de salto de error inverso a través del neuroemulador directo

El método backpropagation through time, model reference adaptive control, internal model control [8] [21] [22] [23] se basa en la idea de utilizar un tándem de dos redes neuronales , una de las cuales actúa como controlador , y el segundo es el modelo de objeto de control , que se denomina neuroemulador directo . El neuroemulador directo se usa para calcular el gradiente de error del neurocontrolador durante su entrenamiento y no se usa más. Se puede decir que el neurocontrolador y el neuroemulador representan una sola red neuronal, y cuando se entrena el neurocontrolador se “congelan” los pesos del neuroemulador directo. Primero se entrena el neuroemulador directo. Para hacer esto, se aplica una señal de control aleatoria a la entrada del objeto de control , cambiando la posición del objeto de control , y se forma una muestra de entrenamiento :

El entrenamiento del neuroemulador directo se realiza fuera de línea. Un neuroemulador directo se considera entrenado si, con los mismos valores en las entradas del neuroemulador y el objeto real, la diferencia entre los valores de sus salidas se vuelve insignificante. Una vez completado el entrenamiento del neuroemulador directo, se entrena el neurocontrolador. El entrenamiento se realiza online según el mismo esquema que en el caso del neurofeedback inverso especializado . Primero (en el ciclo ) se recibe en la entrada del neurocontrolador la posición deseada del objeto de control para el próximo ciclo . El neurocontrolador genera una señal de control , que se alimenta a las entradas del objeto de control y el neuroemulador. Como resultado, el objeto controlado se mueve a la posición y el neuroemulador genera la reacción . A continuación, se calcula el error de control y se pasa en la dirección opuesta de acuerdo con la regla de retropropagación. Los coeficientes de peso de las conexiones del neuroemulador no se corrigen en este caso. El mecanismo de error inverso que pasa por el neuroemulador directo implementa un modelo inverso local en el punto actual del espacio de estado del objeto de control. Después de pasar por el neuroemulador, el error se propaga aún más por el neurocontrolador, pero ahora su paso va acompañado de una corrección de los coeficientes de peso del neurocontrolador. En este caso, el neuroemulador directo realiza las funciones de capas adicionales de la red neuronal del neurocontrolador, en las que no se corrigen los pesos de conexión.

Método de neurocontrol con un modelo de referencia

El método de neurocontrol con modelo de referencia (model reference adaptive control, neural adaptive control) [23] [24] [25]  es una variante del neurocontrol por el método de salto de error inverso a través de un neuroemulador directo con un modelo de referencia adicional (referencia modelo) de un sistema dinámico embebido en el circuito, para simular cuyo comportamiento es entrenado por el neurocontrolador. Esto se hace para mejorar la calidad del proceso de transición: en el caso de que la transición del objeto a la posición de destino en un ciclo sea imposible, la trayectoria del movimiento y el tiempo del proceso de transición se convierten en valores poco predecibles. y puede conducir a la inestabilidad del proceso de transición. Para reducir esta incertidumbre, se introduce un modelo de referencia que, por regla general, es un sistema dinámico lineal estable de primer o segundo orden. En el curso del entrenamiento, el modelo de referencia recibe un punto de ajuste en la entrada y genera una trayectoria de referencia , que se compara con la posición del objeto de control para obtener un error de control , para minimizar el cual se entrena el neurocontrolador.

Método de filtrado de perturbaciones externas por redes neuronales

El método de filtrado de perturbaciones externas por redes neuronales (control inverso adaptativo basado en filtrado adaptativo lineal y no lineal, control de modelo interno) [26] sirve para mejorar la calidad del controlador en el circuito de control. Inicialmente, este esquema fue propuesto por B. Widrow para su uso junto con neurocontroladores entrenados por el método de neurocontrol inverso generalizado [27] . En un trabajo posterior [28] , utilizó neurocontroladores entrenados por el método de retropropagación de errores a través de un neuroemulador directo . En principio, el filtrado de errores de redes neuronales se puede utilizar para mejorar el rendimiento de cualquier tipo de controlador, no necesariamente uno de red neuronal . Este esquema utiliza dos redes neuronales preentrenadas: un neuroemulador inverso entrenado de la misma manera que se hace en el método de neurocontrol inverso generalizado y un neuroemulador directo entrenado de la misma manera que se hace en el método de retropropagación a través de un neuroemulador directo . Deje que la señal de control llegue al objeto de control , que es el resultado de sumar la señal del controlador y la señal correctora del sistema de filtrado de perturbaciones externas , calculada en el paso anterior. La señal se envía al neuroemulador directo del objeto de control y la reacción del neuroemulador directo se compara con el estado real del sistema . La diferencia entre estos valores se interpreta como una desviación no deseada del sistema provocada por una perturbación externa. Para suprimir el efecto indeseable, la señal se envía al neuroemulador inverso, que calcula la señal correctiva para corregir la señal de control del neurocontrolador en el siguiente ciclo.

Para utilizar este método, el objeto de control debe tener dinámica reversible, y también es necesario tener un modelo matemático o de simulación adecuado del objeto de control para entrenar neuroemuladores directos e inversos.

Modelo predictivo de neurofeedback

El neurocontrol del modelo predictivo (control predictivo NN, control predictivo del modelo, control predictivo neural generalizado) [29] [30] minimiza el costo integral del error funcional , predicho para , ciclos por delante:

Aquí  , es el error de salida del sistema,  es la contribución del cambio en la señal de control al funcional de costo general . Para predecir el comportamiento futuro del sistema y calcular los errores se utiliza un neuroemulador directo, entrenado de la misma forma que en el método de retropropagación de errores a través de un neuroemulador directo . La peculiaridad del método en consideración es que no tiene un neurocontrolador entrenable. Su lugar lo ocupa un módulo de optimización en tiempo real , en el que, por ejemplo, se puede utilizar el método simplex [31] o el algoritmo cuasi-newtoniano [32] .

El módulo de optimización recibe la trayectoria objetivo para los ciclos siguientes en un ciclo y, si no está allí, duplica el valor del punto de referencia actual y lo usa como la trayectoria objetivo. Además, para seleccionar la acción de control óptima, se realizan cálculos en el bucle interno del sistema de neurocontrol (sus iteraciones se indican como ). Durante un ciclo de control, el módulo de optimización alimenta una serie de acciones diferentes a la entrada del neuroemulador , donde  está la profundidad de predicción , recibe varias opciones para el comportamiento del sistema, calcula la función de costo para ellas y determina la mejor estrategia de control . Como resultado, se aplica una señal de control al objeto . En el ciclo siguiente, se vuelve a calcular la estrategia.

Críticos adaptativos

Los métodos de neurofeedback basados ​​en críticas adaptativas , también conocidos como programación dinámica aproximada ( ADP ) , han sido muy populares en los últimos años [33] [34] [35] [36] . Los sistemas de crítica adaptativa eligen una señal de control basada en minimizar el funcional de futuras estimaciones de error con un horizonte infinito:

Aquí  está el factor de olvido, ,  es la desviación de la trayectoria del objeto de control desde el punto de ajuste, calculado en cada ciclo del sistema. El sistema incluye dos módulos neuronales: un neurocontrolador y un módulo crítico ( critic ). El módulo de crítica realiza una aproximación de los valores del funcional de costo , el neurocontrolador es entrenado para minimizar el funcional de costo .

En el modo de control de objetos, la entrada del neurocontrolador recibe un vector que provoca la aparición de una señal de control en su salida , como resultado de lo cual el objeto de control se mueve a la posición . A continuación, se calcula el valor del error de control actual . El módulo de crítica, al recibir un vector como entrada , evalúa la función de coste . En el siguiente ciclo, se repite el proceso: se calculan nuevos valores y . El entrenamiento del sistema de neurocontrol se realiza online y consta de dos etapas: entrenamiento del módulo crítico y entrenamiento del neurocontrolador. Primero, se calcula el error de diferencia de tiempo . Luego, según el método de descenso más pronunciado , se corrige el peso de los enlaces para el módulo de crítica :

El valor del gradiente se calcula mediante el método de retropropagación . La corrección del peso de las conexiones del neurocontrolador se realiza de la misma manera:

El valor derivado se encuentra retropropagando el valor a través del módulo de crítica, y el valor del gradiente  se encuentra retropropagando el error a través del módulo controlador. La corrección de peso continúa hasta que el sistema alcanza el nivel requerido de calidad de control. Así, en cada paso, se mejora la ley de control entrenando al neurocontrolador (iteración de estrategias, iteración de políticas), y también se incrementa la capacidad del sistema para evaluar la situación entrenando al crítico (iteración por valores, iteración de valores). El esquema específico para construir un sistema de crítica adaptativa puede diferir del descrito anteriormente , que se denomina programación dinámica heurística ( HDP ) . En el método de programación heurística dual ( DHP ) , el módulo crítico calcula la derivada del funcional de costo global , y en el método de programación heurística dual global ( GHDP ) , tanto el funcional de costo como su derivado son calculados por el crítico . Se conocen modificaciones del método, en las que el módulo crítico toma decisiones únicamente sobre la base de una señal de control. Sus abreviaturas en inglés tienen el prefijo AD ( acción dependiente ): ADHDP , ADDHP , ADGDHP . En algunas versiones de la crítica adaptativa, el módulo de crítica consta de dos partes: el propio módulo de crítica y el neuroemulador directo. Este último da predicciones del comportamiento del objeto de control, sobre la base de las cuales el crítico forma una estimación de la función de costo . Estas versiones se denominan basadas en modelos .

Control neuro-PID híbrido

El control neuro-PID híbrido (autoajuste NNPID, autoajuste PID neuromórfico) [37] [38] permite el autoajuste del controlador PID en línea utilizando redes neuronales . El controlador PID se sintoniza en línea, de acuerdo con el error de control actual . En un ciclo , la red neuronal recibe el punto de ajuste y genera los coeficientes de control del controlador PID (proporcional), (integral), (diferencial), que se alimentan al controlador PID junto con el valor del error de retroalimentación actual . Durante la operación, el controlador PID calcula la señal de control actual de acuerdo con la fórmula recursiva:

se utiliza para controladores PID discretos y lo alimenta al objeto de control.

La red neuronal se entrena en tiempo real por error de retroalimentación, utilizando el método de descenso más pronunciado .

Aquí  , está el vector de salida de la red neuronal alimentado al controlador PID.

Los gradientes se calculan utilizando el método de retropropagación . El jacobiano del objeto de control, si su signo se encuentra analíticamente, basado en el modelo matemático del objeto de control.

Neurocontrol híbrido paralelo

Los métodos de neurocontrol paralelo híbrido (neurocontrol paralelo, control adaptativo directo estable, control feedforward aditivo) [26] [29] prevén el uso paralelo de neurocontroladores y controladores convencionales para controlar objetos dinámicos. En este caso, el neurocontrolador y el controlador convencional, que es por ejemplo el controlador PID , reciben los mismos valores de consigna. Son posibles las siguientes opciones para la conexión conjunta de un controlador convencional y un neurocontrolador:

  1. un controlador convencional se conecta al objeto de control, después de lo cual el neurocontrolador aprende a controlar el sistema ya cerrado por el controlador convencional. Después del entrenamiento, el neurocontrolador se conecta al sistema y se suman las señales de control de ambos controladores;
  2. el neurocontrolador aprende a controlar el objeto de control, después del entrenamiento comienza a funcionar normalmente. Además, para controlar el sistema cerrado por el neurocontrolador, se configura un controlador convencional. Después de la configuración, el controlador ordinario se conecta al sistema, la señal de control de ambos controladores se suma;
  3. se delimitan las áreas de acción de un controlador convencional y un neurocontrolador. Por ejemplo, en el espacio de estado del objeto de control, se asigna un área separada para el neurocontrolador :

En este caso, se calcula un controlador convencional para controlar un objeto fuera de esta región del espacio de estado. Cuando ambos controladores operan en paralelo, la señal de control llega al objeto ya sea desde el neurocontrolador, si el estado actual del sistema está dentro de la región , o, en caso contrario, desde un controlador convencional. El neurocontrol paralelo híbrido representa una solución de compromiso para la introducción del neurocontrol en la industria y la transición de los controladores convencionales a las redes neuronales.

Notas

  1. Voronovsky G.K., Algoritmos genéticos, redes neuronales artificiales, 1997 (enlace inaccesible) . Consultado el 3 de septiembre de 2011. Archivado desde el original el 19 de agosto de 2011. 
  2. Werbos, PJ Backpropagation and neurocontrol: a review and prospectus // International Joint Conference on Neural Networks, vol. 1.- Pág. 209-216. — Washington, DC, EE. UU., 18-22 de junio de 1989
  3. Gundy-Burlet K., Krishnakumar K., Limes G., Bryant D. Aumento de un sistema de control de vuelo inteligente para un avión C-17 simulado // J. of Aerospace Computing, Information, and Communication. - 2004. - vol. 1, nº 12. - Pág. 526-542 . Consultado el 26 de agosto de 2011. Archivado desde el original el 6 de marzo de 2016.
  4. Kondratiev A. I., Tyumentsev Yu. V. Control adaptativo tolerante a fallas de la red neuronal del movimiento de un avión maniobrable // XII Conferencia científica y técnica de toda Rusia "Neuroinformática - 2010": Parte 2. - M .: NRNU MEPhI, 2010 .- Pág. 262 - 273. . Consultado el 28 de octubre de 2011. Archivado desde el original el 4 de marzo de 2016.
  5. Nikiforova L. N., Petrosyan E. A., Yakemenko G. V. Neurocomputadoras en control de helicópteros // Inteligencia artificial. - 2000. - Nº 3. - S. 290-298 . Consultado el 28 de octubre de 2011. Archivado desde el original el 10 de octubre de 2015.
  6. D. Gu y H. Hu. Control predictivo neuronal para un robot móvil similar a un automóvil // Revista internacional de robótica y sistemas autónomos, vol. 39, núm. 2-3, mayo de 2002
  7. [Terekhov V. A., Efimov D. V., Tyukin I. Yu. Sistemas de control de redes neuronales: Proc. asignación para universidades. - M.: Superior. escuela 2002. - 183 p.]
  8. 1 2 Danil V. Projorov. Toyota Prius HEV Neurocontrol y Diagnóstico // Redes Neuronales. - 2008. - No. 21.- Pág. 458-465 . Consultado el 2 de septiembre de 2011. Archivado desde el original el 31 de julio de 2009.
  9. Dias FM, Mota AM Comparación entre diferentes estrategias de control utilizando redes neuronales // 9ª Conferencia Mediterránea sobre Control y Automatización. — Dubrovnik, Croacia, 2001 . Consultado el 26 de agosto de 2011. Archivado desde el original el 27 de septiembre de 2016.
  10. Venayagamoorthy GK, Harley RG, Wunsch DC Implementación de neurocontroladores adaptativos basados ​​en críticos para turbogeneradores en un sistema de energía multimáquina, IEEE Transactions on Neural Networks. - 2003. - vol. 14, Número 5. - P. 1047-1064. (enlace no disponible) . Consultado el 26 de agosto de 2011. Archivado desde el original el 12 de junio de 2010. 
  11. D'Emilia G., Marrab A., Natalea E. Uso de redes neuronales para un ajuste automático rápido y preciso del controlador PID // Robótica y fabricación integrada por computadora. - 2007. - vol. 23. - Pág. 170-179.
  12. Zmeu K. V., Markov N. A., Shipitko I. A., Notkin B. S. Neurocontrol inverso predictivo sin modelo con un transitorio de referencia regenerado // Sistemas inteligentes. - 2009. - Nº 3. - S. 109-117. . Consultado el 26 de agosto de 2011. Archivado desde el original el 27 de septiembre de 2016.
  13. Kuznetsov B. I., Vasilets T. E., Varfolomeev A. A. Síntesis de un neurocontrolador con predicción para un sistema electromecánico de dos masas // Ingeniería eléctrica y electromecánica. - 2008. - V. 3. - S. 27 - 32. (enlace inaccesible) . Fecha de acceso: 28 de octubre de 2011. Archivado desde el original el 26 de octubre de 2015. 
  14. D. A. Dziuba, A. N. Chernodub. Aplicación del método de perturbaciones controladas para la modificación en tiempo real de neurocontroladores // Máquinas y Sistemas Matemáticos. - 2010. - Nº 4. - S. 20 - 28. . Consultado el 26 de agosto de 2011. Archivado desde el original el 28 de abril de 2011.
  15. Sabania V. R. Sistemas de control automático basados ​​en tecnologías de redes neuronales / V.R. Sabanin, N.I. Smirnov, A.I. Repin // Actas de la Conferencia Científica Internacional Control-2003. M.: Editorial MEI, 2003.S. 45-51.
  16. [Widrow B., Smith FW Sistemas de control de reconocimiento de patrones // Procedimientos de informática y ciencias de la información. - Washington, EE.UU. - 1964. - Vol. 12.- Pág. 288-317.]
  17. Omidvar O., Elliott DL eds. Neural Systems for Control // Academic Press, Nueva York, 1997. - 358 p.
  18. Ronco E. Redes de controladores polinómicos incrementales: dos controladores no lineales autoorganizados // Ph.D. Tesis de disertación, Glasgow, 1997. - 207 p.
  19. 1 2 [Omatu S., Khalid M., Yusof R. Neurofeedback y sus aplicaciones: trad. De inglés. — M.: IPRZhR, 2000. — 272 p.]
  20. 1 2 Psaltis D., Sideris A., Yamamura AA Un controlador de red neuronal multicapa // Revista IEEE Control Systems - 1988. - Vol. 8, Número 2. - P. 17 - 21.  (enlace inaccesible)
  21. Werbos P. Retropropagación a través del tiempo: qué hace y cómo hacerlo // Actas del IEEE. - Octubre 1990. - Vol. 78, N. 10. - P. 1550-1560 (enlace inaccesible) . Consultado el 24 de septiembre de 2011. Archivado desde el original el 13 de junio de 2010. 
  22. [Jordan MI y Rumelhart DE Forwardmodels: aprendizaje supervisado con un maestro distal // Ciencia cognitiva - 1990. - vol. 16. - Pág. 313-355.]
  23. 1 2 [Narendra KS, Parthasarathy KK Identificación y control de sistemas dinámicos mediante redes neuronales // Transacciones IEEE en redes neuronales. - 1990. - N 1. - Pág. 4 - 27.]
  24. Venelinov Topalov, A. Kaynak. Aprendizaje en línea en esquemas de neurocontrol adaptativo con un algoritmo de modo deslizante // IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics. - 2001. - V. 31. - I. 3. - P. 445-450 . Consultado el 28 de octubre de 2011. Archivado desde el original el 18 de noviembre de 2017.
  25. A. N. Chernodub. Entrenamiento de neuroemuladores mediante pseudo-regularización para el método de neurocontrol con un modelo de referencia // Inteligencia Artificial. - 2012. - No. 4.- C. 602-614  (enlace inaccesible)
  26. 1 2 Dias FM, Mota AM Comparación entre diferentes estrategias de control utilizando redes neuronales // 9ª Conferencia Mediterránea sobre Control y Automatización. — Dubrovnik, Croacia, 2001. . Consultado el 26 de agosto de 2011. Archivado desde el original el 27 de septiembre de 2016.
  27. Widrow B., Control inverso adaptativo // Actas del segundo taller de IFAC sobre sistemas adaptativos en control y procesamiento de señales - Lund, Suecia, julio de 1986. - P. 1 - 5. . Consultado el 24 de septiembre de 2011. Archivado desde el original el 6 de marzo de 2016.
  28. Widrow B., Control inverso adaptativo Plett GL basado en filtrado adaptativo lineal y no lineal // Actas del taller internacional sobre redes neuronales para identificación, control, robótica y procesamiento de señales/imágenes - 21 23 de agosto de 1996, Venecia, Italia. - Pág. 30 - 38.
  29. 1 2 Redes neuronales para el control  //  Actas de la Conferencia Estadounidense de Control de 1999 (Cat. No. 99CH36251). - 1999. - ISBN 0780349903 . -doi : 10.1109/ ACC.1999.786109 .
  30. Control predictivo basado en modelos de Rossiter JA . - 2017. - 12 de julio. — ISBN 9781315272610 . -doi : 10.1201 / 9781315272610 .  
  31. Takahashi Y. Control predictivo adaptativo de sistemas variables en el tiempo no lineales mediante redes neuronales  //  Conferencia internacional IEEE sobre redes neuronales. — ISBN 0780309995 . -doi : 10.1109/ ICNN.1993.298772 .
  32. Soloway D. , Haley PJ Control predictivo generalizado neuronal  //  Actas del Simposio internacional IEEE de 1996 sobre control inteligente. — ISBN 0780329783 . -doi : 10.1109/ ISIC.1996.556214 .
  33. Prokhorov D. y Wunsch D. Diseños críticos adaptativos // Transacciones IEEE en redes neuronales. - 1997. - vol. 8, N° 5. - Pág. 997-1007. . Consultado el 25 de septiembre de 2011. Archivado desde el original el 8 de julio de 2013.
  34. Venayagamoorthy GK, Harley RG, Wunsch DC Implementación de neurocontroladores basados ​​en críticos adaptables para turbogeneradores en un sistema de energía de varias máquinas", IEEE Transactions on Neural Networks. - 2003. - Vol. 14, número 5. - P. 1047-1064. ( enlace no disponible) Consultado el 26 de agosto de 2011. Archivado desde el original el 12 de junio de 2010. 
  35. Ferrari S., Stengel RF Model-Based Adaptive Critic Designs // Aprendizaje y programación dinámica aproximada, J. Si, A. Barto, W. Powell y D. Wunsch, Eds. Nueva York: Wiley, 2004, Capítulo. 3 . Consultado el 25 de septiembre de 2011. Archivado desde el original el 17 de abril de 2012.
  36. Redko V. G., Prokhorov D. V. Críticos adaptativos de redes neuronales // VI Conferencia científica y técnica de toda Rusia "Neuroinformática-2004". Colección de artículos científicos. Parte 2. M.: MEPhI, 2004. - C. 77 - 84. . Consultado el 25 de septiembre de 2011. Archivado desde el original el 11 de mayo de 2011.
  37. D'Emilia Giulio , Marra Antonio , Natale Emanuela. Uso de redes neuronales para el autoajuste rápido y preciso del controlador PID  //  Robótica y fabricación integrada por computadora. - 2007. - abril ( vol. 23 , n. 2 ). - pág. 170-179 . — ISSN 0736-5845 . -doi : 10.1016/ j.rcim.2006.04.001 .
  38. Akhyar S. , Omatu S. Controlador PID autoajustable neuromórfico  (inglés)  // Conferencia internacional IEEE sobre redes neuronales. — ISBN 0780309995 . -doi : 10.1109/ ICNN.1993.298617 .

Enlaces

Literatura