Ecuación de Hamilton-Jacobi-Bellman

La ecuación de Hamilton-Jacobi-Bellman  es una ecuación diferencial parcial que juega un papel central en la teoría del control óptimo . La solución a la ecuación es la función de valor , que da el valor óptimo para un sistema dinámico controlado con una función de costo dada . 

Si las ecuaciones de Hamilton-Jacobi-Bellman se resuelven en alguna parte del espacio, juegan el papel de una condición necesaria; cuando se resuelven en todo el espacio, también se convierten en una condición suficiente para una solución óptima. La técnica también se puede aplicar a sistemas estocásticos.

Los problemas variacionales clásicos (como el problema de la braquistocrona ) se pueden resolver con este método.

La ecuación es el resultado del desarrollo de la teoría de la programación dinámica , iniciada por Richard Bellman y colaboradores. [una]

La ecuación de tiempo discreto correspondiente se llama simplemente ecuación de Bellman . Al considerar un problema con tiempo continuo, las ecuaciones resultantes pueden considerarse como una continuación del trabajo anterior en el campo de la física teórica relacionado con la ecuación de Hamilton-Jacobi .

Problemas de control óptimo

Considere el siguiente problema de control óptimo en el intervalo de tiempo :

donde C y D  son las funciones de costo que determinan las partes integral y terminal del funcional, respectivamente. x ( t ) es un vector que determina el estado del sistema en cada instante de tiempo. Su valor inicial x (0) se supone conocido. El vector de control u ( t ) debe elegirse de tal manera que minimice el valor de V .

La evolución del sistema bajo la acción del control u ( t ) se describe a continuación:

PDE

Para un sistema dinámico tan simple, las ecuaciones de Hamilton-Jacobi-Bellman toman la siguiente forma:

( se entiende por producto escalar) y están dados por el valor en el tiempo final T :

La incógnita en esta ecuación es la “función de valor” de Bellman V ( x ,  t ), que corresponde al precio máximo que se puede obtener conduciendo el sistema desde el estado ( x ,  t ) de manera óptima hasta el tiempo T . En consecuencia, el costo óptimo que nos interesa es el valor V  =  V ( x (0), 0).

Derivación de la ecuación

Demostremos el razonamiento intuitivo que conduce a esta ecuación. Sea  una función de valor, luego considere la transición del tiempo t al tiempo t  +  dt de acuerdo con el principio de Bellman :

Expandamos el último término según Taylor:

Resta mover V ( x ,  t ) a la izquierda, dividir por dt y pasar al límite.

Notas

  1. RE Bellman. Programación dinámica. Princeton, Nueva Jersey, 1957.

Literatura