La ecuación de Hamilton-Jacobi-Bellman es una ecuación diferencial parcial que juega un papel central en la teoría del control óptimo . La solución a la ecuación es la función de valor , que da el valor óptimo para un sistema dinámico controlado con una función de costo dada .
Si las ecuaciones de Hamilton-Jacobi-Bellman se resuelven en alguna parte del espacio, juegan el papel de una condición necesaria; cuando se resuelven en todo el espacio, también se convierten en una condición suficiente para una solución óptima. La técnica también se puede aplicar a sistemas estocásticos.
Los problemas variacionales clásicos (como el problema de la braquistocrona ) se pueden resolver con este método.
La ecuación es el resultado del desarrollo de la teoría de la programación dinámica , iniciada por Richard Bellman y colaboradores. [una]
La ecuación de tiempo discreto correspondiente se llama simplemente ecuación de Bellman . Al considerar un problema con tiempo continuo, las ecuaciones resultantes pueden considerarse como una continuación del trabajo anterior en el campo de la física teórica relacionado con la ecuación de Hamilton-Jacobi .
Considere el siguiente problema de control óptimo en el intervalo de tiempo :
donde C y D son las funciones de costo que determinan las partes integral y terminal del funcional, respectivamente. x ( t ) es un vector que determina el estado del sistema en cada instante de tiempo. Su valor inicial x (0) se supone conocido. El vector de control u ( t ) debe elegirse de tal manera que minimice el valor de V .
La evolución del sistema bajo la acción del control u ( t ) se describe a continuación:
Para un sistema dinámico tan simple, las ecuaciones de Hamilton-Jacobi-Bellman toman la siguiente forma:
( se entiende por producto escalar) y están dados por el valor en el tiempo final T :
La incógnita en esta ecuación es la “función de valor” de Bellman V ( x , t ), que corresponde al precio máximo que se puede obtener conduciendo el sistema desde el estado ( x , t ) de manera óptima hasta el tiempo T . En consecuencia, el costo óptimo que nos interesa es el valor V = V ( x (0), 0).
Demostremos el razonamiento intuitivo que conduce a esta ecuación. Sea una función de valor, luego considere la transición del tiempo t al tiempo t + dt de acuerdo con el principio de Bellman :
Expandamos el último término según Taylor:
Resta mover V ( x , t ) a la izquierda, dividir por dt y pasar al límite.