Proceso de decisión de Markov

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 27 de marzo de 2020; la verificación requiere 1 edición .

Un proceso de  decisión de Markov ( MDP) es una especificación de un problema de decisión secuencial para un entorno completamente observable con un modelo de transición de Markov y recompensas adicionales. La palabra Markov en el nombre refleja el cumplimiento de la propiedad de Markov para tales procesos. Tal proceso sirve como base matemática para modelar la toma de decisiones secuenciales en situaciones donde los resultados son en parte aleatorios y en parte bajo el control del tomador de decisiones. Hoy en día, esta especificación se utiliza en una variedad de campos, incluidos la robótica , el control automatizado , la economía y la fabricación .

Definición

Para definir un proceso de decisión de Markov, necesitamos definir una tupla de 4 donde

Véase también