Un proceso de decisión de Markov ( MDP) es una especificación de un problema de decisión secuencial para un entorno completamente observable con un modelo de transición de Markov y recompensas adicionales. La palabra Markov en el nombre refleja el cumplimiento de la propiedad de Markov para tales procesos. Tal proceso sirve como base matemática para modelar la toma de decisiones secuenciales en situaciones donde los resultados son en parte aleatorios y en parte bajo el control del tomador de decisiones. Hoy en día, esta especificación se utiliza en una variedad de campos, incluidos la robótica , el control automatizado , la economía y la fabricación .
Para definir un proceso de decisión de Markov, necesitamos definir una tupla de 4 donde