Proceso de decisión de Markov

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 27 de marzo de 2020; la verificación requiere 1 edición .

Un proceso de decisión de Markov ( MDP) es una especificación de un problema de decisión secuencial para un entorno completamente observable con un modelo de transición de Markov y recompensas adicionales. La palabra Markov en el nombre refleja el cumplimiento de la propiedad de Markov para tales procesos. Tal proceso sirve como base matemática para modelar la toma de decisiones secuenciales en situaciones donde los resultados son en parte aleatorios y en parte bajo el control del tomador de decisiones. Hoy en día, esta especificación se utiliza en una variedad de campos, incluidos la robótica , el control automatizado , la economía y la fabricación .

Definición

Para definir un proceso de decisión de Markov, necesitamos definir una tupla de 4 donde $(S,A,P_{\cdot }(\cdot ,\cdot ),R_{\cdot }(\cdot ,\cdot ))$

$S$ conjunto finito de estados,
$A$ un conjunto finito de acciones (a menudo representado como conjuntos accesibles desde un estado ), $Como$ $s$
$P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ la probabilidad de que una acción en un estado en el tiempo resulte en un estado en el tiempo , $a$ $s$ $t$ $s'$ $t+1$
$R_{a}(s,s')$ la recompensa recibida después de la transición al estado desde el estado con probabilidad de transición . $s'$ $s$ $P_{a}(s,s')$

Proceso de decisión de Markov

Definición

Véase también