Q-aprendizaje

Q -learning es un método utilizado en inteligencia artificial con un enfoque basado en agentes . Se refiere a experimentos de aprendizaje por refuerzo . Con base en la recompensa recibida del entorno, el agente forma una función de utilidad Q, que posteriormente le da la oportunidad no de elegir aleatoriamente una estrategia de comportamiento, sino de tener en cuenta la experiencia de interacción previa con el entorno. Una de las ventajas de Q-learning es que es capaz de comparar la utilidad esperada de las actividades disponibles sin tener que modelar el entorno. Se aplica a situaciones que se pueden representar como un proceso de decisión de Markov .

Algoritmo Q-learning

  1. Inicialización :
    1. para cada s y a hacer Q[s, a] = RND // inicializa la función de utilidad Q de la acción a en la situación s como aleatoria para cualquier entrada
  2. observar :
    1. s' = s // Recuerda estados anteriores
    2. a' = a // Recuerda acciones anteriores
    3. s = FROM_SENSOR // Obtener los estados actuales del sensor
    4. r = FROM_SENSOR // Obtener recompensa por la acción anterior
  3. Actualización (actualización de la utilidad):
    1. Q[s',a'] = Q[s',a'] + LF * (r + DF * MAX(Q,s) - Q[s',a'])
  4. Decisión :
    1. a = ARGMAX(Q, s)
    2. TO_ACTIVADOR = un
  5. Repetir : IR A 2

Notación

La función MAX(Q,s)

  1. máx = valor mínimo
  2. para cada una de las ACCIONES hacer
    1. si Q[s, a] > max entonces max = Q[s, a]
  3. retorno máximo

ARGMAX(Q,s)

  1. amax = Primera de ACCIÓN(es)
  2. para cada una de las ACCIONES hacer
    1. si Q[s, a] > Q[s, amax] entonces amax = a
  3. volver amax

Literatura

Véase también

Enlaces