Q-aprendizaje

Q -learning es un método utilizado en inteligencia artificial con un enfoque basado en agentes . Se refiere a experimentos de aprendizaje por refuerzo . Con base en la recompensa recibida del entorno, el agente forma una función de utilidad Q, que posteriormente le da la oportunidad no de elegir aleatoriamente una estrategia de comportamiento, sino de tener en cuenta la experiencia de interacción previa con el entorno. Una de las ventajas de Q-learning es que es capaz de comparar la utilidad esperada de las actividades disponibles sin tener que modelar el entorno. Se aplica a situaciones que se pueden representar como un proceso de decisión de Markov .

Algoritmo Q-learning

Inicialización :
1. para cada s y a hacer Q[s, a] = RND // inicializa la función de utilidad Q de la acción a en la situación s como aleatoria para cualquier entrada
observar :
1. s' = s // Recuerda estados anteriores
2. a' = a // Recuerda acciones anteriores
3. s = FROM_SENSOR // Obtener los estados actuales del sensor
4. r = FROM_SENSOR // Obtener recompensa por la acción anterior
Actualización (actualización de la utilidad):
1. Q[s',a'] = Q[s',a'] + LF * (r + DF * MAX(Q,s) - Q[s',a'])
Decisión :
1. a = ARGMAX(Q, s)
2. TO_ACTIVADOR = un
Repetir : IR A 2

Notación

LF es el factor de aprendizaje. Cuanto más alto es, más confía el agente en la nueva información.
DF es el factor de descuento. Cuanto menor es, menos piensa el agente en los beneficios de sus acciones futuras.

La función MAX(Q,s)

máx = valor mínimo
para cada una de las ACCIONES hacer
1. si Q[s, a] > max entonces max = Q[s, a]
retorno máximo

ARGMAX(Q,s)

amax = Primera de ACCIÓN(es)
para cada una de las ACCIONES hacer
1. si Q[s, a] > Q[s, amax] entonces amax = a
volver amax

Literatura

Stuart Russell, Peter Norvig, "IA: un enfoque moderno"
Actas de Machine Learning 1991: Actas del Octavo Taller Internacional (ML91). - Elsevier Science, 2014. - Pág. 364. - ISBN 978-1-4832-9817-7 .

Véase también

Aprendizaje reforzado

Enlaces

Aprendizaje automático y minería de datos
Tareas	Problema de clasificación Aprender sin un maestro Aprendizaje asistido por profesores Análisis de regresión AutoML reglas de asociación Extracción de características entrenamiento de rasgos Entrenamiento de clasificación Derivación gramatical Aprender en línea
Aprendiendo con un maestro	método del k-vecino más cercano Clasificador bayesiano ingenuo árbol de decisión Máquinas de vectores soporte Regresión lineal Regresión logística perceptrón conjuntos de modelos Harpillera impulsar bosque aleatorio Método de vector relevante
análisis de conglomerados	método k-medias método de agrupamiento difuso Agrupación jerárquica algoritmo EM ABEDUL CURAR DBSCAN ÓPTICA Desplazamiento medio
Reducción de dimensionalidad	Análisis factorial Método de componentes principales CCA ACI LDA Expansión de matriz no negativa t-SNE
Pronóstico estructural	Graficar modelo probabilístico red bayesiana Modelo oculto de Markov FRC
Detección de anomalías	método del k-vecino más cercano Nivel de emisión local
Graficar modelos probabilísticos	red bayesiana Red de Markov Modelo oculto de Markov
Redes neuronales	Máquina Boltzmann limitada mapa autoorganizado Función de activación Sigmoideo softmax Funcion de base radial Método de propagación hacia atrás Aprendizaje profundo perceptrón multicapa Red neuronal recurrente memoria a corto plazo Bloque recurrente controlado Red neuronal convolucional U-red Codificador automático
Aprendizaje reforzado	proceso de Markov Ecuación de Bellman Algoritmo codicioso Q-aprendizaje SARAS Diferencia temporal (DT)
Teoría	Teoría de Vapnik-Chervonenkis Dilema de dispersión de sesgo Teoría del aprendizaje computacional Minimización empírica del riesgo El aprendizaje de Occam aprendizaje PAC Teoría del aprendizaje estadístico
revistas y congresos	NeurIPS ICML ML JMLR ArXiv:cs.LG