Descripción general de los métodos de diferencia temporal de n pasos | de Oliver S | diciembre 2024

Descripción general de los métodos de diferencia temporal de n pasos | de Oliver S | diciembre 2024

Diseccionando el «aprendizaje por refuerzo» de Richard S. Sutton con implementaciones personalizadas de Python, episodio V

En nuestro artículo anterior, completamos la serie introductoria sobre técnicas fundamentales de aprendizaje por refuerzo (RL) explorando el aprendizaje por diferencia temporal (TD). Los métodos TD combinan las fortalezas de los métodos de Programación Dinámica (DP) y Monte Carlo (MC), aprovechando sus mejores características para entrenar algunos de los algoritmos RL más importantes, como Q-learning.

Sobre la base de esta base, este artículo profundiza Aprendizaje TD en n pasosun enfoque versátil presentado en el capítulo 7 del libro de Sutton [1]. Este método cierra la brecha entre las técnicas clásicas de TD y MC. Al igual que TD, los métodos de n pasos utilizan bootstrapping (aprovechando estimaciones anteriores), pero también incorporan estimaciones posteriores. n recompensas, ofreciendo una combinación única de aprendizaje a corto y largo plazo. En un artículo futuro, generalizaremos este concepto aún más con rastros de elegibilidad.

Seguiremos un enfoque estructurado, comenzando con la problema de predicción antes de pasar a control. En el camino, haremos:

  • Introducir Sarsa en n etapas,
  • extenderlo a aprender fuera de la política,
  • Explora el algoritmo de copia de seguridad de árbol de n pasosY
  • Presentar una perspectiva unificadora con n-paso Q(σ).

Como siempre, puedes encontrar todos los códigos relacionados en GitHub. ¡Vamos!