Análisis del «aprendizaje por refuerzo» de Richard S. Sutton con implementaciones personalizadas de Python, episodio III
Continuamos nuestra inmersión profunda en el libro mayor de Sutton en RL [1] y aquí nos centramos en los métodos de Monte Carlo (MC). Estos son capaces de aprender únicamente de la experiencia, es decir, no requieren ningún tipo de modelo del entorno, como requieren por ejemplo los métodos de programación dinámica (DP) que presentamos en el post anterior.
Esto es extremadamente tentador, porque a menudo se desconoce el modelo o es difícil modelar las probabilidades de transición. Considere el juego de Veintiuna:incluso si entendemos completamente el juego y las reglas, resolverlo mediante métodos DP sería muy tedioso: tendríamos que calcular todo tipo de probabilidades, por ejemplo, dadas las cartas actualmente jugadas, cuál es la probabilidad de «blackjack», ¿Cuál es la probabilidad de que se repartan otros siete? Gracias a los métodos MC, no tenemos que preocuparnos por todo eso, simplemente jugamos y aprendemos de la experiencia.
Debido a la ausencia de un modelo, los métodos MC son imparciales. Son conceptualmente simples y fáciles de entender, pero tienen una gran variación y no se pueden resolver de forma iterativa (bootstrapping).
Como se mencionó, presentaremos estos métodos aquí después del capítulo 5 del libro de Sutton…