datasets de prueba 10 armed bandits gambler's problem racetrack task gridworld rod-maneuvering
graficas de resultados average reward % optimal action
algoritmos temporal diferences montecarlo q learning dp function approximation
tipos de comparacion memoria tiempo de procesamiento desempenio
leer capitulo 9