quique0194 / tesis-final

Tesis 2016-II

datasets de prueba 10 armed bandits gambler's problem racetrack task gridworld rod-maneuvering

graficas de resultados average reward % optimal action

algoritmos temporal diferences montecarlo q learning dp function approximation

tipos de comparacion memoria tiempo de procesamiento desempenio

leer capitulo 9

About

Tesis 2016-II

Language:Python 99.7%Language:Shell 0.3%