reinforcement-learning value-iteration continuous-control continuous-value-iteration optimal-control hamilton-jacobi hamilton-jacobi-bellman jax flax

HJxB

Continuous Fitted Value Iteration based on closed-form solution of Hamilton-Jacobi-Bellman equation for affine systems, implemented in JAX. This method was first used in this paper and tested on a number of classic contorl problems like cartpole or pendulum swig-up tasks.

This repo contains:

Extensibility for custom environment definition
Linearization of forward dynamics and reward functions
A number of different solvers for bellman backup optimization
Various integrators for forward dynamics
Various data collection and storage methods
Extensive configurability
Tensorboard and file logging

Usage

For now:

python main.py --config-file=./config/Pendulum.yaml
tensorboard --logdir=./logs/<log_dir>

About

Continuous-Time/State/Action Fitted Value Iteration via Hamilton-Jacobi-Bellman (HJB)

reinforcement-learning value-iteration continuous-control continuous-value-iteration optimal-control hamilton-jacobi hamilton-jacobi-bellman jax flax

Languages

Language:Python 100.0%