Stepan-Makarenko / ICM-PPO-implementation

Proximal Policy Optimization(PPO) with Intrinsic Curiosity Module(ICM) on Pyramid env, Unity ML

unity pytorch reinforcement-learning deep-reinforcement-learning unity-ml-agents proximal-policy-optimization intrinsic-rewards intrinsic-curiosity-module

ICM-PPO-implementation

Experiment with ICM and PPO bunch for environment with sparse reward signal.

Description

The experiment tests the contribution of intrinsic reward to the agent's ability to solve the sparse-reward environment from Unity ML-Agents Toolkit.

Results

Tensorboard logs for extrinsic and intrinsic rewards

Running examples

Built With

Unity ML-Agents Toolkit.

About

Proximal Policy Optimization(PPO) with Intrinsic Curiosity Module(ICM) on Pyramid env, Unity ML

unity pytorch reinforcement-learning deep-reinforcement-learning unity-ml-agents proximal-policy-optimization intrinsic-rewards intrinsic-curiosity-module

MIT License

Languages

Language:Python 100.0%