proximal-policy-optimization

There are 6 repositories under proximal-policy-optimization topic.

MorvanZhou / Reinforcement-learning-with-tensorflow
Simple Reinforcement learning tutorials, 莫烦Python 中文AI教学
reinforcement-learning tutorial q-learning sarsa sarsa-lambda deep-q-network a3c ddpg policy-gradient dqn double-dqn prioritized-replay dueling-dqn deep-deterministic-policy-gradient asynchronous-advantage-actor-critic actor-critic tensorflow-tutorials proximal-policy-optimization ppo machine-learning
Language:Python 8676
vwxyzjn / cleanrl
High-quality single file implementation of Deep Reinforcement Learning algorithms with research-friendly features (PPO, DQN, C51, DDPG, TD3, SAC, PPG)
wandb reinforcement-learning pytorch python gym machine-learning deep-reinforcement-learning deep-learning atari ale a2c proximal-policy-optimization ppo advantage-actor-critic actor-critic phasic-policy-gradient
Language:Python 4568
ikostrikov / pytorch-a2c-ppo-acktr-gail
PyTorch implementation of Advantage Actor Critic (A2C), Proximal Policy Optimization (PPO), Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation (ACKTR) and Generative Adversarial Imitation Learning (GAIL).
pytorch reinforcement-learning deep-learning deep-reinforcement-learning actor-critic advantage-actor-critic a2c ppo proximal-policy-optimization acktr second-order hessian natural-gradients atari mujoco roboschool continuous-control kfac kronecker-factored-approximation ale
Language:Python 3485
nikhilbarhate99 / PPO-PyTorch
Minimal implementation of clipped objective Proximal Policy Optimization (PPO) in PyTorch
pytorch-implmention pytorch pytorch-tutorial proximal-policy-optimization reinforcement-learning-algorithms deep-reinforcement-learning ppo policy-gradient ppo-pytorch deep-learning reinforcement-learning
Language:Python 1499
Khrylx / PyTorch-RL
PyTorch implementation of Deep Reinforcement Learning: Policy Gradient methods (TRPO, PPO, A2C) and Generative Adversarial Imitation Learning (GAIL). Fast Fisher vector product TRPO.
reinforcement-learning policy-gradient pytorch-rl proximal-policy-optimization trpo ppo pytorch a2c generative-adversarial-network fisher-vectors deep-reinforcement-learning
Language:Python 1055
uvipen / Super-mario-bros-PPO-pytorch
Proximal Policy Optimization (PPO) algorithm for Super Mario Bros
reinforcement-learning ppo ppo2 pytorch gym python3 python deep-learning super-mario-bros mario ai proximal-policy-optimization openai openai-gym
Language:Python 1047
TianhongDai / reinforcement-learning-algorithms
This repository contains most of pytorch implementation based classic deep reinforcement learning algorithms, including - DQN, DDQN, Dueling Network, DDPG, SAC, A2C, PPO, TRPO. (More algorithms are still in progress)
deep-reinforcement-learning ddpg ppo proximal-policy-optimization deep-learning actor-critic algorithm dqn flappy-bird trpo trust-region-policy-optimization a2c atari2600 dueling-dqn pytorch soft-actor-critic sac
Language:Python 649
cpnota / autonomous-learning-library
A PyTorch library for building deep reinforcement learning agents.
reinforcement-learning reinforcement-learning-algorithms deep-reinforcement-learning soft-actor-critic proximal-policy-optimization deep-q-learning advantage-actor-critic deep-deterministic-policy-gradient sac a2c ddpg ppo dqn dqn-pytorch
Language:Python 639
Omegastick / pytorch-cpp-rl
PyTorch C++ Reinforcement Learning
pytorch cpp cplusplus reinforcement-learning reinforcement-learning-algorithms a2c ppo pytorch-rl pytorch-cpp-frontend libtorch actor-critic advantage-actor-critic proximal-policy-optimization continuous-control
Language:C++ 507
ChenglongChen / pytorch-DRL
PyTorch implementations of various Deep Reinforcement Learning (DRL) algorithms for both single agent and multi-agent.
a2c acktr actor-critic advantage-actor-critic ddpg deep-deterministic-policy-gradient deep-q-network deep-reinforcement-learning dqn drl madrl multi-agent ppo proximal-policy-optimization pytorch reinforcement-learning rl
Language:Python 500
zuoxingdong / lagom
lagom: A PyTorch infrastructure for rapid prototyping of reinforcement learning algorithms.
reinforcement-learning pytorch machine-learning python research deep-learning artificial-intelligence policy-gradient evolution-strategies deep-reinforcement-learning deep-deterministic-policy-gradient ddpg td3 soft-actor-critic mujoco proximal-policy-optimization ppo cem cmaes sac
Language:Jupyter Notebook 373
miroblog / tf_deep_rl_trader
Trading Environment(OpenAI Gym) + PPO(TensorForce)
ppo proximal-policy-optimization tensorforce trading tensorflow stock-market
Language:Python 231
idreesshaikh / Autonomous-Driving-in-Carla-using-Deep-Reinforcement-Learning
Deep Reinforcement Learning (PPO) in Autonomous Driving (Carla) [from scratch]
autonomous-driving ddqn reinforcement-learning self-driving-car deep-reinforcement-learning ppo carla-driving-simulator carla-environment deep-learning proximal-policy-optimization carla-simulator deep-learning-algorithms openai pytorch self-driving self-driving-car-simulation self-driving-cars
Language:Python 230
lcswillems / torch-ac
Recurrent and multi-process PyTorch implementation of deep reinforcement Actor-Critic algorithms A2C and PPO
pytorch reinforcement-learning actor-critic deep-reinforcement-learning multi-process minigrid a2c a3c ppo advantage-actor-critic proximal-policy-optimization recurrent reward-shaping recurrent-neural-networks
Language:Python 190
jcwleo / curiosity-driven-exploration-pytorch
Curiosity-driven Exploration by Self-supervised Prediction
advantage-actor-critic curiosity-driven icm proximal-policy-optimization pytorch reinforcement-learning
Language:Python 128
uvipen / Contra-PPO-pytorch
Proximal Policy Optimization (PPO) algorithm for Contra
reinforcement-learning ai ppo deep-learning openai gym contra contra-nes proximal-policy-optimization ppo2
Language:Python 128
CherryPieSexy / imitation_learning
PyTorch implementation of some reinforcement learning algorithms: A2C, PPO, Behavioral Cloning from Observation (BCO), GAIL.
a2c advantage-actor-critic deep-learning deep-reinforcement-learning gail gail-ppo imitation-learning policy-gradient ppo ppo-algo ppo-pytorch proximal-policy-optimization pytorch recurrent-ppo reinforcement-learning
Language:Python 127
adik993 / ppo-pytorch
Proximal Policy Optimization(PPO) with Intrinsic Curiosity Module(ICM)
reinforcement-learning ppo pytorch icm intrinsic-curiosity-module proximal-policy-optimization generalized-advantage-estimation cartpole-v1 mountaincar-v0 pendulum-v0 deep-learning
Language:Python 122
MarcoMeter / episodic-transformer-memory-ppo
Clean baseline implementation of PPO using an episodic TransformerXL memory
pytorch deep-reinforcement-learning episodic-memory ppo transformer proximal-policy-optimization on-policy policy-gradient pomdp actor-critic transformer-xl gtrxl gated-transformer-xl trxl memory-gym
Language:Python 111
MarcoMeter / recurrent-ppo-truncated-bptt
Baseline implementation of recurrent PPO using truncated BPTT
pytorch deep-reinforcement-learning ppo recurrent-neural-networks recurrence lstm gru truncated bptt deep-learning recurrent proximal-policy-optimization on-policy policy-gradient pomdp actor-critic
Language:Jupyter Notebook 106
Luca96 / carla-driving-rl-agent
Code for the paper "Reinforced Curriculum Learning for Autonomous Driving in CARLA" (ICIP 2021)
autonomous-driving carla-driving-simulator deep-learning deep-reinforcement-learning proximal-policy-optimization reinforcement-learning
Language:Python 94
pekaalto / sc2aibot
Implementing reinforcement-learning algorithms for pysc2 -environment
pysc2 starcraft2 reinforcement-learning a2c tensorflow python ppo proximal-policy-optimization deepmind
Language:Python 90
navuboy / gail_gym
Implementation of Generatve Adversarial Imitation Learning (GAIL) for classic environments from OpenAI Gym.
gail ppo reinforcement-learning imitation-learning tensorflow openai-gym proximal-policy-optimization behavioral-cloning generative-adversarial-networks pytorch biped gym-biped
Language:Python 85
TianhongDai / distributed-ppo
This is an pytorch implementation of Distributed Proximal Policy Optimization(DPPO).
multiprocess reinforcement-learning-algorithms proximal-policy-optimization pytorch ppo
Language:Python 60
asieradzk / RL_Matrix
Reinforcement Learning Agents in .NET
cartpole deep-learning deep-reinforcement-learning dotnet dqn machine-learning multi-agent multi-agent-reinforcement-learning multi-environment ppo proximal-policy-optimization reinforcement-learning reinforcement-learning-agent reinforcement-learning-algorithms reinforcement-learning-environments sac soft-actor-critic gail gail-ppo
Language:C# 50
lnpalmer / PPO
PyTorch implementation of Proximal Policy Optimization
machine-learning reinforcement-learning deep-learning proximal-policy-optimization pytorch cuda openai-gym
Language:Python 50
Phoenix-Shen / ReinforcementLearning
强化学习算法库，包含了目前主流的强化学习算法(Value based and Policy based)的代码，代码都经过调试并可以运行
pytorch reinforcement-learning algorithms qlearning-algorithm actor-critic-algorithm policy-gradient proximal-policy-optimization deep-qlearning-algorithm td3-pytorch dppo ddpg-pytorch prioritized-experience-replay deep-reinforcement-learning
Language:Python 49
RLOpensource / Relational_Deep_Reinforcement_Learning
explainable-ai ppo proximal-policy-optimization reinforcement-learning relational-networks self-attention tensorflow
Language:Python 49
bmazoure / ppo_jax
Jax implementation of Proximal Policy Optimization (PPO) specifically tuned for Procgen, with benchmarked results and saved model weights on all environments.
deep-learning gym machine-learning ppo procgen proximal-policy-optimization reinforcement-learning
Language:Python 47
wisnunugroho21 / reinforcement_learning_ppo_rnd
Deep Reinforcement Learning by using Proximal Policy Optimization and Random Network Distillation in Tensorflow 2 and Pytorch with some explanation
reinforcement-learning gym pytorch ppo-rnd proximal-policy-optimization random-network-distillation cartpole-v0 frozenlake-v0 frozenlake-not-slippery deep-reinforcement-learning bipedalwalker lunar-lander ppo
Language:Python 47
cxxgtxy / POP3D
Policy Optimization with Penalized Point Probability Distance: an Alternative to Proximal Policy Optimization
deep-learning policy-optimization proximal-policy-optimization reinforcement-learning
Language:Python 44
elsheikh21 / car-racing-ppo
Implementation of a Deep Reinforcement Learning algorithm, Proximal Policy Optimization (SOTA), on a continuous action space openai gym (Box2D/Car Racing v0)
proximal-policy-optimization openai-gym deep-reinforcement-learning ppo policy-optimization
Language:Python 40
lucidrains / phasic-policy-gradient
An implementation of Phasic Policy Gradient, a proposed improvement of Proximal Policy Gradients, in Pytorch
artificial-intelligence reinforcement-learning proximal-policy-optimization
Language:Python 40
TianhongDai / google-football-pytorch
It's the pytorch implementation of google research football.
football proximal-policy-optimization pytorch rl
Language:Python 38
wisnunugroho21 / asynchronous_impala_PPO
Multi-Agent Deep Reinforcement Learning by using Asynchronous & Impala Proximal Policy Optimization in Pytorch with some explanation
reinforcement-learning gym pytorch ppo proximal-policy-optimization deep-reinforcement-learning deep-learning machine-learning impala
Language:Python 30
jw1401 / PPO-Tensorflow-2.0
Proximal Policy Optimization with Tensorflow 2.0
reinforcement-learning ppo proximal-policy-optimization tensorflow2 policy-gradient ppo2 reinforcement-learning-algorithms
Language:Python 29

proximal-policy-optimization

MorvanZhou / Reinforcement-learning-with-tensorflow

vwxyzjn / cleanrl

ikostrikov / pytorch-a2c-ppo-acktr-gail

nikhilbarhate99 / PPO-PyTorch

Khrylx / PyTorch-RL

uvipen / Super-mario-bros-PPO-pytorch

TianhongDai / reinforcement-learning-algorithms

cpnota / autonomous-learning-library

Omegastick / pytorch-cpp-rl

ChenglongChen / pytorch-DRL

zuoxingdong / lagom

miroblog / tf_deep_rl_trader

idreesshaikh / Autonomous-Driving-in-Carla-using-Deep-Reinforcement-Learning

lcswillems / torch-ac

jcwleo / curiosity-driven-exploration-pytorch

uvipen / Contra-PPO-pytorch

CherryPieSexy / imitation_learning

adik993 / ppo-pytorch

MarcoMeter / episodic-transformer-memory-ppo

MarcoMeter / recurrent-ppo-truncated-bptt

Luca96 / carla-driving-rl-agent

pekaalto / sc2aibot

navuboy / gail_gym

TianhongDai / distributed-ppo

asieradzk / RL_Matrix

lnpalmer / PPO

Phoenix-Shen / ReinforcementLearning

RLOpensource / Relational_Deep_Reinforcement_Learning

bmazoure / ppo_jax

wisnunugroho21 / reinforcement_learning_ppo_rnd

cxxgtxy / POP3D

elsheikh21 / car-racing-ppo

lucidrains / phasic-policy-gradient

TianhongDai / google-football-pytorch

wisnunugroho21 / asynchronous_impala_PPO

jw1401 / PPO-Tensorflow-2.0