NagisaZj

followers

0

following

stars

NagisaZj's repositories

MetaCURE-Public

Language:Python12 2 2

CUP

Language:PythonMIT5 10

IDAQ_Public

Language:PythonMIT5 1 2

bigcode-evaluation-harness

A framework for the evaluation of autoregressive code generation language models.

Apache-2.0000

ContextWM

Code release for "Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning" (NeurIPS 2023), https://arxiv.org/abs/2305.18499

Language:PythonMIT000

decision-transformer

Official codebase for Decision Transformer: Reinforcement Learning via Sequence Modeling.

MIT000

diffusion_policy

[RSS 2023] Diffusion Policy Visuomotor Policy Learning via Action Diffusion

MIT000

diffusion_reward

[arXiv'23] Official implementation of the paper "Diffusion Reward: Learning Rewards via Conditional Video Diffusion"

MIT000

dreamerv3

Mastering Diverse Domains through World Models

Language:PythonMIT000

DrM

DrM, a visual RL algorithm, minimizes the dormant ratio to guide exploration-exploitation trade-offs, achieving significant improvements in sample efficiency and asymptotic performance across diverse domains.

MIT000

DUP

000

evals

Evals is a framework for evaluating LLMs and LLM systems, and an open-source registry of benchmarks.

NOASSERTION000

Graphormer

Graphormer is a general-purpose deep learning backbone for molecular modeling.

MIT000

HIQL

HIQL: Offline Goal-Conditioned RL with Latent States as Actions (NeurIPS 2023)

MIT000

hypnettorch

Package for working with hypernetworks in PyTorch.

Language:PythonApache-2.0000

icl-alignment

Is In-Context Learning Sufficient for Instruction Following in LLMs?

Apache-2.0000

implicit_q_learning

Language:PythonMIT000

LAPO-offlienRL

Language:PythonMIT000

lightATAC

MIT000

llama3

The official Meta Llama 3 GitHub site

NOASSERTION000

metaworld-cup

Language:PythonMIT000

MiniGPT-4

Open-sourced codes for MiniGPT-4 and MiniGPT-v2

BSD-3-Clause000

mtenv

Language:PythonMIT000

octo

Octo is a transformer-based robot policy trained on a diverse mix of 800k robot trajectories.

MIT000

OpenRLHF

An Easy-to-use, Scalable and High-performance RLHF Framework (70B+ PPO Full Tuning & Iterative DPO & LoRA & Mixtral)

Apache-2.0000

OPPO

000

opro

official code for "Large Language Models as Optimizers"

Apache-2.0000

simple-evals

MIT000

universal_manipulation_interface

Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots

MIT000

viper_rl

Using advances in generative modeling to learn reward functions from unlabeled videos.

Language:Jupyter NotebookMIT000