safe-rlhf

There are 1 repository under safe-rlhf topic.

PKU-Alignment / safe-rlhf
Safe RLHF: Constrained Value Alignment via Safe Reinforcement Learning from Human Feedback
ai-safety alpaca beaver datasets deepspeed gpt large-language-models llama llm llms reinforcement-learning reinforcement-learning-from-human-feedback rlhf safe-reinforcement-learning safe-reinforcement-learning-from-human-feedback safe-rlhf safety transformer transformers vicuna
Language:Python 1180
PKU-Alignment / beavertails
BeaverTails is a collection of datasets designed to facilitate research on safety alignment in large language models (LLMs).
ai-safety beaver datasets gpt human-feedback human-feedback-data language-model large-language-model llama llm llms rlhf safe-rlhf safety
Language:Makefile 79
EzgiKorkmaz / adversarial-reinforcement-learning
Reading list for adversarial perspective and robustness in deep reinforcement learning.
adversarial-attacks robust-machine-learning deep-reinforcement-learning adversarial-reinforcement-learning robust-reinforcement-learning ai-safety machine-learning-safety reinforcement-learning-safety safe-reinforcement-learning adversarial-policies explainable-rl robust-adversarial-reinforcement-learning reinforcement-learning-generalization multiagent-reinforcement-learning ai-alignment adversarial-machine-learning explainable-machine-learning responsible-ai meta-reinforcement-learning safe-rlhf
77