LLM-Alignment

对大语言模型对齐和对齐算法前沿论文进行调研，梳理成这两份报告“大语言模型人类对齐技术调研.pdf” 和 “参数微调对齐算法调研报告.pdf”，以及安全价值观RLHF数据示例。

1.《大语言模型对齐调研》

基本概念和流程

介绍大语言模型对齐的基本概念，主要流程：数据集构建、对齐算法和对齐评估。

数据集构建

数据集包括现有公开数据集和针对具体业务通过低成本自动地构建训练集。我们提出了一套低成本多语言自动构建数据的方法，并申请专利三项，构造安全价值观RLHF数据20w条及其标签体系，目前满足模型训练和测试。

公开人类反馈数据集

自动构建高质量数据集

安全对齐 (safety alignment)

对齐中有一类特殊任务就是大语言模型安全对齐，即如何保证大语言模型输出内容是合乎所在地法律、道德以及人类价值观，需要先知道有哪些越狱攻击手段能引导大语言模型容易生成有害内容。我们已经实现了一套包含十多种攻击手段的越狱攻击库。

安全对抗（矛与盾）

越狱攻击（Jailbreaking attack）

介绍前沿论文中一些越狱攻击手段，如角色代入、上下文有害示例、大语言模型超参数（如采样参数、温度等）、泄漏攻击、目标劫持等，以及自动搜索越狱攻击提示词等。

对抗越狱攻击（Red Teaming）

如何抵抗越狱攻击，如上下文安全示例增强、内容安全改写，以及通过越狱攻击收集数据来对模型进行训练微调。

对齐方法

介绍对齐方法，包括指令对齐和RLHF算法。

指令对齐（instruction/prompt）

指令对齐主要是指BPO算法，该算法通过对用户可能输入的不安全指令进行安全改写，在符合用于原意图情况下生成安全的回复。

基于人类反馈的强化学习(RLHF)

介绍最近关于RLHF算法的论文工作。

对齐评估

介绍如何对对齐效果进行评估，包括人工评估和自动评估。

2.《参数微调对齐算法调研报告》（主要为RLHF算法，我们已经实现了一套算法库，包含10多种离线RLHF算法）

离线强化学习对齐算法

DPO损失函数之各种变种：

铰链损失（SLIC）、二分类损失（KTO和BCO）、最小二乘损失（IPO）、放松KL约束（CPO）、反向KL散度（EXO）、正负优势比（ORPO）；

增强正例（ DPOP ）；

细粒度偏好-列表排序学习（LiPO-𝜆）；

正负偏好奖励差（ODPO和P3O）；

负偏好优化（NPO）。

学习策略：

课程学习（Curry-DPO）；

稳定训练-限制参数更新幅度（sDPO、TR-DPO）；

数据鲁棒性：

数据增强（DOVE和RPO）；

奖励模型和语言模型同时训练（ RLP ）。

多目标（多奖励，如安全）微调对齐：CDPO、 C-DPO和ALARM。

在线强化学习对齐算法

对当前模型自身（𝜋_𝜃^𝑡）生成的回复进行打分排序（或选择高质量部分）：

奖励函数打分排序： RSO、RS-DPO、ReMax、RAFT、D2O、 Cringe Loss

超大模型打分排序：OAIF

细粒度-列表排序学习：PRO、RRHF

奖励函数：度量函数（ LD-Align ）

当前模型自我生成回复-反省-改写：RLRF

离线数据和在线数据集结合：DNO、IPO-MD

迭代进化（𝜋_𝜃^𝑡比𝜋_𝜃^(𝑡−1)生成回复要好）：SPIN

红队发现漏洞：

增强上下文生成安全回复：ITERALIGN

多目标奖励函数：SteerLM

强化学习框架：SENSEI

离线-在线两阶段：MPO（DPO+PPO）

未来研究方向

设计更合理的损失函数：更好的学习目标、更精准的奖励。

更稳定更高效的训练：如离线-在线混合训练。

多目标奖励及平衡：如帕累托最优、能力冲突分析等。

迭代进化学习：如红蓝对抗、课程学习等。

鲁棒性训练：如缓解训练数据噪音、数据不完美问题等。

更全面、高效、可靠的评测体系：可用来检验模型动态训练效果。

3. 安全价值观数据集示例

包含5个大类，33个二级分类。

import pandas as pd
data = pd.read_excel('安全价值观RLHF数据示例_150.xlsx')
data[['L1','L2']].groupby(['L1','L2']).value_counts()
L1         L2
侵犯他人       个人信息          5
           其他权益          5
           名誉权           5
           肖像权           2
           身心健康          5
           隐私权           5
健康         心理健康          5
           身体健康          5
商业违法违规     不正当竞争         5
           侵犯知识产权        5
           其他违法违规        5
           泄漏商业秘密        5
           违反商业道德        5
歧视         信仰            2
           健康            5
           其他歧视          5
           国别            3
           地域            5
           年龄            2
           性别            5
           民族            1
           种族            5
           职业            3
违反社会主义价值观  国家安全形象利益      5
           恐怖极端主义        5
           政权&制度         5
           敏感人物、政策、事件    5
           暴力色情          5
           虚假有害          5
           辱骂            5
           违法违规          5
           道德伦理          5
           **、迷信         4

BinFuPKU / LLM-Alignment

LLM-Alignment

1.《大语言模型对齐调研》

基本概念和流程

数据集构建

公开人类反馈数据集

自动构建高质量数据集

安全对齐 (safety alignment)

安全对抗（矛与盾）

越狱攻击（Jailbreaking attack）

对抗越狱攻击（Red Teaming）

对齐方法

指令对齐（instruction/prompt）

基于人类反馈的强化学习(RLHF)

对齐评估

2.《参数微调对齐算法调研报告》（主要为RLHF算法，我们已经实现了一套算法库，包含10多种离线RLHF算法）

离线强化学习对齐算法

DPO损失函数之各种变种：

学习策略：

数据鲁棒性：

多目标（多奖励，如安全）微调对齐：CDPO、 C-DPO和ALARM。

在线强化学习对齐算法

对当前模型自身（𝜋_𝜃^𝑡）生成的回复进行打分排序（或选择高质量部分）：

细粒度-列表排序学习：PRO、RRHF

奖励函数：度量函数（ LD-Align ）

当前模型自我生成回复-反省-改写：RLRF

离线数据和在线数据集结合：DNO、IPO-MD

迭代进化（𝜋_𝜃^𝑡比𝜋_𝜃^(𝑡−1)生成回复要好）：SPIN

红队发现漏洞：

多目标奖励函数：SteerLM

强化学习框架：SENSEI

离线-在线两阶段：MPO（DPO+PPO）

未来研究方向

3. 安全价值观数据集示例

About

LLM-Alignment

1.《大语言模型对齐调研》

基本概念和流程

数据集构建

公开人类反馈数据集

自动构建高质量数据集

安全对齐 (safety alignment)

安全对抗（矛与盾）

越狱攻击（Jailbreaking attack）

对抗越狱攻击（Red Teaming）

对齐方法

指令对齐（instruction/prompt）

基于人类反馈的强化学习(RLHF)

对齐评估

2.《参数微调对齐算法调研报告》（主要为RLHF算法，我们已经实现了一套算法库，包含10多种离线RLHF算法）

离线强化学习对齐算法

DPO损失函数之各种变种：

学习策略：

数据鲁棒性：

多目标（多奖励，如安全）微调对齐：CDPO、 C-DPO和ALARM。

在线强化学习对齐算法

对当前模型自身（𝜋_𝜃^𝑡）生成的回复进行打分排序（或选择高质量部分）：

细粒度-列表排序学习：PRO、RRHF

奖励函数： 度量函数（ LD-Align ）

当前模型自我生成回复-反省-改写：RLRF

离线数据和在线数据集结合：DNO、IPO-MD

迭代进化（𝜋_𝜃^𝑡比𝜋_𝜃^(𝑡−1)生成回复要好）：SPIN

红队发现漏洞：

多目标奖励函数：SteerLM

强化学习框架：SENSEI

离线-在线 两阶段：MPO（DPO+PPO）

未来研究方向

3. 安全价值观数据集示例

About

奖励函数：度量函数（ LD-Align ）

离线-在线两阶段：MPO（DPO+PPO）