分层权重后门攻击
ziwang-com opened this issue · comments
https://github.com/LinyangLee/Layer-Weight-Poison
EMNLP 2021 论文的代码:通过分层权重中毒对预训练模型的后门攻击
我们使用的是旧版本的变压器(2.9.0),因此,为了更快地重新实现,我们只提供关键组件,以便更快地转移到最新版本的拥抱面变压器。
中毒数据生成:
我们正在使用generate_triggers.py为每个数据集生成触发数据。
主要实验是使用组合触发器。对于某个任务,数据目录中应该有一个干净的训练集、一个中毒的训练集、一个干净的有效集和一个中毒的有效集。
对于消融研究,还可以生成单令牌触发数据集。
培训和测试:
我们提供了一个运行 sst-2 数据集实验的示例脚本,数据目录中应该有预生成的中毒数据集。
我们通过超参数控制不同的实验设置weight_poison包括正常微调、坏网、限制内积法和我们提出的下拉加权毒法。