分层权重后门攻击

Question

ziwang-com opened this issue a year ago · comments

https://github.com/LinyangLee/Layer-Weight-Poison
EMNLP 2021 论文的代码：通过分层权重中毒对预训练模型的后门攻击

我们使用的是旧版本的变压器（2.9.0），因此，为了更快地重新实现，我们只提供关键组件，以便更快地转移到最新版本的拥抱面变压器。

中毒数据生成：

我们正在使用generate_triggers.py为每个数据集生成触发数据。

主要实验是使用组合触发器。对于某个任务，数据目录中应该有一个干净的训练集、一个中毒的训练集、一个干净的有效集和一个中毒的有效集。

对于消融研究，还可以生成单令牌触发数据集。

培训和测试：

我们提供了一个运行 sst-2 数据集实验的示例脚本，数据目录中应该有预生成的中毒数据集。

我们通过超参数控制不同的实验设置weight_poison包括正常微调、坏网、限制内积法和我们提出的下拉加权毒法。