(开发中...)
解析SARD数据集,并进行分类(有无漏洞,分离mixed样本)和标注(CWE编号+触发行号)
- bad -> 判断能否通过编译
- good -> 判断能否通过编译
- mixed
- 单文件 -> 根据宏定义(#ifndef OMITBAD/OMITGOOD)拆分,保留main函数
- 多文件 -> 暂不处理(一般是函数调用,后续考虑将文件进行合并)
- 解析xml文件,得到每个样本的文件路径、标签等信息
- 读取样本,分割、处理并保存到单独的文件夹(文件名示例:good/bad/CWE-xx_lineNum_...)
- (可自己再创建一个xml,指定处理后样本的路径、标签等信息)