jerryliang122 / qq

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

感谢chatGLM-6b模型官方的开源https://github.com/THUDM/ChatGLM-6B

bili专栏:https://www.bilibili.com/read/cv23364167

这只是个把qq聊天记录导出并提取成一问一答的训练资料的python脚本

QQ截图20230428140840

QQ截图20230428140852

需要把你的qq聊天记录导出为txt文件,并将文件拷贝到目录里,且将文件名改为test1.txt(或者改脚本内的名字),随后按照脚本内的注释调整参数运行。

以chatGMLM-6b的微调数据集格式为例,你可以按脚本内注释换其他格式

最后你的记录会导出到train.json以及dev.json内,继续执行微调就行。

(可以使用全部聊天记录,也可以只是用私聊的记录,群聊的会比较好,但容易出现在私聊中@全体成员的错误,大家可以自己试试。)

关于效果

我测试了使用5252416行txt聊天记录(按空格格式)导入脚本,最后输出50349行实际可用的训练集,

QQ截图20230428142557

应用官方提供的ptuning微调后,效果如图:

IMG_6988

IMG_6989

只能说还凑合吧,但确实挺有意思。

再次感谢chatGLM-6b官方的开源https://github.com/THUDM/ChatGLM-6B

About


Languages

Language:Python 100.0%