能否介绍更多关于english-chinese alignment dataset的细节呢？

Question

nlp4whp opened this issue a year ago · comments

比如您是先通过english-chinese alignment dataset做"预微调"，让llama更适应中文，然后在用lora做指令微调么？

另外您构建english-chinese alignment dataset的思路是什么呢，中英对齐的数据格式为何是`en to cn 这样？

最后感谢您的开源工作

Li Mu Zhi · Answer 1 · Thu Apr 06 2023 17:30:30 GMT+0800 (China Standard Time)

我也有同样的问题，作者是直接用english-chinese alignment dataset先做预微调嘛？这个用多少设备，batch size是多少？训练多少了epoch？
有对比一下直接用alpaca-chinese-dataset来做指令微调的效果嘛？
感谢作者！