能否介绍更多关于english-chinese alignment dataset的细节呢?
nlp4whp opened this issue · comments
nlp4whp commented
比如您是先通过english-chinese alignment dataset做"预微调",让llama更适应中文,然后在用lora做指令微调么?
另外您构建english-chinese alignment dataset的思路是什么呢,中英对齐的数据格式为何是`en to cn 这样?
最后感谢您的开源工作
Li Mu Zhi commented
我也有同样的问题,作者是直接用english-chinese alignment dataset先做预微调嘛?这个用多少设备,batch size是多少?训练多少了epoch?
有对比一下直接用alpaca-chinese-dataset来做指令微调的效果嘛?
感谢作者!