feizc / MLE-LLaMA

Multi-language Enhanced LLaMA

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

能否介绍更多关于english-chinese alignment dataset的细节呢?

nlp4whp opened this issue · comments

比如您是先通过english-chinese alignment dataset做"预微调",让llama更适应中文,然后在用lora做指令微调么?

另外您构建english-chinese alignment dataset的思路是什么呢,中英对齐的数据格式为何是`en to cn 这样?

最后感谢您的开源工作

我也有同样的问题,作者是直接用english-chinese alignment dataset先做预微调嘛?这个用多少设备,batch size是多少?训练多少了epoch?
有对比一下直接用alpaca-chinese-dataset来做指令微调的效果嘛?
感谢作者!