用本库训练了个中文LLama3，欢迎体验

Question

用本库训练了个中文LLama3，欢迎体验

CrazyBoyM opened this issue a month ago · comments

来新璐 commented a month ago

训练数据

ShareGPT、ruozhiba、zhihu、xiaohongshu...

仓库地址

https://github.com/CrazyBoyM/llama3-Chinese-chat
模型下载：https://huggingface.co/shareAI/llama3-Chinese-chat-8b

Leon · Answer 1 · Sat Apr 20 2024 12:26:29 GMT+0800 (China Standard Time)

权重没公开哈。训练其实没什么门槛，关键在数据、数据配比和卡。

我试了下8B的，回答很容易出英文

Lora 大量SFT数据可能能缓解这个问题

但是，毕竟15T的token，只有百分之5是其他语言的，中文有多少就不知道了。算百分之2.5上限，大概3750亿token,下限一两千亿token

要提升中文效果，肯定要增量预训练的+SFT

来新璐 · Answer 2 · Sat Apr 20 2024 12:30:50 GMT+0800 (China Standard Time)

llama3 中文权重已经公开了的。其实有网友实测英文原版加上，你是一个"中文智者"的 System 提示词，英文原版instruct 权重就可以达到极好的中文交流效果。个人认为如果没有原先的预训练数据集的话，做增量微调会损害模型已学好的通用知识能力(灾难性遗忘)，反而导致官方 15T 的训练大打折扣了。

…

---原始邮件--- 发件人: ***@***.***> 发送时间: 2024年4月20日(周六) 中午12:26 收件人: ***@***.***>; 抄送: "Ke ***@***.******@***.***>; 主题: Re: [yangjianxin1/Firefly] 用本库训练了个中文LLama3，欢迎体验 (Issue #238) 权重没公开哈。训练其实没什么门槛，关键在数据、数据配比和卡。我试了下8B的，回答很容易出英文 Lora 大量SFT数据可能能缓解这个问题但是，毕竟15T的token，只有百分之5是其他语言的，中文有多少就不知道了。算百分之2.5上限，大概3750亿token,下限一两千亿token 要提升中文效果，肯定要增量预训练的+SFT — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: ***@***.***>

Leon · Answer 3 · Sat Apr 20 2024 13:02:50 GMT+0800 (China Standard Time)

好的

我试下这个prompt

那增量预训练估计是走不通，毕竟人家的数据可不开源

要是llama3搞了中文，国内没得玩了😂。反正不知道啥原因，留了一手