用本库训练了个中文LLama3,欢迎体验
CrazyBoyM opened this issue · comments
来新璐 commented
训练数据
ShareGPT、ruozhiba、zhihu、xiaohongshu...
仓库地址
https://github.com/CrazyBoyM/llama3-Chinese-chat
模型下载:https://huggingface.co/shareAI/llama3-Chinese-chat-8b
Leon commented
权重没公开哈。训练其实没什么门槛,关键在数据、数据配比和卡。
我试了下8B的,回答很容易出英文
Lora 大量SFT数据可能能缓解这个问题
但是,毕竟15T的token,只有百分之5是其他语言的,中文有多少就不知道了。算百分之2.5上限,大概3750亿token,下限一两千亿token
要提升中文效果,肯定要增量预训练的+SFT
来新璐 commented
llama3 中文权重已经公开了的。其实有网友实测英文原版加上,你是一个"中文智者"的 System 提示词,英文原版instruct 权重就可以达到极好的中文交流效果。
个人认为如果没有原先的预训练数据集的话,做增量微调会损害模型已学好的通用知识能力(灾难性遗忘),反而导致官方 15T 的训练大打折扣了。
…---原始邮件---
发件人: ***@***.***>
发送时间: 2024年4月20日(周六) 中午12:26
收件人: ***@***.***>;
抄送: "Ke ***@***.******@***.***>;
主题: Re: [yangjianxin1/Firefly] 用本库训练了个中文LLama3,欢迎体验 (Issue #238)
权重没公开哈。训练其实没什么门槛,关键在数据、数据配比和卡。
我试了下8B的,回答很容易出英文
Lora 大量SFT数据可能能缓解这个问题
但是,毕竟15T的token,只有百分之5是其他语言的,中文有多少就不知道了。算百分之2.5上限,大概3750亿token,下限一两千亿token
要提升中文效果,肯定要增量预训练的+SFT
—
Reply to this email directly, view it on GitHub, or unsubscribe.
You are receiving this because you authored the thread.Message ID: ***@***.***>
Leon commented
好的
我试下这个prompt
那增量预训练估计是走不通,毕竟人家的数据可不开源
要是llama3搞了中文,国内没得玩了😂。反正不知道啥原因,留了一手