yangjianxin1 / Firefly

Firefly: 大模型训练工具,支持训练Yi1.5、Phi-3、Llama3、Gemma、MiniCPM、Yi、Deepseek、Orion、Xverse、Mixtral-8x7B、Zephyr、Mistral、Baichuan2、Llma2、Llama、Qwen、Baichuan、ChatGLM2、InternLM、Ziya2、Vicuna、Bloom等大模型

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

用本库训练了个中文LLama3,欢迎体验

CrazyBoyM opened this issue · comments

训练数据

ShareGPT、ruozhiba、zhihu、xiaohongshu...

仓库地址

https://github.com/CrazyBoyM/llama3-Chinese-chat
模型下载:https://huggingface.co/shareAI/llama3-Chinese-chat-8b

commented

权重没公开哈。训练其实没什么门槛,关键在数据、数据配比和卡。

我试了下8B的,回答很容易出英文

Lora 大量SFT数据可能能缓解这个问题

但是,毕竟15T的token,只有百分之5是其他语言的,中文有多少就不知道了。算百分之2.5上限,大概3750亿token,下限一两千亿token

要提升中文效果,肯定要增量预训练的+SFT

commented

好的

我试下这个prompt

那增量预训练估计是走不通,毕竟人家的数据可不开源

要是llama3搞了中文,国内没得玩了😂。反正不知道啥原因,留了一手