GLM 10B和ChatGLM 6B模型架构的差别
ccsquare opened this issue · comments
chuan cheng commented
你好:
请问一下,关于GLM 10B模型和ChatGLM 6B模型,以及别的如llama等生成式模型, 我有一些疑惑,不知道方便解答否。
- 首先,GLM 10B和 ChatGLM 6B 两者在模型架构上有什么差别吗,训练时在框架侧和训练驱动代码上有哪些需要区别对待呢?
- GLM系列模型和llama等模型在训练数据构造方式上有差别吗?在为GLM系列模型构造样本时,有什么需要区别注意的地方吗?
- 如果要接着做sft, 在训练方式上(例如策略,参数设置等),GLM系列模型和llama等模型相比,有什么需要特别注意的地方吗?
感谢~
Lucien commented
其实这三个问题看代码都能得到答案,微调的时候没有特别需要注意的地方,正常炼丹就好。
chuan cheng commented
@LucienShui 感谢你的回答,不过现在网上关于这两个模型的训练/预测有很多代码,不知道最原始的关于这两个模型的训练/预测的代码是哪份,能麻烦提供一下链接吗?