sunzeyeah/RLHF Issues
基于ChatGLM2的RLHF训练问题
Updated 2Pangu 2.6b 启动失败。
Updated 3pretrain_data_v1.jsonl 文件在哪里
Closed 5后续会考虑RLHF平替方案的集成么
Closed 2有这个推理的代码吗
Updatedreward推理问题
Closed 5chatglm+RLHF
Closed 1请问支持lora方式吗
Closed 1train_rlhf-trlx.py代码问题
Closed 3关于取最后一个token作为reward分数的方式
Closed 2用chatGLM-6B训RW的时候loss不收敛
Closed 7有对比不加RLHF和加入RLHF的效果吗
Closed 1reward model的实现问题
Closed 1使用LoRA的GLM-10B-chinese模型是如何保存的
Closed 3RLHF相关问题
Closed 4deepspeed速度
Closed训练相关
Closed 2为什么训练的时候要加入<sep> token?
Closed 3加入RW后模型的效果
Closed 2