SpongebBob / Finetune-ChatGLM2-6B

ChatGLM2-6B 全参数微调,支持多轮对话的高效微调。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

ChatGLM数据处理中input_ids的padding问题

nostalgiaer opened this issue · comments

在实践中注意到ChatGLM的tokenizer跟其它模型的不太一样,其用的是'padding_side=left',也就是说ChatGLM的tokenzier会在一开始的时候填充pad_token,但我注意到作者您似乎不仅用的是eos_token来padding,而且还padding到末位,这是否会影响到Chatglm finetune的性能呢?