vocab.txt如何生成？vocab_size为什么发生变化？

Question

wyqnumber opened this issue 4 years ago · comments

通过chinese_L-12_H-768_A-12模型训练生成simbert模型中的vocab.txt发生了变化，词的内容和数量都不同了，新simbert模型中的vocab.txt如何生成？

wyqnumber · Answer 1 · Sat Jul 04 2020 16:46:15 GMT+0800 (China Standard Time)

keep_tokens=keep_tokens, # 只保留keep_tokens中的字，精简原字表

孙永松 · Answer 2 · Thu Aug 13 2020 16:42:05 GMT+0800 (China Standard Time)

怎样保存精简词表呢

孙永松 · Answer 3 · Thu Aug 13 2020 16:45:28 GMT+0800 (China Standard Time)

path = open("test/vocab.txt","w+")

for i in token_dict.keys():
path.write(i+"\n")
path.close()

dragon10 · Answer 4 · Tue Mar 02 2021 11:35:05 GMT+0800 (China Standard Time)

也感觉遇到类似问题，预训练后加载模型预测报错，不知道什么原因产生