ZhuiyiTechnology / simbert

a bert for retrieval and generation

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

vocab.txt如何生成?vocab_size为什么发生变化?

wyqnumber opened this issue · comments

通过chinese_L-12_H-768_A-12模型训练生成simbert模型中的vocab.txt发生了变化,词的内容和数量都不同了,新simbert模型中的vocab.txt如何生成?

keep_tokens=keep_tokens, # 只保留keep_tokens中的字,精简原字表

怎样保存精简词表呢

path = open("test/vocab.txt","w+")

for i in token_dict.keys():
path.write(i+"\n")
path.close()

也感觉遇到类似问题,预训练后加载模型预测报错,不知道什么原因产生
image