vocab.txt如何生成?vocab_size为什么发生变化?
wyqnumber opened this issue · comments
通过chinese_L-12_H-768_A-12模型训练生成simbert模型中的vocab.txt发生了变化,词的内容和数量都不同了,新simbert模型中的vocab.txt如何生成?
keep_tokens=keep_tokens, # 只保留keep_tokens中的字,精简原字表
怎样保存精简词表呢
path = open("test/vocab.txt","w+")
for i in token_dict.keys():
path.write(i+"\n")
path.close()