請教BERT-base-chinese預訓練方式
andy23andy7980 opened this issue · comments
andy23andy7980 commented
想請教一下,
貴單位BERT-base-chinese預訓練方式是完全遵照原始BERT的方式,
只有將資料集換成繁體中文、Tokenizer改變是嗎?
感謝
Mu Yang commented
Training 使用 huggingface v3.4.0 的 language modeling example,tokenizer 使用 bert-base-chinese (此 tokenizer 本身就包含繁中 token)。
andy23andy7980 commented
謝謝老師回覆