請教BERT-base-chinese預訓練方式

Question

andy23andy7980 opened this issue a year ago · comments

想請教一下，
貴單位BERT-base-chinese預訓練方式是完全遵照原始BERT的方式，
只有將資料集換成繁體中文、Tokenizer改變是嗎?

感謝

Mu Yang · Answer 1 · Mon May 29 2023 01:54:34 GMT+0800 (China Standard Time)

Training 使用 huggingface v3.4.0 的 language modeling example，tokenizer 使用 bert-base-chinese （此 tokenizer 本身就包含繁中 token）。

andy23andy7980 · Answer 2 · Mon May 29 2023 13:53:10 GMT+0800 (China Standard Time)

謝謝老師回覆