モデルからdumpして、新語の追加をした語彙テーブルを保存する
- Python語彙(Python予約語、追加学習データセット由来)
- SentencePieceをかけた後にアンダーバーを取り除く
- (TODO:)追加するPython語彙に記号が含まれる
下から入れ替え
- mT5:下から2500語(6/27作成)(HuggingFace準備中:
Roy029/mt5_replace_desc_2500py
)
重複語を入れ替え
- mT5:500語、2500語、5000語、10000語のPython新語リストを作成
- 日本語T5:500語、2500語、5000語、10000語のPython新語リストを作成 (vocamaruによるトークナイザ作成いつでも。準備中)
語彙の拡張
- mT5:2500語付与(6/27作成)
語彙拡張に合わせたResizeモデル
- mT5:2500語付与(準備中)
- mT5:5000語付与(準備中)
- 日本語T5:2500語付与(準備中)
- 日本語T5:5000語付与(準備中)