roy029 / vocamaru_pac

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

vocamaru_pac

Tokenizerを管理するためのレポジトリ

モデルからdumpして、新語の追加をした語彙テーブルを保存する

  • Python語彙(Python予約語、追加学習データセット由来)
  • SentencePieceをかけた後にアンダーバーを取り除く
  • (TODO:)追加するPython語彙に記号が含まれる

Tokenizer

下から入れ替え

  • mT5:下から2500語(6/27作成)(HuggingFace準備中:Roy029/mt5_replace_desc_2500py)

重複語を入れ替え

  • mT5:500語、2500語、5000語、10000語のPython新語リストを作成
  • 日本語T5:500語、2500語、5000語、10000語のPython新語リストを作成 (vocamaruによるトークナイザ作成いつでも。準備中)

語彙の拡張

  • mT5:2500語付与(6/27作成)

Model

語彙拡張に合わせたResizeモデル

  • mT5:2500語付与(準備中)
  • mT5:5000語付与(準備中)
  • 日本語T5:2500語付与(準備中)
  • 日本語T5:5000語付与(準備中)

About


Languages

Language:Python 100.0%