Beomi / KcBERT

🤗 Pretrained BERT model & WordPiece tokenizer trained on Korean Comments 한국어 댓글로 프리트레이닝한 BERT 모델과 데이터셋

Home Page:https://huggingface.co/beomi/kcbert-base

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

안녕하세요! 질문이 있습니다.

lsjsj92 opened this issue · comments

안녕하세요 ~ 먼저 좋은 자료 공유해주셔서 감사합니다.
알고보니 제가 자주 갔던 블로그 주인님이시네요 ㅎㅎ

질문이 있어서 Issue 남겨드려요!
제가 초보라 질문 수준이 낮아서.. 죄송합니다 ㅠ

  1. Tokenizer word 개수를 3만개로 지정한 이유가 있으실까요?
  • BERT 논문에서인가 거기서는 3만개로 했다고 본 것 같은데 그것 때문일까요?
  • 한국어 (특히 네티즌들이 사용하는 단어)는 굉장히 다양한 단어가 있는데 3만개로 커버리지가 가능한지 궁금합니다!
  1. Fine-tuning 하는 방법이 어떻게 될까요?
  • Beomi님께서 만드신 Pre-training된 model을 이용해서 제가 가지고 있는 Dataset에 Fine-tuning을 하고 싶습니다.
  • Model을 Fine-tuning 하는 방법과 Tokenizer tuning을(가능할지 모르겠지만) 하는 방법이 어떻게 될까요??

감사합니다!

안녕하세요,

Vocab 갯수가 3만은 경험적으로 지정한 측면이 있습니다.
다만 한국어같은 경우는 자소단위가 아닌 이상 한 글자 단위도 무척 많아서, 해당 부분을 모두 커버하고 + 유의미한 단어 단위로 자르기 위해서는 3만개 정도는 필요하다고 생각합니다.
물론 3만개의 Vocab도 완벽한것은 아니기 때문에 한계는 있습니다 :)

Finetune을 Downstream task에 사용하시려는 것일까요? 아니면 갖고 계시는 데이터로 Pretrain을 좀 더 하시려는걸까요? 그것에 따라서 달라집니다.
전자의 경우라면 본문의 Colab링크를 참고하시면 Classification 예시가 있고,
후자의 경우라면 좀더 복잡한 방법이 필요합니다.

아 3만개 지정은 그런 이유이시군요 감사합니다.

음.. 전자쪽이 맞을 것 같습니다.

가지고 있는 dataset을 이용해서

  1. Tokenizer word 부터 다시 셋팅
  2. 셋팅된 tokenizer로 fine tune 하는 수준

으로 생각하고 있었습니다.
말씀해주신 자료 보면서 이것저것 조사를 해봐야겠네요 ㅎㅎ 감사합니다!