ratsgo / embedding

한국어 임베딩 (Sentence Embeddings Using Korean Corpora)

Home Page:https://ratsgo.github.io/embedding

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

BERT KorQuAD 성능

hccho2 opened this issue · comments

안녕하세요.
가벼운 질문입니다.

책 페이지 279 BERT fine tuning에서 이곳 에 있는 pre-trained 모델을 사용하고 있습니다.

https://github.com/yeontaek/BERT-Korean-Model
여기에 언급된 바로는 KorQuAD에서 google의 "BERT-Base, Multilingual Cased" 보다 점수가 낮습니다.
(F1 score: 89.9% vs 87.8%(또는 88.19%)

한국어 dataset으로만 train했음에도, google Multilingual보다 점수가 낮은 이유가 뭘까요?

data의 quality, train step부족 등등이 이유가 될 수 있습니다만, 그래도 언뜻 이해가 되지 않습니다.

train에 사용한 data가 wiki(350만문장)이라고 되어 있는데, data 부족 때문이라고 해야 할까요?

혹시 조언해 주실 부분이 있을까요?


(지금은 다른 한국어 BERT모델이 공개되어 있습니다. 제 질문은 오연택님 모델에 한정해서 드리는 것입니다)

안녕하세요 @hccho2 님, 너무 늦게 답변을 하는 것인지 모르겠습니다.

해당 모델을 기여해 주신 오연택 님께 직접 여쭤봐야겠습니다만,
말씀하신 것처럼 데이터 문제가 아닐까 생각해 봅니다.
구글 base 모델과 같은 크기이면서 데이터 크기가 작아서이지 않을까 합니다.
구글 base 모델의 경우 BooksCorpus와 영문 위키를 사용했는데요.
(아시다시피 영문 위키가 한국어 위키보다 양이 많은데다 BooksCorpus까지 추가되어 있습니다)

보다 자세한 내용은 제가 오연택 님께 추가로 여쭤본 후 다시 답변 드리도록 하겠습니다.
늘 날카로운 질문해 주셔서 진심으로 감사드립니다.

늘 친절하게 답변 주셔서 감사합니다.
많은 도움이 되었습니다.