Beomi / KcBERT

🤗 Pretrained BERT model & WordPiece tokenizer trained on Korean Comments 한국어 댓글로 프리트레이닝한 BERT 모델과 데이터셋

Home Page:https://huggingface.co/beomi/kcbert-base

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Pre-train 시 코퍼스 파일 문서 나누기

kyle-bong opened this issue · comments

안녕하세요!
코퍼스 및 코드를 공개해주셔서 정말 감사합니다.

공개해주신 코퍼스로 KcBERT를 직접 한번 만들어 보려고 하는데요.

BERT 공식 github(https://github.com/google-research/bert)의 pre-training 설명에 따르면
| Here's how to run the data generation. The input is a plain text file, with one sentence per line. (It is important that these be actual sentences for the "next sentence prediction" task). Documents are delimited by empty lines.

라고 언급하고 있습니다. 특히 인용한 부분의 마지막 문장은 코퍼스가 여러 문서로 이루어져 있을 경우 문서와 문서 사이에 빈 행을 넣어 구분하라고 하고 있습니다.

공개해주신 코퍼스도 단일한 문서가 아니라 여러 가지 문서를 하나의 파일로 병합하신 것으로 보입니다.

그런데 공개해주신 코퍼스에는 문서를 구분하기 위한 빈 행이 보이지 않습니다.
혹시 모델을 만드실 때 코퍼스 내의 각 문서를 따로 구분하신 후 진행하셨는지, 아니면 공개된 대로 문서와 문서를 구분하지 않고 모델을 만드셨는지 궁금합니다!

안녕하세요,

말씀하신것과 같이 KcBERT학습용 데이터는 각 문장이 댓글로 구성되어있으며 각 문장 자체가 하나의 document로 처리됩니다.
즉, Line-by-line으로 쪼개진다고 보시면 됩니다.

따라서 학습은 대부분 MLM으로 진행되었다고 보시면 됩니다.

@Beomi 답변해주셔서 감사합니다.

우리에게 북한은 꼭 없애야 할 적일뿐
문재앙 탄핵 원하면 추천 눌러주세요!! 여론의 힘을 보여줍시다
김정은이 트럼프를 개호구 문재인으로 착각했나봄ㅋㅋ

현재 공개된 코퍼스가 이런 식으로 되어 있는데,
BERT 깃헙에 따르면

우리에게 북한은 꼭 없애야 할 적일뿐

문재앙 탄핵 원하면 추천 눌러주세요!! 여론의 힘을 보여줍시다

김정은이 트럼프를 개호구 문재인으로 착각했나봄ㅋㅋ

과 같이 문서와 문서 사이에 빈 행이 있어야 한다고 저는 이해를 하고 있습니다.
실제 학습하실 때 빈 행 없이 학습하셔도 문제가 없었나요?