jungyeul / korean-parallel-corpora

Korean Parallel Corpus

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

korean-english-news-v1 데이터셋의 번역이 이상한 부분이 있습니다.

jugol opened this issue · comments

commented

train 셋은 너무 커서 차마 열어보지 못했지만 test set 아래쪽에 보면

kr 파일은 -기사제목- 부분은 앞쪽에 영문이 그대로 붙어 있는 경우가 있구요

그에 대응되는 영어쪽은 간헐적으로 문장이 두개가 복붙되어서 위아래 pair을 맞추고 있더라구요!

그리고 중간중간 이상하게 숫자 (아마 기사 작성 날짜 같은데) 가 붙어있는 곳도 많구요!

한번 확인 부탁드립니다!

commented

이제 보니 dev부분도 마찬가지네요! ㅠㅠ 아마 train부분도 그럴 것 같습니다..