korean-english-news-v1 데이터셋의 번역이 이상한 부분이 있습니다.
jugol opened this issue · comments
train 셋은 너무 커서 차마 열어보지 못했지만 test set 아래쪽에 보면
kr 파일은 -기사제목- 부분은 앞쪽에 영문이 그대로 붙어 있는 경우가 있구요
그에 대응되는 영어쪽은 간헐적으로 문장이 두개가 복붙되어서 위아래 pair을 맞추고 있더라구요!
그리고 중간중간 이상하게 숫자 (아마 기사 작성 날짜 같은데) 가 붙어있는 곳도 많구요!
한번 확인 부탁드립니다!
이제 보니 dev부분도 마찬가지네요! ㅠㅠ 아마 train부분도 그럴 것 같습니다..