Kyubyong / cjk_trans

Pre-trained Machine Translation Models of Korean from/to ECJ

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

한국어 데이터셋 관련 질문드립니다.

miziworld opened this issue · comments

안녕하세요! 좋은 연구 공개해주셔서 감사합니다.
다름이 아니라 ko-en 번역기를 설계하고자 하는데
다른 언어를 보통 사용할 때에는 wmt14_en_de 같은 데이터셋을 다운받아서 사용하는데
올려주신 프로젝트에서 wmt14_en_de와 형식이 같은 ko-en 데이터셋을 어떻게 다운받을 수 있을까요?

또한 다른 transformer 번역기 프로젝트 https://github.com/mit-han-lab/lite-transformer를 보면
말뭉치 데이터를 다운받은 후 전처리 하여 사용하는데 이에 사용할 수 있는 ko-en를 받을 수있을까요?

감사합니다.