huawei-noah / Pretrained-Language-Model

Pretrained language model and its related optimization techniques developed by Huawei Noah's Ark Lab.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

wmt数据下载

0-KaiKai-0 opened this issue · comments

请问论文Universal Conditional Masked Language Pre-training for Neural Machine Translation中所描述的数据集size是指什么,以及能否提供论文中所使用的数据下载源。
image

您好,这个数据是从WMT官网下载并清洗之后的数据,size是指用于训练的数据规模,和mBART论文中一致;由于google硬盘空间有限,当前还无法提供所处理后的wmt数据,后边可能会选择在其他云盘上传,您也可以下载后按readme的说明进行处理,谢谢