输入上联,输出下联
从GitHub网站下载couplet v1.0 release版本的数据,并解压。 GitHub网站:https://github.com/wb14123/couplet-dataset/releases 文件名:couplet.tar.gz
在Resources目录下, git clone https://github.com/tensorflow/tensor2tensor.git git checkout v1.2.9
Couplet数据解压后,有两个文件夹,分别存放train和test的上下联数据。In为上联,out为下联。在训练过程中,我们只需对train的数据进行预处理。
需要安装subword-nmt包:python -m pip install subword-nmt 统计字数命令:subword-nmt get-vocab –input train.merge.txt –output train.merge.txt.vocab
cat train.merge.txt.vocab | awk ‘print $1’ > merge.txt.vocab.clean
我设置的batch_size为100000,所以最终需要的数据文件为:
model.ckpt-100000.data-00000-of-00003
model.ckpt-100000.data-00001-of-00003
model.ckpt-100000.data-00002-of-00003
model.ckpt-100000.index
model.ckpt-100000.meta
checkpoint