图像中文描述

图像中文描述 + 视觉注意力的 PyTorch 实现。

Show, Attend, and Tell 是令人惊叹的工作，这里是作者的原始实现。

这个模型学会了“往哪瞅”：当模型逐词生成标题时，模型的目光在图像上移动以专注于跟下一个词最相关的部分。

依赖

使用 AI Challenger 2017 的图像中文描述数据集，包含30万张图片，150万句中文描述。训练集：210,000 张，验证集：30,000 张，测试集 A：30,000 张，测试集 B：30,000 张。

下载点这里：图像中文描述数据集，放在 data 目录下。

提取210,000 张训练图片和30,000 张验证图片：

$ python pre-process.py

$ python train.py

可视化训练过程，执行：

$ tensorboard --logdir path_to_current_dir/logs

下载预训练模型放在 models 目录，然后执行:

$ python demo.py

图像中文描述+视觉注意力

Apache License 2.0

Language:Python 100.0%