Kamino666 / Video-Captioning-Transformer

这是一个基于Pytorch平台、Transformer框架实现的视频描述生成 (Video Captioning) 深度学习模型。视频描述生成任务指的是：输入一个视频，输出一句描述整个视频内容的文字（前提是视频较短且可以用一句话来描述）。本repo主要目的是帮助视力障碍者欣赏网络视频、感知周围环境，促进“无障碍视频”的发展。

Kamino666/Video-Captioning-Transformer Issues

用video-feature抽取CLIP特征，是否需要把 ViT-B-32.pt放到该项目下
Updated 5 months ago4
CLIP的checkpoint空的
Updated 7 months ago2
请问是有特定的识别类型或者视频需要处理吗，用自己的视频识别出的结果好像差强人意
Updated a year ago4
代码中提到的MMT论文是哪一篇，能详细点吗
Updated 2 years ago
ModuleNotFoundError: No module named 'clip'
Closed 2 years ago4
教程
Updated 2 years ago2
How I can get the pre-trained model?
Closed 2 years ago6
缺少CLIP4CLIP-ViT-B-32模型
Closed 2 years ago2
大佬，单卡训练的时候有一个问题
Closed 2 years ago7
作者：更新预告
Closed 2 years ago10
作者：已经重构的代码正式发布了！
Updated 2 years ago
用您的训练好的模型好像效果不好，请问您的模型的训练集多大
Closed 2 years ago12
submoudle下面的所有文件您清空了吗
Closed 3 years ago2
您好！最近在学习您的代码，被下面这个bug卡了好久了，请问能够帮忙看一下是啥问题呢？万分感谢！！
Closed 3 years ago1
能说下特征提取的相关参数介绍嘛
Closed 3 years ago5
关于跑train报错的问题
Closed 3 years ago17
Hi！特征提取没在 GPU 上跑
Closed 3 years ago4