TencentARC / ST-LLM

[ECCV 2024🔥] Official implementation of the paper "ST-LLM: Large Language Models Are Effective Temporal Learners"

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

MVbench的测试情况

ruishuzhao opened this issue · comments

作者好,我在本地复现了模型的训练过程。采用videochat2相同的训练集,并且修改了你所提到的两个数据集(videochat1 videochatgpt)的标注内容。
采用4个epoch,在mvbench上的性能大概是51.2%(开源模型本地复现性能54.85%)
基于存在差异较大,
请问,在训练过程中有什么需要注意的事项吗?

你好,可能是两个方面

  1. 两个epoch应该足够了,多了性能会变差。
  2. 确认用的是qa的config吗,训qa时是不用videochat1的数据的

你好,可能是两个方面

  1. 两个epoch应该足够了,多了性能会变差。
  2. 确认用的是qa的config吗,训qa时是不用videochat1的数据的

您好,感谢您的回答。
按照您的建议,我使用qa的config配置,然后使用的数据集是qa里面对应的数据集。
因为qa里面的数据集较少,我这里训练出来的模型,在MVbench上的性能更低了。

请问,在训练qa的过程中,都具体用到了哪些训练集呢?

训练qa的数据集都在config/instructblipbase_stllm_qa.yaml里。确定每个数据集都可以正常load吗。如果还是解决不掉可以把训练log邮我看一下

训练qa的数据集都在config/instructblipbase_stllm_qa.yaml里。确定每个数据集都可以正常load吗。如果还是解决不掉可以把训练log邮我看一下

感谢邮件回复。
对于config/instructblipbase_stllm_qa.yaml这里配置里面的: caption_videochatgpt: num_frames: 16。
通过videochat2中caption中没有对应的videochatgpt。
这个数据集对应的是conversation_videochatgpt 这个数据集吗?

videochat2的数据集配置如下:https://github.com/OpenGVLab/Ask-Anything/blob/main/video_chat2/configs/instruction_data.py
另外,我这边最后的loss降至0.3+左右。

是的。conversation_videochatgpt和caption_videochatgpt是同一个数据。loss最后在0.3-0.5是正常的。另外在128的batch下epoch数是多少呢

是的。conversation_videochatgpt和caption_videochatgpt是同一个数据。loss最后在0.3-0.5是正常的。另外在128的batch下epoch数是多少呢

感谢回复~
在epoch为2,128batch的情况下,step数量为6146。总视频标注条数接近39.4w。
因为这些数据集在下载的过程中,有些视频是丢失的。我这边根据丢失视频情况,对的anno标注数据进行了少量的清洗。
请问你那边step的数量大概是多少呢?