jpthu17 / HBI

[CVPR 2023 Highlight] Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Activity=Net训练参数问题

opened this issue · comments

你好,请问对于Activity-Net数据集,max_words 与max_frames 都是64的情况下,v_rate0到t_rate1都是保持原来的MSR-VTT的标准吗,以及Activity-Net的训练的Batchsize是64还是128?

需要用8张卡在ActivityNet上训练,并且因为显存限制只能把帧数设置为32:

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \
python -m torch.distributed.launch \
--master_port 2950 \
--nproc_per_node=8 \
main_retrieval.py \
--do_train 1 \
--workers 8 \
--n_display 5 \
--epochs 15 \
--lr 1e-4 \
--coef_lr 1e-3 \
--batch_size 128 \
--batch_size_val 32 \
--anno_path ${anno_path} \
--video_path ${video_path} \
--estimator ${ESTIMATOR_PATH} \
--datatype activity \
--max_words 64 \
--max_frames 32 \
--video_framerate 1 \
--output_dir ${output_dir} \
--kl 2 \
--skl 1 \
--v_rate0 0.5 \
--v_rate1 0.25 \
--t_rate0 0.5 \
--t_rate1 0.25

需要用8张卡在活动网上训练,并且因为显存限制只能把帧数设置为32:

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \
python -m torch.distributed.launch \
--master_port 2950 \
--nproc_per_node=8 \
main_retrieval.py \
--do_train 1 \
--workers 8 \
--n_display 5 \
--epochs 15 \
--lr 1e-4 \
--coef_lr 1e-3 \
--batch_size 128 \
--batch_size_val 32 \
--anno_path ${anno_path} \
--video_path ${video_path} \
--estimator ${ESTIMATOR_PATH} \
--datatype activity \
--max_words 64 \
--max_frames 32 \
--video_framerate 1 \
--output_dir ${output_dir} \
--kl 2 \
--skl 1 \
--v_rate0 0.5 \
--v_rate1 0.25 \
--t_rate0 0.5 \
--t_rate1 0.25

好的,非常感谢!我想请问一下你们在msvd与activitynet上推理是不是挺慢的,都需要十多分钟感觉

是的,可能代码还是需要优化一下

是的,可能代码还是需要优化一下

请问是不是应该只能节省从原始视频到抽取对应帧数(也就是从原始数据到放入model的数据的过程),但计算特征这部分还得花挺多时间的。不知道我的理解是否正确

可以改进io流程,比如改变文件存储格式,提前对视频抽好帧

好的,蟹蟹!!!