Activity=Net训练参数问题
opened this issue · comments
你好,请问对于Activity-Net数据集,max_words 与max_frames 都是64的情况下,v_rate0到t_rate1都是保持原来的MSR-VTT的标准吗,以及Activity-Net的训练的Batchsize是64还是128?
需要用8张卡在ActivityNet上训练,并且因为显存限制只能把帧数设置为32:
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \
python -m torch.distributed.launch \
--master_port 2950 \
--nproc_per_node=8 \
main_retrieval.py \
--do_train 1 \
--workers 8 \
--n_display 5 \
--epochs 15 \
--lr 1e-4 \
--coef_lr 1e-3 \
--batch_size 128 \
--batch_size_val 32 \
--anno_path ${anno_path} \
--video_path ${video_path} \
--estimator ${ESTIMATOR_PATH} \
--datatype activity \
--max_words 64 \
--max_frames 32 \
--video_framerate 1 \
--output_dir ${output_dir} \
--kl 2 \
--skl 1 \
--v_rate0 0.5 \
--v_rate1 0.25 \
--t_rate0 0.5 \
--t_rate1 0.25
需要用8张卡在活动网上训练,并且因为显存限制只能把帧数设置为32:
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \ python -m torch.distributed.launch \ --master_port 2950 \ --nproc_per_node=8 \ main_retrieval.py \ --do_train 1 \ --workers 8 \ --n_display 5 \ --epochs 15 \ --lr 1e-4 \ --coef_lr 1e-3 \ --batch_size 128 \ --batch_size_val 32 \ --anno_path ${anno_path} \ --video_path ${video_path} \ --estimator ${ESTIMATOR_PATH} \ --datatype activity \ --max_words 64 \ --max_frames 32 \ --video_framerate 1 \ --output_dir ${output_dir} \ --kl 2 \ --skl 1 \ --v_rate0 0.5 \ --v_rate1 0.25 \ --t_rate0 0.5 \ --t_rate1 0.25
好的,非常感谢!我想请问一下你们在msvd与activitynet上推理是不是挺慢的,都需要十多分钟感觉
是的,可能代码还是需要优化一下
是的,可能代码还是需要优化一下
请问是不是应该只能节省从原始视频到抽取对应帧数(也就是从原始数据到放入model的数据的过程),但计算特征这部分还得花挺多时间的。不知道我的理解是否正确
可以改进io流程,比如改变文件存储格式,提前对视频抽好帧
好的,蟹蟹!!!