video-language-pretraining

There are 0 repository under video-language-pretraining topic.

DAMO-NLP-SG / Video-LLaMA
[EMNLP 2023 Demo] Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
blip2 cross-modal-pretraining large-language-models llama minigpt4 multi-modal-chatgpt video-language-pretraining vision-language-pretraining
Language:Python 2575
XLearning-SCU / 2024-ICLR-Norton
Multi-granularity Correspondence Learning from Long-term Noisy Videos [ICLR 2024, Oral]
long-video-understanding noisy-correspondence video-language-pretraining
Language:Python 102
bytedance / Shot2Story
A new multi-shot video understanding benchmark Shot2Story with comprehensive video summaries and detailed shot-level captions.
benchmark dataset large-language-models video-language video-language-pretraining video-question-answering video-summarization vision-language video-captioning video-story video-story-generation
Language:Python 70
liveseongho / Awesome-Video-Language-Understanding
A Survey on video and language understanding.
awesome-papers dataset deep-learning machine-learning multimodal-deep-learning paper video-language video-language-pretraining video-language-understanding
44
SCZwangxiao / RTQ-MM2023
ACM Multimedia 2023 (Oral) - RTQ: Rethinking Video-language Understanding Based on Image-text Model
deep-learning foundational-models machine-learning multi-modal video-language video-language-pretraining video-understanding vision-and-language
Language:Python 11
Maddy12 / SSL4VideoSurvey
The official GitHub page for the survey paper "Self-Supervised learning for Videos: A survey"
action-recognition computer-vision pre-training text-to-video video-language video-language-pretraining video-language-understanding video-to-video
2