vision-and-language-pre-training

There are 2 repositories under vision-and-language-pre-training topic.

salesforce / BLIP
PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
image-captioning image-text-retrieval vision-and-language-pre-training vision-language vision-language-transformer visual-question-answering visual-reasoning
Language:Jupyter Notebook 4444
OFA-Sys / Chinese-CLIP
Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
chinese computer-vision multi-modal-learning nlp pytorch vision-and-language-pre-training image-text-retrieval clip pretrained-models vision-language deep-learning multi-modal contrastive-loss transformers coreml-models
Language:Python 3934
phellonchen / awesome-Vision-and-Language-Pre-training
Recent Advances in Vision and Language Pre-training (VLP)
vision-and-language-pre-training vision-and-language pretraining multimodal-deep-learning vlp
282
zhjohnchan / awesome-vision-and-language-pretraining
A curated list of vision-and-language pre-training (VLP). :-)
multi-modal-learning pre-training vision-and-language-pre-training
54
mala-lab / SIC-CADS
Code Implementation of "Simple Image-level Classification Improves Open-vocabulary Object Detection" (AAAI'24)
object-detection open-vocabulary-detection vision-and-language-pre-training vision-language-model foundation-models
Language:Python 18
PrithivirajDamodaran / vision-language-modelling-series
Companion Repo for the Vision Language Modelling YouTube series - https://bit.ly/3PsbsC2 - by Prithivi Da. Open to PRs and collaborations
multimodal-deep-learning multimodal-interactions multimodal-representation vision-and-language vision-and-language-navigation vision-and-language-pre-training
Language:Jupyter Notebook 14
JianqiangWan / VLPT-STD
Vision-Language Pre-Training for Boosting Scene Text Detectors (CVPR2022)
vision-and-language-pre-training scene-text-detection multimodal-deep-learning
11
marialymperaiou / knowledge-enhanced-multimodal-learning
A list of research papers on knowledge-enhanced multimodal learning
conditional-image-generation image-text-matching image-text-retrieval knowledge-graph multimodal-deep-learning multimodal-retrieval story-visualization vision-and-language vision-and-language-navigation vision-and-language-pre-training vision-language-transformer visual-commonsense-reasoning visual-dialog visual-grounding visual-question-answering visual-reasoning visual-storytelling multi-task-learning knowledge-enhanced-multimodal-learning knowledge-enhanced-vision-language
7
SHTUPLUS / GITM-MR
The official implementation for the ICCV 2023 paper "Grounded Image Text Matching with Mismatched Relation Reasoning".
vision-and-language vision-language-model vision-and-language-pre-training vision-language-dataset vision-language-learning
Language:Python 6