image-text-retrieval

There are 5 repositories under image-text-retrieval topic.

salesforce / BLIP
PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
image-captioning image-text-retrieval vision-and-language-pre-training vision-language vision-language-transformer visual-question-answering visual-reasoning
Language:Jupyter Notebook 4253
OFA-Sys / Chinese-CLIP
Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
chinese computer-vision multi-modal-learning nlp pytorch vision-and-language-pre-training image-text-retrieval clip pretrained-models vision-language deep-learning multi-modal contrastive-loss transformers coreml-models
Language:Python 3598
OpenGVLab / InternVL
[CVPR 2024 Oral] InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks —— An Open-Source Alternative to ViT-22B
image-classification image-text-retrieval llm mme semantic-segmentation video-classification vision-language-model vit-22b vit-6b multi-modal
Language:Python 780
Paranioar / SGRAF
[AAAI2021] The code of “Similarity Reasoning and Filtration for Image-Text Matching”
cross-modal-retrieval image-text-matching image-retrieval image-text-retrieval text-matching aaai
Language:Python 199
chuhaojin / Text2Poster-ICASSP-22
Official implementation of the ICASSP-2022 paper "Text2Poster: Laying Out Stylized Texts on Retrieved Images"
aigc artificial-neural-networks banner-advertisements banner-generator deep-learning encoder-decoder-architecture geneative-creation image-processing image-retrieval image-text-retrieval layout-design multimodal-generation object-detection poster-generation pytorch
Language:Python 191
PicQuery
greyovo / PicQuery
🔍 Search local images with natural language on Android, powered by OpenAI's CLIP model. / 在 Android 上用自然语言搜索本地图片 (基于 OpenAI 的 CLIP 模型)
android clip image-text-retrieval material-design-3 openai image-text-search jetpack-compose
Language:Kotlin 174
howard-hou / BagFormer
PyTorch code for BagFormer: Better Cross-Modal Retrieval via bag-wise interaction
cross-modal-retrieval image-text-retrieval vision-language
Language:Python 115
slavabarkov / tidy
Offline semantic Text-to-Image and Image-to-Image search on Android powered by quantized state-of-the-art vision-language pretrained CLIP model and ONNX Runtime inference engine
android clip computer-vision deep-learning image-retrieval kotlin nlp onnx quantization image-text-retrieval cross-modal-retrieval image-text-matching image-search semantic-search
Language:Kotlin 115
sdc17 / UPop
[ICML 2023] UPop: Unified and Progressive Pruning for Compressing Vision-Language Transformers.
efficient-deep-learning model-compression multimodal-learning vision-language-transformer image-captioning image-text-retrieval visual-question-answering visual-reasoning text-image-retrieval framework weight-pruning sparsity structured vision-transformer pruning
Language:Python 83
X-PLUG / mPLUG
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections. (EMNLP 2022)
image-captioning image-text image-text-retrieval multimodal pretraining pytorch transformer visual-language vqa
Language:Python 74
MILVLG / rosita
ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge Integration
image-text-retrieval pre-training referring-expression-comprehension vision-and-language vqa
Language:Python 55
eric-ai-lab / CPL
Official implementation of our EMNLP 2022 paper "CPL: Counterfactual Prompt Learning for Vision and Language Models"
causal-inference counterfactual-reasoning image-classification image-text-retrieval prompt-tuning vision-and-language vqa
Language:Python 30
image-captioning
cobanov / image-captioning
Image captioning using python and BLIP
image-captioning blip image-text-retrieval img2text vision-language visual-reasoning
Language:Python 28
hpc203 / Chinese-CLIP-opencv-onnxrun
使用OpenCV+onnxruntime部署中文clip做以文搜图，给出一句话来描述想要的图片，就能从图库中搜出来符合要求的图片。包含C++和Python两个版本的程序
clip image-text-retrieval multimodal-large-language-models opencv-dnn
Language:C++ 24
eric-ai-lab / ComCLIP
Official implementation and dataset for the NAACL 2024 paper "ComCLIP: Training-Free Compositional Image and Text Matching"
blip2 causality clip compositionality flickr30k flickr8k-dataset image-text-matching image-text-retrieval slip svo vision-and-language winoground
Language:Python 23
Paranioar / RCAR
[TIP2023] The code of “Plug-and-Play Regulators for Image-Text Matching”
cross-modal-retrieval image-text-matching image-retrieval image-text-retrieval text-matching tip
Language:Python 22
sdc17 / CrossGET
CrossGET: Cross-Guided Ensemble of Tokens for Accelerating Vision-Language Transformers.
efficient-deep-learning model-acceleration multimodal-learning vision-language-transformer image-captioning visual-question-answering visual-reasoning framework transformer image-text-retrieval text-image-retrieval token-ensemble token-matching
17
frank-chris / ImageTextRetrieval
In this work, we implement different cross-modal learning schemes such as Siamese Network, Correlational Network and Deep Cross-Modal Projection Learning model and study their performance. We also propose a modified Deep Cross-Modal Projection Learning model that uses a different image feature extractor. We evaluate the model’s performance on image-text retrieval on a fashion clothing dataset.
image-text-retrieval cross-modal-retrieval cross-modal-learning pytorch tensorflow flask
Language:Jupyter Notebook 10
kaylode / tern
Cross-modal Retrieval using Transformer Encoder Reasoning Networks (TERN). With use of Metric Learning and FAISS for fast similarity search on GPU
cross-modal-retrieval image-text-matching image-text-retrieval transformer
Language:Jupyter Notebook 7
marialymperaiou / knowledge-enhanced-multimodal-learning
A list of research papers on knowledge-enhanced multimodal learning
conditional-image-generation image-text-matching image-text-retrieval knowledge-graph multimodal-deep-learning multimodal-retrieval story-visualization vision-and-language vision-and-language-navigation vision-and-language-pre-training vision-language-transformer visual-commonsense-reasoning visual-dialog visual-grounding visual-question-answering visual-reasoning visual-storytelling multi-task-learning knowledge-enhanced-multimodal-learning knowledge-enhanced-vision-language
7
Moenupa / clip-image-search
Searching Images: From Clip And Beyond
clip-roberta image-search image-text-retrieval multi-modal-retrieval openclip
Language:Jupyter Notebook 1
Paranioar / Image_Text_Retrieval_Benchmark
The Unified Code of Image-Text Retrieval for Further Exploration.
benchmark cross-modal-retrieval image-text-matching image-text-retrieval
Language:Python 0
romrawinjp / modern-image-search
Modern Image Search's course repository for Super AI Engineer Development Program SS4
image-processing image-processing-python image-retrieval image-search image-text-retrieval
Language:Jupyter Notebook 0
AmMoPy / semantic-search-question-answer
Matching questions to correct answers using pre-trained BERT models.
bert bert-embeddings fine-tuning natural-language-processing semantic-search sentence-transformers image-processing image-text-retrieval
Language:Jupyter Notebook