multimodal-llm

There are 0 repository under multimodal-llm topic.

FireRedTeam / FireRedASR
Open-source industrial-grade ASR models supporting Mandarin, Chinese dialects and English, achieving a new SOTA on public Mandarin ASR benchmarks, while also offering outstanding singing lyrics recognition capability.
asr industrial-grade llm multimodal-llm open-source speech-recognition automatic-speech-recognition conformer speechllm transformer
Language:Python 1343
eric-ai-lab / MiniGPT-5
Official implementation of paper "MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens"
diffusion-models multimodal-generation multimodal-llm transformers
Language:Python 864
alipay / Ant-Multi-Modal-Framework
Research Code for Multimodal-Cognition Team in Ant Group
image-text-retrieval multimodal-learning multimodal-llm video-editing video-text-retrieval
Language:Python 140
Zhoues / MineDreamer
[NeurIPSw'24] This repo is the official implementation of "MineDreamer: Learning to Follow Instructions via Chain-of-Imagination for Simulated-World Control "
diffusion-model embodied-agent minecraft multimodal-llm
Language:Python 87
UCSC-VLAA / vllm-safety-benchmark
[ECCV 2024] Official PyTorch Implementation of "How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for Vision LLMs"
adversarial-attacks benchmark datasets llm multimodal-llm robustness safety vision-language-model
Language:Python 79
AIDC-AI / Wings
The code repository for "Wings: Learning Multimodal LLMs without Text-only Forgetting" [NeurIPS 2024]
deep-learning mllm multimodal-large-language-models multimodal-llm text-only-forgetting
Language:Python 17
shanface33 / GPT4MF_UB
Official repository of the paper: Can ChatGPT Detect DeepFakes? A Study of Using Multimodal Large Language Models for Media Forensics
deepfake-detection deepfake-images image-forensics chatgpt-4 multimodal-llm ai-generated-image-detection
14
HenryPengZou / ImplicitAVE
[ACL 2024] Dataset and Code of "ImplicitAVE: An Open-Source Dataset and Multimodal LLMs Benchmark for Implicit Attribute Value Extraction"
attribute-value-extraction vision-language-model implicit-attribute-value-extraction multimodal-llm
Language:Jupyter Notebook 12
iamaziz / chat_with_images
Streamlit app to chat with images using Multi-modal LLMs.
llms multimodal-llm streamlit llava
Language:Python 7
zhudotexe / kani-vision
Kani extension for supporting vision-language models (VLMs). Comes with model-agnostic support for GPT-Vision and LLaVA.
extension kani large-language-models llava multimodal-llm vision-language-model gpt-vision
Language:Python 7
autodistill / autodistill-llava
LLaVA base model for use with Autodistill.
autodistill computer-vision llava multimodal-llm
Language:Python 6
andy9705 / SumGD
[NAACL 2025 Findings] Mitigating Hallucinations in Large Vision-Language Models via Summary-Guided Decoding
hallucination language-prior large-vision-language-models multimodal multimodal-llm
Language:Python 5
aastroza / cachai
The future of AI is speaking Chilean, cachai?
build-in-public chile llm multimodal-llm openai
Language:Jupyter Notebook 3
abdur75648 / MedicalGPT
Medical Report Generation And VQA (Adapting XrayGPT to Any Modality)
chatgpt llm medical-dataset medical-imaging medical-report-generation medicalgpt minigpt4 multimodal-llm vicuna vqa vqa-dataset xraygpt chatgpt4o llama llms
Language:Python 2
Jiaxuan-Li / NEMO
NEMO: Can Multimodal LLMs Identify Attribute-Modified Objects?
robustness multimodal-llm vision-and-languge
Language:JavaScript 2
ChocoWu / SeTok-web
This is the project webpage for 'SeTok'.
multimodal-llm vision-tokenization
Language:CSS
rahatmoktadir03 / tumor-scope
Brain Tumor Classification project leveraging neural networks to classify MRI scans with high accuracy. Features include a Streamlit-based app for predictions, Gemini 1.5 Flash for interpretability, and advanced visualizations. It also includes model comparison, multimodal LLM integration, and real-time interactions.
brain-tumor-classification deep-learning gemini keras machine-learning multimodal-llm neural-networks python streamlit tensorflow xception-model
Language:Python

multimodal-llm

FireRedTeam / FireRedASR

eric-ai-lab / MiniGPT-5

alipay / Ant-Multi-Modal-Framework

Zhoues / MineDreamer

UCSC-VLAA / vllm-safety-benchmark

AIDC-AI / Wings

shanface33 / GPT4MF_UB

HenryPengZou / ImplicitAVE

iamaziz / chat_with_images

zhudotexe / kani-vision

autodistill / autodistill-llava

andy9705 / SumGD

aastroza / cachai

abdur75648 / MedicalGPT

Jiaxuan-Li / NEMO

ChocoWu / SeTok-web

rahatmoktadir03 / tumor-scope