llava

There are 3 repositories under llava topic.

ollama / ollama
Get up and running with Llama 3, Mistral, Gemma, and other large language models.
gemma go golang llama llama2 llama3 llava llm llms mistral ollama phi3
Language:Go 71012
haotian-liu / LLaVA
[NeurIPS'23 Oral] Visual Instruction Tuning (LLaVA) built towards GPT-4V level capabilities and beyond.
chatbot chatgpt foundation-models gpt-4 instruction-tuning llama llama-2 llama2 llava multi-modality multimodal vision-language-model visual-language-learning
Language:Python 17214
Fanghua-Yu / SUPIR
SUPIR aims at developing Practical Algorithms for Photo-Realistic Image Restoration In the Wild
deep-learning diffusion-models llava pytorch pytorch-lightning restoration sdxl stable-diffusion super-resolution
Language:Python 3686
InternLM / xtuner
An efficient, flexible and full-featured toolkit for fine-tuning LLM (InternLM2, Llama3, Phi3, Qwen, Mistral, ...)
baichuan chatglm2 internlm large-language-models llama2 llm llm-training peft qwen chatbot conversational-ai supervised-finetuning agent chatglm3 msagent llava mixtral llama3 phi3
Language:Python 2952
SciSharp / LLamaSharp
A C#/.NET library to run LLM (🦙LLaMA/LLaVA) on your local device efficiently.
chatbot gpt llama llama-cpp llama2 llama3 llamacpp llava llm multi-modal semantic-kernel
Language:C# 2115
chenking2020 / FindTheChatGPTer
ChatGPT爆火，开启了通往AGI的关键一步，本项目旨在汇总那些ChatGPT的开源平替们，包括文本大模型、多模态大模型等，为大家提供一些便利
chatglm llama belle vicuna chatgpt alpaca guanaco lora llava minigpt4 autogpt agi codi self-instruct ceval learderboard baichuan wizadlm llama2 linly
2004
modelscope / swift
ms-swift: Use PEFT or Full-parameter to finetune 250+ LLMs or 30+ MLLMs
agent awq deploy dpo finetune galore llama llama3 llava llm lora lvlm modelscope multimodal paligemma peft pre-training qwen sft unsloth
Language:Python 1711
modelscope / data-juicer
A one-stop data processing system to make data higher-quality, juicier, and more digestible for LLMs! 🍎 🍋 🌽 ➡️ ➡️🍸 🍹 🍷为大语言模型提供更高质量、更丰富、更易”消化“的数据！
chinese data-analysis data-science data-visualization dataset gpt gpt-4 instruction-tuning large-language-models llama llava llm llms multi-modal nlp opendata pre-training pytorch sora streamlit
Language:Python 1596
mbzuai-oryx / Video-ChatGPT
[ACL 2024 🔥] Video-ChatGPT is a video conversation model capable of generating meaningful conversation about videos. It combines the capabilities of LLMs with a pretrained visual encoder adapted for spatiotemporal video representation. We also introduce a rigorous 'Quantitative Evaluation Benchmarking' for video-based conversational models.
chatbot clip gpt-4 llama llava mulit-modal vicuna video-chatboat video-conversation vision-language vision-language-pretraining
Language:Python 1001
roboflow / multimodal-maestro
Effective prompting for Large Multimodal Models like GPT-4 Vision, LLaVA or CogVLM. 🔥
lmm multimodality segment-anything instance-segmentation object-detection gpt-4 gpt-4-vision llava prompt-engineering visual-prompting cross-modal vision-language-model
Language:Python 967
uform
unum-cloud / uform
Pocket-Sized Multimodal AI for content understanding and generation across multilingual texts, images, and 🔜 video, up to 5x faster than OpenAI CLIP and LLaVA 🖼️ & 🖋️
huggingface-transformers language-vision multimodal pytorch semantic-search transformer cross-attention vector-search bert neural-network pretrained-models multi-lingual clip openai openclip contrastive-learning representation-learning clustering image-search llava
Language:Python 925
mbzuai-oryx / LLaVA-pp
🔥🔥 LLaVA++: Extending LLaVA with Phi-3 and LLaMA-3 (LLaVA LLaMA-3, LLaVA Phi-3)
conversation llama-3-llava llama-3-vision llama3 llama3-llava llama3-vision llava llava-llama3 llava-phi3 llm lmms phi-3-llava phi-3-vision phi3 phi3-llava phi3-vision vision-language
Language:Python 692
SkalskiP / awesome-foundation-and-multimodal-models
👁️ + 💬 + 🎧 = 🤖 Curated list of top foundation and multimodal models! [Paper + Code + Examples + Tutorials]
blip clip computer-vision foundational-models grounding-dino image-captioning llava multimodal nlp open-vocabulary-detection open-vocabulary-segmentation segment-anything zero-shot-detection
Language:Python 523
open-compass / VLMEvalKit
Open-source evaluation toolkit of large vision-language models (LVLMs), support GPT-4v, Gemini, QwenVLPlus, 50+ HF models, 20+ benchmarks
chatgpt claude clip computer-vision evaluation gemini gpt gpt-4v gpt4 large-language-models llava llm multi-modal openai openai-api pytorch qwen vit vqa
Language:Python 508
TinyLLaVA / TinyLLaVA_Factory
A Framework of Small-scale Large Multimodal Models
large-multimodal-models llama llava nlp tinyllama transformers vision-language
Language:Python 378
jhc13 / taggui
Tag manager and captioner for image datasets
image-captioning image-tagging pyside6 stable-diffusion tag-manager llava cogvlm moondream
Language:Python 355
restai
apocas / restai
RestAI is an AIaaS (AI as a Service) open-source platform. Built on top of LlamaIndex, Ollama and HF Pipelines. Supports any public LLM supported by LlamaIndex and any local LLM suported by Ollama. Precise embeddings usage and tuning.
embeddings langchain llm openai python fastapi rag llama openaiapi llamaindex llava stable-diffusion transformers ollama
Language:Python 329
gokayfem / ComfyUI_VLM_nodes
Custom ComfyUI nodes for Vision Language Models, Large Language Models, Image to Music, Text to Music, Consistent and Random Creative Prompt Generation
comfyui custom-nodes image-captioning img2sfx img2text joytag llava llm mllm nodes phi15 siglip vlm
Language:Python 253
SALT-NLP / LLaVAR
Code/Data for the paper: "LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding"
chatbot chatgpt gpt-4 instruction-tuning llava multimodal ocr vision-and-language
Language:Python 243
PaddlePaddle / PaddleMIX
Paddle Multimodal Integration and eXploration, supporting mainstream multi-modal tasks, including end-to-end large-scale multi-modal pretrain models and diffusion model toolbox. Equipped with high performance and flexibility.
aigc stable-diffusion blip2 clip minigpt4 image-to-text text-to-image ppdiffusers controlnet multimodal eva-clip sd-xl text-to-video dit llava qwen-vl sora stablevideodiffusion
Language:Python 230
FuxiaoLiu / LRV-Instruction
[ICLR'24] Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning
evaluation gpt-4 hallucination object-detection vision vqa llama vicuna llava gpt multimodal prompt-engineering chatgpt evaluation-metrics foundation-models vision-and-language iclr iclr2024
Language:Python 225
jakobdylanc / discord-llm-chatbot
llmcord.py • Talk to LLMs with your friends!
chatgpt gpt openai gpt-4 discord chatbot llm llmcord streamed bot ai oobabooga ollama litellm clyde gpt-4o llama3 llamacpp llava llama
Language:Python 208
tianyi-lab / HallusionBench
[CVPR'24] HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models
benchmark vlms gpt-4 gpt-4v llava benchmarks hallucination llm lmm large-language-models large-vision-language-models
Language:Python 184
developersdigest / ai-devices
AI Device Template Featuring Whisper, TTS, Groq, Llama3, OpenAI and more
groq gpt-4-vision llama3 llm openai tts whisper function-calling langchain langsmith llava serper
Language:TypeScript 183
WisconsinAIVision / ViP-LLaVA
[CVPR2024] ViP-LLaVA: Making Large Multimodal Models Understand Arbitrary Visual Prompts
chatbot clip foundation-models gpt-4 gpt-4-vision llama llama2 llava multi-modal vision-language visual-prompting cvpr2024
Language:Python 179
trzy / llava-cpp-server
LLaVA server (llama.cpp).
llama llama2 llava llm multimodal vision-transformer
Language:C++ 166
sshh12 / multi_token
Embed arbitrary modalities (images, audio, documents, etc) into large language models.
large-context large-language-models large-multimodal-models llava llm multi-modality multimodal vision-language-model
Language:Python 151
gokayfem / awesome-vlm-architectures
Famous Vision Language Models and Their Architectures
clip llava vlm image-encoder text-encoder multimodal blip cogvlm internlm kosmos qwen-vl vision-language-model awesome awesome-list
Language:Markdown 116
AviSoori1x / seemore
From scratch implementation of a vision language model in pure PyTorch
artificial-intelligence deep-learning large-language-models llava llm multimodal multimodal-large-language-models multimodal-learning neural-networks pytorch pytorch-implementation vision-language-model
Language:Jupyter Notebook 114
Blaizzy / mlx-vlm
MLX-VLM is a package for running Vision LLMs locally on your Mac using MLX.
llava llm mlx vision-transformer apple-silicon idefics local-ai paligemma vision-framework vision-language-model
Language:Python 114
tiwater / flowgen
AutoGen Visualized - Visual Tools for Multi-Agent Development.
autogen agent artificial-intelligence chatgpt llm openai rag gpt4v llava
Language:TypeScript 112
ollama-ai
gbaptista / ollama-ai
A Ruby gem for interacting with Ollama's API that allows you to run open source AI LLMs (Large Language Models) locally.
ai alpaca dolphin llama llama2 llm mistral mistral-ai mixtral nano-bots ollama ollama-api openorca vicuna bakllava llava
Language:Ruby 111
mgonzs13 / llama_ros
llama.cpp (GGUF LLMs) and llava.cpp (GGUF VLMs) for ROS 2
cpp gpt llama llm ros2 ggml gguf llamacpp llava vlm llavacpp
Language:C++ 94
notune / captcha-solver
basic google recaptcha solver using llava-v1.6-7b
ai captcha captcha-solver llava ml opencv python python3
Language:Python 89
thomas-yanxin / KarmaVLM
🧘🏻‍♂️KarmaVLM (相生)：A family of high efficiency and powerful visual language model.
llama2 llava qwen2 vlm vision-language-model visual-language-learning multimodel
Language:Python 83
ashleykleynhans / llava-docker
Docker image for LLaVA: Large Language and Vision Assistant
ai chatbot chatgpt docker docker-image foundation-models gpt-4 instruction-tuning llama llama-2 llama2 llava llm multimodal runpod vision-language-model visual-language-learning
Language:Shell 69

llava

ollama / ollama

haotian-liu / LLaVA

Fanghua-Yu / SUPIR

InternLM / xtuner

SciSharp / LLamaSharp

chenking2020 / FindTheChatGPTer

modelscope / swift

modelscope / data-juicer

mbzuai-oryx / Video-ChatGPT

roboflow / multimodal-maestro

unum-cloud / uform

mbzuai-oryx / LLaVA-pp

SkalskiP / awesome-foundation-and-multimodal-models

open-compass / VLMEvalKit

TinyLLaVA / TinyLLaVA_Factory

jhc13 / taggui

apocas / restai

gokayfem / ComfyUI_VLM_nodes

SALT-NLP / LLaVAR

PaddlePaddle / PaddleMIX

FuxiaoLiu / LRV-Instruction

jakobdylanc / discord-llm-chatbot

tianyi-lab / HallusionBench

developersdigest / ai-devices

WisconsinAIVision / ViP-LLaVA

trzy / llava-cpp-server

sshh12 / multi_token

gokayfem / awesome-vlm-architectures

AviSoori1x / seemore

Blaizzy / mlx-vlm

tiwater / flowgen

gbaptista / ollama-ai

mgonzs13 / llama_ros

notune / captcha-solver

thomas-yanxin / KarmaVLM

ashleykleynhans / llava-docker