foundation-models

There are 19 repositories under foundation-models topic.

ColossalAI
hpcaitech / ColossalAI
Making large AI models cheaper, faster and more accessible
ai big-model data-parallelism deep-learning distributed-computing foundation-models heterogeneous-training hpc inference large-scale model-parallelism pipeline-parallelism
Language:Python 38294
microsoft / unilm
Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities
beit beit-3 bitnet deepnet document-ai foundation-models kosmos kosmos-1 layoutlm layoutxlm llm minilm mllm multimodal nlp pre-trained-model textdiffuser trocr unilm xlm-e
Language:Python 19098
haotian-liu / LLaVA
[NeurIPS'23 Oral] Visual Instruction Tuning (LLaVA) built towards GPT-4V level capabilities and beyond.
chatbot chatgpt foundation-models gpt-4 instruction-tuning llama llama-2 llama2 llava multi-modality multimodal vision-language-model visual-language-learning
Language:Python 17893
Otter
Luodian / Otter
🦦 Otter, a multi-modal model based on OpenFlamingo (open-sourced version of DeepMind's Flamingo), trained on MIMIC-IT and showcasing improved instruction-following and in-context learning ability.
artificial-inteligence chatgpt deep-learning embodied-ai foundation-models gpt-4 instruction-tuning large-scale-models machine-learning multi-modality visual-language-learning
Language:Python 3508
NExT-GPT / NExT-GPT
Code and models for NExT-GPT: Any-to-Any Multimodal Large Language Model
chatgpt foundation-models gpt-4 instruction-tuning large-language-models llm multi-modal-chatgpt multimodal visual-language-learning
Language:Python 3044
OpenGVLab / Ask-Anything
[CVPR2024 Highlight][VideoChatGPT] ChatGPT with video understanding! And many more supported LMs such as miniGPT4, StableLM, and MOSS.
big-model captioning-videos chat chatgpt foundation-models gradio langchain large-language-models large-model stablelm video video-question-answering video-understanding
Language:Python 2854
CLUEbenchmark / SuperCLUE
SuperCLUE: 中文通用大模型综合性基准 | A Benchmark for Foundation Models in Chinese
chatgpt chinese evaluation foundation-models gpt-4
2810
baaivision / EVA
EVA Series: Visual Representation Fantasies from BAAI
foundation-models representation-learning vision-transformer
Language:Python 2079
amazon-science / chronos-forecasting
Chronos: Pretrained (Language) Models for Probabilistic Time Series Forecasting
forecasting large-language-models llm machine-learning time-series foundation-models pretrained-models time-series-forecasting timeseries artificial-intelligence huggingface huggingface-transformers transformers
Language:Python 2042
deepseek-ai / DeepSeek-VL
DeepSeek-VL: Towards Real-World Vision-Language Understanding
foundation-models vision-language-model vision-language-pretraining
Language:Python 1851
autodistill
autodistill / autodistill
Images to inference with no labeling (use foundation models to train supervised models).
auto-labeling computer-vision deep-learning foundation-models grounding-dino image-annotation image-classification instance-segmentation labeling-tool machine-learning model-distillation multimodal object-detection pytorch segment-anything yolov5 yolov8
Language:Python 1673
baaivision / Emu
Emu Series: Generative Multimodal Models from BAAI
foundation-models generative-pretraining-in-multimodality in-context-learning instruct-tuning multimodal-generalist multimodal-pretraining
Language:Python 1559
tatsu-lab / alpaca_eval
An automatic evaluator for instruction-following language models. Human-validated, high-quality, cheap, and fast.
deep-learning evaluation foundation-models instruction-following large-language-models leaderboard nlp rlhf
Language:Jupyter Notebook 1287
hyp1231 / awesome-llm-powered-agent
Awesome things about LLM-powered agents. Papers / Repos / Blogs / ...
awesome-list embodied-agent embodied-ai foundation-model foundation-models generative-agents generative-ai generative-model generative-models large-language-model large-language-models llms llm chatgpt gpt-4 llm-powered-agents
1167
OpenGVLab / InternVideo
[ECCV2024] Video Foundation Models & Data for Multimodal Understanding
foundation-models video-understanding vision-transformer action-recognition masked-autoencoder multimodal open-set-recognition spatio-temporal-action-localization temporal-action-localization video-question-answering video-retrieval zero-shot-classification zero-shot-retrieval benchmark contrastive-learning self-supervised instruction-tuning video-data video-dataset video-clip
Language:Python 1099
time-series-foundation-models / lag-llama
Lag-Llama: Towards Foundation Models for Probabilistic Time Series Forecasting
forecasting foundation-models time-series time-series-forecasting timeseries timeseries-forecasting llama time-series-prediction time-series-transformer transformers lag-llama
Language:Python 1093
OFA-Sys / ONE-PEACE
A general representation model across vision, audio, language modalities. Paper: ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities
foundation-models multimodal representation-learning vision-language audio-language vision-and-language vision-transformer contrastive-loss
Language:Python 880
torchxrayvision
mlmed / torchxrayvision
TorchXRayVision: A library of chest X-ray datasets and models. Classifiers, segmentation, and autoencoders.
chest-radiographs chest-xray chest-xray-images cxr cxr-images dataset deep-learning foundation-models image-classification machine-learning medical medical-ai medical-application medical-image-analysis medical-image-processing medical-imaging pytorch torchxrayvision transfer-learning
Language:Jupyter Notebook 853
llm-jp / awesome-japanese-llm
日本語LLMまとめ - Overview of Japanese LLMs
language-model language-models large-language-model large-language-models llm llms japanese japanese-language vision-and-language foundation-models multimodal vision-language vision-language-model generative-ai generative-model generative-models japanese-llm japanese-language-model llm-japanese
Language:TypeScript 852
qingsongedu / Awesome-TimeSeries-SpatioTemporal-LM-LLM
A professional list on Large (Language) Models and Foundation Models (LLM, LM, FM) for Time Series, Spatiotemporal, and Event Data.
anomalydetection autoscaling deeplearning forecasting foundation-models large-language-models large-models machinelearning pre-training rca timeseries
821
HazyResearch / meerkat
Creative interactive views of any dataset.
data-science foundation-models machine-learning ml pandas
Language:Python 815
NVlabs / FasterViT
[ICLR 2024] Official PyTorch implementation of FasterViT: Fast Vision Transformers with Hierarchical Attention
ade20k backbone deep-learning image-net pre-trained-model self-attention vision-transformer visual-recognition coco object-detection semantic-segmentation foundation-models image-classification
Language:Python 727
MrGiovanni / ModelsGenesis
[MICCAI 2019] [MEDIA 2020] Models Genesis
fine-tuning representation-learning transfer-learning self-supervised-learning 3d-model pre-trained-model foundation-models
Language:Jupyter Notebook 725
zjunlp / KnowledgeEditingPapers
Must-read Papers on Knowledge Editing for Large Language Models.
awsome-list easyedit foundation-models knowledge-editing knowlm large-language-models model-editing natural-language-processing paper paper-list pre-trained-language-models pre-trained-model review rome survey
703
uncbiag / Awesome-Foundation-Models
A curated list of foundation models for vision and language tasks
foundation-models vision-transformer large-language-models transformer-models multimodal-models
660
mbzuai-oryx / groundingLMM
[CVPR 2024 🔥] Grounding Large Multimodal Model (GLaMM), the first-of-its-kind model capable of generating natural language responses that are seamlessly integrated with object segmentation masks.
foundation-models llm-agent lmm vision-and-language vision-language-model
Language:Python 653
HazyResearch / hyena-dna
Official implementation for HyenaDNA, a long-range genomic foundation model built with Hyena
foundation-models genomics language-models
Language:Assembly 531
NVlabs / EmerNeRF
PyTorch Implementation of EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision
autonomous-driving driving foundation-models nerf
Language:Python 518
FoundationVision / Groma
[ECCV2024] Grounded Multimodal Large Language Model with Localized Visual Tokenization
grounding llm mllm large-language-models foundation-models llama llama2 multimodal vision-language-model
Language:Python 470
baaivision / tokenize-anything
[ECCV 2024] Tokenize Anything via Prompting
foundation-models multimodal promptable representation-learning
Language:Jupyter Notebook 464
huangwl18 / VoxPoser
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models
embodied-ai foundation-models large-language-models motion-planning robotic-manipulation robotics vision-language-model
Language:Python 444
baaivision / Uni3D
[ICLR'24 Spotlight] Uni3D: 3D Visual Representation from BAAI
3d-representation-learning foundation-models vision-transformers
Language:Python 426
OpenRobotLab / PointLLM
[ECCV 2024] PointLLM: Empowering Large Language Models to Understand Point Clouds
3d chatbot foundation-models gpt-4 large-language-models llama multimodal objaverse point-cloud pointllm representation-learning vision-and-language
Language:Python 417
gen-cv
Azure / gen-cv
Vision AI Solution Accelerator
azure-computer-vision cognitive-search-vector-store dalle-3 embeddings florence foundation-models generative-computer-vision image-search stable-diffusion
Language:Jupyter Notebook 383
mims-harvard / UniTS
A unified multi-task time series model.
anomaly-detection classification few-shot forecasting foundation-models imputation prompt-tuning time-series unified-model zero-shot ecg eeg multi-task
Language:Python 361
jqin4749 / MindVideo
Official code base for MinD-Video
brain-decoding foundation-models large-language-models stable-diffusion video-reconstruction
Language:Python 355