lyuwenyu/PaddleMIX

简介

PaddleMIX是基于飞桨的跨模态大模型开发套件，聚合图像、文本、视频等多种模态，覆盖视觉语言预训练，文生图，文生视频等丰富的跨模态任务。提供开箱即用的开发体验，同时满足开发者灵活定制需求，探索通用人工智能。

主要特性

丰富的多模态功能: 覆盖图文预训练，文生图，跨模态视觉任务，实现图像编辑、数据标注、数据清理等多样功能
简洁的开发体验: 模型统一开发接口，高效实现自定义模型开发和功能实现
高效的训推流程: 全量模型打通训练推理一站式开发流程，BLIP-2，Stable Diffusion等重点模型训推性能达到业界领先
超大规模训练支持: 可训练千亿规模图文预训练模型，百亿规模文生图底座模型

任务展示

图像描述（Image Caption）
文图生成（Text-to-Image Generation）
文本引导的图像编辑（Text-Guided Image Inpainting）

安装

环境依赖

pip install -r requirements.txt

关于PaddlePaddle安装的详细教程请查看Installation。

手动安装

git clone https://github.com/PaddlePaddle/PaddleMIX
cd PaddleMIX
pip install -e .

教程

快速开始
API文档
训练微调
推理部署

特色应用

二维码模型
Generative FIll
Mix叠图

模型库

视觉语言模型（paddlevlp）

扩散类模型（ppdiffusers）

图文预训练

开放世界视觉模型

文生图

许可证书

本项目的发布受Apache 2.0 license许可认证。

About

Paddle Multimodal Integration and eXploration, supporting text-to-image, image generation, multi-modal CV tasks, including end-to-end large-scale multi-modal pretrain models and diffusion model toolbox, based on PaddlePaddle.

Apache License 2.0

Languages

Language:Python 97.7%Language:C++ 1.2%Language:Cuda 0.9%Language:Shell 0.3%Language:Makefile 0.0%

lyuwenyu / PaddleMIX

简介

最新进展