lyuwenyu / PaddleMIX

Paddle Multimodal Integration and eXploration, supporting text-to-image, image generation, multi-modal CV tasks, including end-to-end large-scale multi-modal pretrain models and diffusion model toolbox, based on PaddlePaddle.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

简介

PaddleMIX是基于飞桨的跨模态大模型开发套件,聚合图像、文本、视频等多种模态,覆盖视觉语言预训练,文生图,文生视频等丰富的跨模态任务。提供开箱即用的开发体验,同时满足开发者灵活定制需求,探索通用人工智能。

最新进展

2023.7.31 发布 PaddleMIX v0.1

  • 首次发布PaddleMIX跨模态大模型开发套件,融合PPdiffusers多模态扩散模型工具箱能力,广泛支持PaddleNLP大语言模型
  • 新增EVA-CLIP,BLIP-2,miniGPT-4,Stable Diffusion,ControlNet等xx个跨模态大模型

主要特性

  • 丰富的多模态功能: 覆盖图文预训练,文生图,跨模态视觉任务,实现图像编辑、数据标注、数据清理等多样功能
  • 简洁的开发体验: 模型统一开发接口,高效实现自定义模型开发和功能实现
  • 高效的训推流程: 全量模型打通训练推理一站式开发流程,BLIP-2,Stable Diffusion等重点模型训推性能达到业界领先
  • 超大规模训练支持: 可训练千亿规模图文预训练模型,百亿规模文生图底座模型

任务展示

  1. 图像描述(Image Caption)
  2. 文图生成(Text-to-Image Generation)
  3. 文本引导的图像编辑(Text-Guided Image Inpainting)

安装

  1. 环境依赖
pip install -r requirements.txt

关于PaddlePaddle安装的详细教程请查看Installation

  1. 手动安装
git clone https://github.com/PaddlePaddle/PaddleMIX
cd PaddleMIX
pip install -e .

教程

  • 快速开始
  • API文档
  • 训练微调
  • 推理部署

特色应用

  1. 二维码模型
  2. Generative FIll
  3. Mix叠图

模型库

视觉语言模型(paddlevlp) 扩散类模型(ppdiffusers)
  • 图文预训练
  • 开放世界视觉模型
  • 文生图
  • 许可证书

    本项目的发布受Apache 2.0 license许可认证。

    About

    Paddle Multimodal Integration and eXploration, supporting text-to-image, image generation, multi-modal CV tasks, including end-to-end large-scale multi-modal pretrain models and diffusion model toolbox, based on PaddlePaddle.

    License:Apache License 2.0


    Languages

    Language:Python 97.7%Language:C++ 1.2%Language:Cuda 0.9%Language:Shell 0.3%Language:Makefile 0.0%