随着chatgpt、DALLE、Stable Diffusion的火爆崛起，AIGC已经慢慢融入到我们的日常生活工作中。本项目从模型，数据，计算框架和相关链接四个部分持续更新业界最新进展（以中文为主），并根据自己的使用体验进行推荐。

模型

产品类：

基本上都是采用注册->排队等待->试用->购买的流程

文本生成: 国际上ChatGPT 最好，国内中文心一言使用最好
图片生成: Midjourney 较好且容易上手
其他: 其他方向竞品较少，Copilot 代码编写很好用，ChatAvatar 在3D生成时效果一般

产品名称	发布公司	链接	功能	使用体验
ChatGPT	openai	链接	基于GPT3支持文本的问答，基于GPT4支持图文输入，回答文本	文本类的第一名，虽然中文问答的能力不如英文（毕竟训练的时候英文占了96%），但依旧效果很好
Midjourney	Midjourney	链接	通过文字生成图片	下限很低，第一次用也能生成很好的图片，不过现在不免费了
DALLE	openai	链接	根据文字生成图片	还可以，就是生成了很多简笔画画风的图片
Copilot	github、openai	链接	写代码时的好帮手，可以提供整行或整个函数的建议	挺好用的，常用功能基本都能编辑对
文心一言	百度	链接	输入文本，输出文本，图片，视频。其中视频在发布会上展示了，但是页面还没支持	比ChatGPT差一点，但目前体验下来，可能是国内最好的大模型了
通义千问	阿里	链接	一个专门响应人类指令的大模型	申请后一直没通过
日日新	商汤	链接	作为CV四小龙，除了支持文本，还把图片生成，图片检测、分类等功能加进来了	申请后一直没通过
星火	科大讯飞	链接	作为语音头部企业，额外支持了语音问答及回复。在发布会上除了发布大模型，还发布了四款基于大模型应用的产品	实际测的时候，没有发布会上表现的好，个人感觉没有文心一言好
MathGPT	学而思	链接	作为一家教育机构，主要从数学领域出发构建大模型	还没发布，持续跟进中
式说	第四范式	链接	除了常规功能外，还支持本地部署，可以融合企业内部知识	还未体验
ChatAvatar	影眸科技	链接	系统先通过多轮对话确定prompt，再生成3D	还可以，3D生成是一个比较难的任务，虽然没有达到预期，但在竞品里还是挺不错的

可商用类：

包括：可直接商用，有条件商用，申请后可商用

模型	主模型	模型大小	简介	链接
baichuan-7B	LLaMA 模型设计	7B	在大约 1.2 万亿 tokens 上训练的 70 亿参数模型，支持中英双语，上下文窗口长度为 4096	链接
ChatGLM2-6B	GLM	6B	相对第一版，优化了性能，加长了上下文和推理性能	链接
OpenLLaMA	LLaMA	7B，13B	是 LLaMA 的公开复制品	链接
falcon	falcon	7B，40B	Falcon 是一个简约的 ASGI/WSGI 框架，用于构建关键任务的 REST API 和微服务，重点关注大规模的可靠性、正确性和性能。	链接

自然语言处理模型：

可以使用接口推荐ChatGPT，不能使用接口时推荐ChatGLM，两者都可以推荐ChatGPT

模型	主模型	模型大小	简介	链接
ChatGPT	GPT3/GPT4	基于openai的api	引领大模型的爆款产品	链接
autogpt	GPT3/GPT4	基于openai的api	将LLM的 "**" 串联起来，自主实现设定的目标	链接
ChatGLM	GLM	6B，支持量化	虽然模型只有6B，但是效果还是很好的	链接
Phoenix	BLOOMZ	7B，支持量化	提供了训练脚本	链接
PaLM-rlhf-pytorch	PaLM		在 PaLM 架构之上实施 RLHF	链接
Dolly/Dolly2.0	pythia	12B，6.9B，2.8B	使用databricks-dolly-15k进行训练，但是模型有点大，在24G的卡上也没有办法使用12B的完整版	链接
ChatYuan	T5	0.22B	可以在消费级显卡、 PC甚至手机上进行推理	链接
Chinese-ChatLLaMA	LLaMA	7B, 13B, 33B, 65B		链接
OpenChatKit	Pythia	7B, 20B	增加维基百科信息扩充上下文	链接
BELLE	LLaMA，BLOOMZ	7B	支持finetune、lora，并在LLaMA7B基础上增量预训练扩展中文词表的模型	链接
Wombat	LLaMA	7B, 13B, 33B, 68B	把RLHF改成RRHF了，模型量和超参数量降低了，但效果相当	链接
stanford_alpace	LLaMA	7B, 13B, 33B, 69B	构造了一个生成“指令遵循数据”的 pipeline，拿chatgpt的结果进行训练	链接
Chinese-LLaMA-Alpaca	LLaMA, Alpaca	7B, 13B	扩充了中文词表，并用中文进行了训练	链接
EasyLM	LLaMA, GPT-J, roberta	7B, 13B, 33B, 71B		链接
Chinese-alpaca-lora	LLaMA	7B		链接
Chinese-Vicuna	LLaMA	7B, 13B	突出小，一块2080Ti就够训练。数据长度在256以内，大约需要9G显存。	链接
LMFLOW	LLaMA	7B, 33B	用于微调和推理的可扩展工具包，适合所有大型模型	链接
StackLLaMA	LLaMA	7B		链接

计算机视觉模型：

生成: 推荐Stable Diffusion（SD），但SD对prompt编写要求有点高，使用者为初次使用文生图，推荐DALLE 2
分割: SAM不支持语意，分割效果还可以。Grounded-Segment-Anything 还未测试
3D: 待测试

模型	分类	输入输出类型	简介	链接
DALLE 2	图片生成	文本 -> 图片	openai发表的，可以通过api接口调用	链接
Stable Diffusion	图片生成	文本 -> 图片	下限低但上限高，可以自己训练，prompt写的不好会生成比较差的结果，白种人的生成效果比黄种人的好	链接
StableStudio	图片生成	文本 -> 图片	StableStudio 是 Stability AI 的 DreamStudio 的官方开源变体，允许用户创建和编辑生成的图像	链接
SAM	分割	图片 -> 图片	效果还行，看起来有prompt的字段，但目前还不支持输入文字，把图片中对应的物体分割出来	链接
Grounded-Segment-Anything	分割	图片/视频+文本 -> 图片、视频	集成了很多模型，可以检测、分割、生成带有图像、文本和音频的输入	链接
DetGPT	分割	图片+文本 -> 图片	结合了语言+视觉+推理+定位的功能	链接
Real-ESRGAN	修复	图片 -> 图片	图像/视频修复，高清图片生成，目前主要针对动漫领域的	链接
Shap-E	3D生成	文本 or 图片 -> 3D	openai出品，根据文本或图像，生成 3D对象	链接
stable-dreamfusion	3D生成	文本 or 图片 -> 4D	根据文本或图像，生成 3D对象	链接

多模态模型：

可以使用接口推荐GPT4，不能使用接口时看场景，BLIP-2 支持的场景更多一些

模型	分类	输入输出类型	模型大小	简介	链接
GPT4	文本生成	文本 + 图片 -> 文本	100万亿	应该是当前最先进的多模态大模型了，可以开plus使用	链接
LLaVA	文本生成	文本 + 图片 -> 文本	7B,13B	提供示例平台，效果还可以	链接
BLIP-2	常用功能基本都支持了，包括文图检索、VQA、VideoQA、Image Captioning等	文本、图片、视频 -> 文本、图片	看具体使用模型	已经形成了python库，集成了ALBEF, BLIP, CLIP等模型	链接
OpenFlamingo	文本生成	文本 + 图片 -> 文本	9B	用于训练大型多模态模型的开源框架，支持支持 LLaMA、OPT、GPT-Neo、GPT-J 和 Pythia 模型	链接
MiniGPT-4	文本生成	文本 + 图片 -> 文本	7B	用一个projection layer 把冻结的视觉编码器和Vicuna对齐。	链接
mPLUG-Owl	文本生成	文本 + 图片 -> 文本	7B	达摩院出的，与LLaVA和MiniGPT-4不同，没有冻结基础编码器	链接
ImageBind	特征提取	六种模态		学习跨六种不同模态的联合嵌入，包括：图像、文本、音频、深度（3D）、红外辐射和 IMU 数据	链接
VisualGLM-6B	多模态对话	文本 + 图片 -> 文本	7.8B	支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁	链接

计算框架

DeepSpeed + Megatron 的综合运用是当前主流，可以数据并行、模型并行、pipeline并行

产品名称	发布公司	链接	功能
DeepSpeed	微软	链接	高效的分布式训练、推理框架，并遵循 InstructGPT 论文的方法（chatgpt也是类似方法），整合端到端的训练流程
Megatron	英伟达	链接	把模型并行（张量、序列和流水线）和多节点预训练，应用到基于 Transformer 的模型中，如：GPT、BERT 和 T5等
Colossal-AI	HPC-AI Tech	链接	提供并行组件，只需几行即可启动分布式训练和推理

数据

数据量重要，但数据质量可能更重要

数据名称	类型	简介	数据量	链接
WuDaoCorpora	文本	采用20多种规则从100TB原始网页数据中清洗得出最终数据集，注重隐私数据信息的去除，源头上避免GPT-3存在的隐私泄露风险；包含教育、科技等50+个行业数据标签，可以支持多领域预训练模型的训练。	数据总量：5TB；开源数量：200GB	链接
BELLE项目	文本	参考Stanford Alpaca 生成的中文数据集1M + 0.5M；还有一个 10M的文件持续更新	1.5M	链接
alpaca_gpt4_data_zh	文本	由 GPT4 生成，其中提示是由 ChatGPT 翻译成中文	52K	链接
LLaVA-Instruct-150K	图文对	是基于GPT4 生成的多模态提示数据	150K	链接
laion2B-en	图文对	从网页数据Common Crawl中筛选出来的图像-文本对数据集，文本是英文的	数据量为2.32B	链接
mmc4	图文对	是对流行的纯文本c4语料库的扩充	包含103M个文档，其中包含585M个图像和43B个英语标记	链接
SA-1B	图像及mask标注	由 11M 图像和 1.1B mask 注释组成	10.5GB	链接

名称	简介	链接
civitai	可以下载StableDiffusion相关模型	链接
gradio	快速的为训练好的模型创建前端页面	链接
awesome-chatgpt-prompts-zh	ChatGPT 中文调教指南。各种场景使用指南。学习怎么让它听你的话	链接
MultiModal-AI-Chatbot	多模态对话机器人，支持chatgpt、chatgpt平替、SD等模型进行图文生成，可使用在终端、微信公众号、Web等应用上	链接

liubo12 / awesome-tasting-of-LMMs

模型

计算框架

数据

相关链接

About