BillySen / awesome-pretrained-chinese-nlp-models

Awesome Pretrained Chinese NLP Models,高质量中文预训练模型集合

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Awesome Pretrained Chinese NLP ModelsAwesome

在自然语言处理领域中,预训练语言模型(Pretrained Language Models)已成为非常重要的基础技术,本仓库主要收集目前网上公开的一些高质量中文预训练模型(感谢分享资源的大佬),并将持续更新......

Expand Table of Contents

NLU系列

BERT

  • 2018 | BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding | Jacob Devlin, et al. | arXiv | PDF
  • 2019 | Pre-Training with Whole Word Masking for Chinese BERT | Yiming Cui, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
BERT-Base base Google Drive Google Research github 通用
BERT-wwm base

Google Drive
讯飞云-07Xj

Google Drive Yiming Cui github 通用
BERT-wwm-ext base

Google Drive
讯飞云-4cMG

Google Drive Yiming Cui github 通用
bert-base-民事 base 阿里云 THUNLP github 司法
bert-base-刑事 base 阿里云 THUNLP github 司法
BAAI-JDAI-BERT base 京东云 JDAI github 电商客服对话
FinBERT base

Google Drive
百度网盘-1cmp

Google Drive
百度网盘-986f

Value Simplex github 金融科技领域
EduBERT base 好未来AI 好未来AI tal-tech github 教育领域
guwenbert-base base

百度网盘-4jng
huggingface

Ethan github 古文领域
guwenbert-large large

百度网盘-m5sz
huggingface

Ethan github 古文领域
BERT-CCPoem small thunlp THUNLP-AIPoet github 古典诗歌

备注:

wwm全称为**Whole Word Masking **,一个完整的词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask

ext表示在更多数据集下训练

[Back to Top]

ChineseBERT

  • 2021 | ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information | Zijun Sun, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
ChineseBERT base huggingface ShannonAI github 通用
ChineseBERT large huggingface ShannonAI github 通用

[Back to Top]

RoBERTa

  • 2019 | RoBERTa: A Robustly Optimized BERT Pretraining Approach | Yinhan Liu, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
RoBERTa-tiny-clue tiny Google Drive 百度网盘-8qvb CLUE github 通用
RoBERTa-tiny-pair tiny google drive 百度网盘-8qvb CLUE github 通用
RoBERTa-tiny3L768-clue tiny Google Drive CLUE github 通用
RoBERTa-tiny3L312-clue tiny google drive 百度网盘-8qvb CLUE github 通用
RoBERTa-large-pair large Google Drive 百度网盘-8qvb CLUE github 通用
RoBERTa-large-clue large google drive 百度网盘-8qvb CLUE github 通用
RBT3 3层base

Google Drive
讯飞云-b9nx

Google Drive Yiming Cui github 通用
RBTL3 3层large

Google Drive
讯飞云-vySW

Google Drive Yiming Cui github 通用
RBTL4 4层large 讯飞云-e8dN Yiming Cui github 通用
RBTL6 6层large 讯飞云-XNMA Yiming Cui github 通用
RoBERTa-wwm-ext base

Google Drive
讯飞云-Xe1p

Google Drive Yiming Cui github 通用
RoBERTa-wwm-ext-large large

Google Drive
讯飞云-u6gC

Google Drive Yiming Cui github 通用
RoBERTa-base base

Google Drive
百度网盘

Google Drive
百度网盘

brightmart github 通用
RoBERTa-Large large

Google Drive
百度网盘

Google Drive brightmart github 通用
RoBERTa-tiny tiny huggingface huggingface DBIIR @ RUC UER 通用
RoBERTa-mini mini huggingface huggingface DBIIR @ RUC UER 通用
RoBERTa-small small huggingface huggingface DBIIR @ RUC UER 通用
RoBERTa-medium medium huggingface huggingface DBIIR @ RUC UER 通用
RoBERTa-base base huggingface huggingface DBIIR @ RUC UER 通用

[Back to Top]

ALBERT

  • 2019 | ALBERT: A Lite BERT For Self-Supervised Learning Of Language Representations | Zhenzhong Lan, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
Albert_tiny tiny Google Drive Google Drive brightmart github 通用
Albert_base_zh base Google Drive Google Drive brightmart github 通用
Albert_large_zh large Google Drive Google Drive brightmart github 通用
Albert_xlarge_zh xlarge Google Drive Google Drive brightmart github 通用
Albert_base base Google Drive Google Research github 通用
Albert_large large Google Drive Google Research github 通用
Albert_xlarge xlarge Google Drive Google Research github 通用
Albert_xxlarge xxlarge Google Drive Google Research github 通用

[Back to Top]

NEZHA

  • 2019 | NEZHA: Neural Contextualized Representation for Chinese Language Understanding | Junqiu Wei, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
NEZHA-base base

Google Drive
百度网盘-ntn3

lonePatient HUAWEI github 通用
NEZHA-base-wwm base

Google Drive
百度网盘-f68o

lonePatient HUAWEI github 通用
NEZHA-large large

Google Drive
百度网盘-7thu

lonePatient HUAWEI github 通用
NEZHA-large-wwm large

Google Drive
百度网盘-ni4o

lonePatient HUAWEI github 通用

WoNEZHA
(word-base)

base 百度网盘-qgkq ZhuiyiTechnology github 通用

[Back to Top]

MacBERT

  • 2020 | Revisiting Pre-Trained Models for Chinese Natural Language Processing | Yiming Cui, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
MacBERT-base base

Google Drive
讯飞云-E2cP

Yiming Cui github 通用
MacBERT-large large

Google Drive
讯飞云-3Yg3

Yiming Cui github 通用

[Back to Top]

WoBERT

  • 2020 | 提速不掉点:基于词颗粒度的中文WoBERT | 苏剑林. | spaces | Blog post
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
WoBERT base 百度网盘-kim2 ZhuiyiTechnology github 通用
WoBERT-plus base 百度网盘-aedw ZhuiyiTechnology github 通用

[Back to Top]

XLNET

  • 2019 | XLNet: Generalized Autoregressive Pretraining for Language Understanding | Zhilin Yang, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
XLNet-base base

Google Drive
讯飞云-uCpe

Google Drive Yiming Cui github 通用
XLNet-mid middle

Google Drive
讯飞云-68En

Google Drive Yiming Cui github 通用
XLNet_zh_Large large 百度网盘 brightmart github 通用

[Back to Top]

ELECTRA

  • 2020 | ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators | Kevin Clark, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
ELECTRA-180g-large large

Google Drive
讯飞云-Yfcy

Yiming Cui github 通用
ELECTRA-180g-small-ex small

Google Drive
讯飞云-GUdp

Yiming Cui github 通用
ELECTRA-180g-base base

Google Drive
讯飞云-Xcvm

Yiming Cui github 通用
ELECTRA-180g-small small

Google Drive
讯飞云-qsHj

Yiming Cui github 通用
legal-ELECTRA-large large

Google Drive
讯飞云-7f7b

Yiming Cui github 司法领域
legal-ELECTRA-base base

Google Drive
讯飞云-7f7b

Yiming Cui github 司法领域
legal-ELECTRA-small small

Google Drive
讯飞云-7f7b

Yiming Cui github 司法领域
ELECTRA-tiny tiny

Google Drive
百度网盘-rs99

CLUE github 通用

[Back to Top]

ZEN

  • 2019 | ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations | Shizhe Diao, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
ZEN-Base base

Google Drive
百度网盘

Sinovation Ventures AI Institute github 通用
Erlangshen-ZEN2 large huggingface IDEA-CCNL github 通用

[Back to Top]

ERNIE

  • 2019 | ERNIE: Enhanced Representation through Knowledge Integration | Yu Sun, et al. | arXiv | PDF

  • 2020 | SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis | Hao Tian, et al. | arXiv | PDF

  • 2020 | ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling for Natural Language Understanding | Dongling Xiao, et al. | arXiv | PDF

模型 版本 PaddlePaddle PyTorch 作者 源地址 应用领域
ernie-1.0-base base link PaddlePaddle github 通用
ernie_1.0_skep_large large link Baidu github 情感分析
ernie-gram base link Baidu github 通用

备注:

PaddlePaddle转TensorFlow可参考: tensorflow_ernie

PaddlePaddle转PyTorch可参考: ERNIE-Pytorch

[Back to Top]

ERNIE3

  • 2021 | ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation | Yu Sun, et al. | arXiv | PDF

  • 2021 | ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation | Shuohuan Wang, et al. | arXiv | PDF

模型 版本 PaddlePaddle PyTorch 作者 源地址 应用领域
ernie-3.0-base 12-layer, 768-hidden, 12-heads link huggingface PaddlePaddle github 通用
ernie-3.0-medium 6-layer, 768-hidden, 12-heads link huggingface PaddlePaddle github 通用
ernie-3.0-mini 6-layer, 384-hidden, 12-heads link huggingface PaddlePaddle github 通用
ernie-3.0-micro 4-layer, 384-hidden, 12-heads link huggingface PaddlePaddle github 通用
ernie-3.0-nano 4-layer, 312-hidden, 12-heads link huggingface PaddlePaddle github 通用

PaddlePaddle转PyTorch可参考: ERNIE-Pytorch

[Back to Top]

RoFormer

  • 2021 | RoFormer: Enhanced Transformer with Rotary Position Embedding | Jianlin Su, et al. | arXiv | PDF

  • 2021 | Transformer升级之路:2、博采众长的旋转式位置编码 | 苏剑林. | spaces | Blog post

模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
roformer base(L12) 百度网盘-xy9x ZhuiyiTechnology github 通用
roformer small(L6) 百度网盘-gy97 ZhuiyiTechnology github 通用
roformer-char base(L12) 百度网盘-bt94 ZhuiyiTechnology github 通用
roformerV2 small(L6) 百度网盘-ttn4追一 ZhuiyiTechnology github 通用
roformerV2 base(L12) 百度网盘-pfoh追一 ZhuiyiTechnology github 通用
roformerV2 large(L24) 百度网盘-npfv追一 ZhuiyiTechnology github 通用

[Back to Top]

StructBERT

  • 2019 | StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding | Wei Wang, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
StructBERT large(L24) 阿里云 Alibaba github 通用

[Back to Top]

Lattice-BERT

  • 2021 | Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models | Yuxuan Lai, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
LatticeBERT tiny(L4) 阿里云 Alibaba github 通用
LatticeBERT small(L6) 阿里云 Alibaba github 通用
LatticeBERT base(L12) 阿里云 Alibaba github 通用

[Back to Top]

Mengzi-BERT

  • 2021 | Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese | Zhuosheng Zhang, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
Mengzi-BERT base(L12) huggingface Langboat github 通用
Mengzi-BERT-fin base(L12) huggingface Langboat github 金融财经

[Back to Top]

Bloom

  • 2022 | Bloom: BigScience Large Open-science Open-access Multilingual Language Model | huggingface bigscience | - | BLOG
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
bloom-6b4-zh 6B(L30) huggingface Langboat github 通用

注:作者另有bloom-389m-zh到bloom-2b5-zh等多个中文模型

[Back to Top]

TaCL

  • 2021 | TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning | Yixuan Su, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
TaCL base(L12) huggingface yxuansu github 通用

[Back to Top]

MC-BERT

  • 2021 | MC-BERT: Conceptualized Representation Learning for Chinese Biomedical Text Mining | alibaba-research | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
MC-BERT base(L12) link alibaba-research github 生物医疗

[Back to Top]

二郎神

模型 版本 类型 TensorFlow PyTorch 作者 源地址 应用领域
Erlangshen large(L24) bert huggingface IDEA-CCNL github 中文通用

[Back to Top]

PERT

  • 2022 | PERT: Pre-Training BERT with Permuted Language Model | Yiming Cui, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
PERT-base base(12L) 百度网盘-rcsw huggingface Yiming Cui github 通用
PERT-large large(24L) 百度网盘-e9hs huggingface Yiming Cui github 通用

[Back to Top]

MobileBERT

  • 2020 | MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices | Zhiqing Sun, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
Chinese-MobileBERT-base-f2 base 百度网盘-56bj Yiming Cui github 通用
Chinese-MobileBERT-base-f4 base 百度网盘-v2v7 Yiming Cui github 通用
Chinese-MobileBERT-large-f2 large 百度网盘-6m5a Yiming Cui github 通用
Chinese-MobileBERT-large-f4 large 百度网盘-3h9b Yiming Cui github 通用

[Back to Top]

GAU-α

  • 2022 | GAU-α: (FLASH) Transformer Quality in Linear Time | Weizhe Hua, et al. | arXiv | PDF | blog
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
chinese_GAU-alpha-char_L-24_H-768 base 下载 ZhuiyiTechnology github 通用

[Back to Top]

DeBERTa

  • 2020 | DeBERTa: Decoding-enhanced BERT with Disentangled Attention | Pengcheng He, et al. | arXiv | PDF |
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
DeBERTa-v2-Large large huggingface IDEA-CCNL github 通用
DeBERTa-v2-xLarge xlarge huggingface IDEA-CCNL github 通用
DeBERTa-v2 base huggingface IDEA-CCNL github 通用

[Back to Top]

GlyphBERT

  • 2021 | GlyphCRM: Bidirectional Encoder Representation for Chinese Character with its Glyph | Yuxin li, et al. | arXiv | PDF |
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
GlyphCRM-base base huggingface HITsz-TMG github 通用

[Back to Top]

CKBERT

  • 2022 | Revisiting and Advancing Chinese Natural Language Understanding with Accelerated Heterogeneous Knowledge Pre-training | Zhang, Taolin, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
pai-ckbert-base-zh base huggingface Alibaba github 通用
pai-ckbert-large-zh large huggingface Alibaba github 通用
pai-ckbert-huge-zh huge huggingface Alibaba github 通用

[Back to Top]

LERT

  • 2022 | LERT: A Linguistically-motivated Pre-trained Language Model | Yiming Cui et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
Chinese-LERT-small 15m 百度网盘-4vuy huggingface Yiming Cui github 通用
Chinese-LERT-base 400m 百度网盘-9jgi huggingface Yiming Cui github 通用
Chinese-LERT-large 1.2G 百度网盘-s82t huggingface Yiming Cui github 通用

[Back to Top]

RoCBert

  • 2022 | RoCBert: Robust Chinese Bert with Multimodal Contrastive Pretraining | Hui Su et al. | ACL | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
rocbert base huggingface Weiwe Shi github 通用

[Back to Top]

NLG系列

GPT

  • 2019 | Improving Language Understandingby Generative Pre-Training | Alec Radford, et al. | arXiv | PDF

  • 2019 | Language Models are Unsupervised Multitask Learners | Alec Radford, et al. | arXiv | PDF

模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
GPT2 30亿语料

Google Drive
百度网盘-ffz6

Caspar ZHANG gpt2-ml 通用
GPT2 15亿语料

Google Drive
百度网盘-q9vr

Caspar ZHANG gpt2-ml 通用
CDial-GPTLCCC-base base huggingface thu-coai CDial-GPT 中文对话
CDial-GPT2LCCC-base base huggingface thu-coai CDial-GPT 中文对话
CDial-GPTLCCC-large large huggingface thu-coai CDial-GPT 中文对话
GPT2-dialogue base

Google Drive
百度网盘-osi6

yangjianxin1 GPT2-chitchat 闲聊对话
GPT2-mmi base

Google Drive
百度网盘-1j88

yangjianxin1 GPT2-chitchat 闲聊对话
GPT2-散文模型 base

Google Drive
百度网盘-fpyu

Zeyao Du GPT2-Chinese 散文
GPT2-诗词模型 base

Google Drive
百度网盘-7fev

Zeyao Du GPT2-Chinese 诗词
GPT2-对联模型 base

Google Drive
百度网盘-i5n0

Zeyao Du GPT2-Chinese 对联
roformer-gpt base(L12) 百度网盘-2nnn ZhuiyiTechnology github 通用

[Back to Top]

GPT-3

  • 2019 | Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context | Zihang Dai, et al. | arXiv | PDF

  • 2020 | Language Models are Few-Shot Learners | Tom B. Brown, et al. | arXiv | PDF

模型 版本 介绍 PyTorch 作者 源地址 应用领域
Chinese-Transformer-XL 29亿参数(GPT-3) 项目首页 模型下载 THUDM github 通用

[Back to Top]

NEZHA-Gen

  • 2019 | NEZHA: Neural Contextualized Representation for Chinese Language Understanding | Junqiu Wei, et al. | arXiv | PDF

  • 2019 | Improving Language Understandingby Generative Pre-Training | Alec Radford, et al. | arXiv | PDF

模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
NEZHA-Gen base

Google Drive
百度网盘-rb5m

HUAWEI github 通用
NEZHA-Gen base

Google Drive
百度网盘-ytim

HUAWEI github 诗歌

[Back to Top]

CPM-Generate

  • 2020 | CPM: A Large-scale Generative Chinese Pre-trained Language Model | Zhengyan Zhang, et al. | arXiv | PDF
模型 版本 资源 PyTorch 作者 源地址 应用领域
CPM 26亿参数 项目首页 模型下载 Tsinghua AI github 通用

备注:

PyTorch转TensorFlow可参考: CPM-LM-TF2

PyTorch转PaddlePaddle可参考: CPM-Generate-Paddle

[Back to Top]

T5

  • 2019 | Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer | Colin Raffel, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
T5 small huggingface huggingface DBIIR @ RUC UER 通用

[Back to Top]

T5-PEGASUS

  • 2019 | Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer | Colin Raffel, et al. | arXiv | PDF

  • 2019 | PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization | Jingqing Zhang, et al. | arXiv | PDF

  • 2021 | T5 PEGASUS:开源一个中文生成式预训练模型 | 苏剑林. | spaces | Blog post

模型 版本 Keras PyTorch 作者 源地址 应用领域
T5 PEGASUS base 百度网盘-3sfn ZhuiyiTechnology github 通用
T5 PEGASUS small 百度网盘-qguk ZhuiyiTechnology github 通用

Keras转PyTorch可参考: t5-pegasus-pytorch

[Back to Top]

Mengzi-T5

  • 2021 | Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese | Zhuosheng Zhang, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
Mengzi-T5 base(L12) huggingface Langboat github 通用

[Back to Top]

PanGu-Alpha

  • 2021 | PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation | Wei Zeng, et al. | arXiv | PDF
模型 版本 资源 下载地址 作者 源地址 应用领域
盘古α-2.6B 2.6G 项目首页 模型下载 PCL-Platform.Intelligence github 通用
盘古α-13B 12G 项目首页 模型下载 PCL-Platform.Intelligence github 通用
盘古α-2.6B pytorch版本 2.6G 项目首页 模型下载 PCL-Platform.Intelligence github 通用
盘古α-13B pytorch版本 12G 项目首页 模型下载 PCL-Platform.Intelligence github 通用

[Back to Top]

EVA

  • 2021 | EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative Pre-Training | Hao Zhou, et al. | arXiv | PDF
模型 版本 介绍 模型下载 作者 源地址 应用领域 备注
EVA 28亿参数 项目首页 模型下载 thu-coai github 中文开放域对话 需要登陆才能下载
EVA2.0-xLarge xlarge 项目首页 huggingface thu-coai github 中文开放域对话
EVA2.0-large large 项目首页 huggingface thu-coai github 中文开放域对话
EVA2.0-base base 项目首页 huggingface thu-coai github 中文开放域对话

[Back to Top]

BART

  • 2019 | BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension | Mike Lewis, et al. | arxiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
BART-base base huggingface fastNLP github 中文通用
BART-large large huggingface fastNLP github 中文通用

[Back to Top]

闻仲

模型 版本 类型 TensorFlow PyTorch 作者 源地址 应用领域
Wenzhong large(L24) GPT2 huggingface IDEA-CCNL github 中文通用

[Back to Top]

余元

模型 版本 类型 TensorFlow PyTorch 作者 源地址 应用领域
Yuyuan large(L24) GPT2 huggingface IDEA-CCNL github 医学领域

[Back to Top]

RWKV

  • 2021 | An Attention Free Transformer | Shuangfei Zhai, et al. | arxiv | PDF
  • 2022 | The RWKV Language Model . | github
模型 版本 类型 TensorFlow PyTorch 作者 源地址 应用领域
RWKV base(L12) github PENG Bo github 小说
RWKV 7B huggingface PENG Bo github 小说
RWKV 14B huggingface PENG Bo github 小说

[Back to Top]

PromptCLUE

模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
PromptCLUE base(L12) huggingface ClueAI github 通用
PromptCLUE-v1-5 base(L12) huggingface ClueAI github 通用
PromptCLUE-large large API在线调用 ClueAI github 通用

[Back to Top]

ChatYuan

模型 版本 类型 TensorFlow PyTorch 作者 源地址 应用领域
ChatYuan large T5 huggingface ClueAI github 功能型对话
ChatYuan-large-v2 large T5 huggingface ClueAI github 功能型对话

[Back to Top]

SkyText

模型 版本 类型 TensorFlow PyTorch 作者 源地址 应用领域
SkyText large GPT3 huggingface SkyWorkAIGC github 通用

[Back to Top]

ProphetNet

  • 2020 | Prophetnet: Predicting future n-gram for sequence-to-sequence pre-training | Qi, Weizhen, et al. | arxiv | PDF
  • 2021 | ProphetNet-X: Large-Scale Pre-training Models for English, Chinese, Multi-lingual, Dialog, and Code Generation | Qi, Weizhen, et al. | arxiv | PDF
模型 版本 类型 TensorFlow PyTorch 作者 源地址 应用领域
ProphetNet-Zh link microsoft github 通用
ProphetNet-Dialog-Zh link microsoft github 对话

[Back to Top]

NLU-NLG系列

UniLM

  • 2019 | Unified Language Model Pre-training for Natural Language Understanding and Generation | Li Dong, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
Unilm base 百度网盘-tblr 百度网盘-etwf YunwenTechnology github 通用

[Back to Top]

Simbert

  • 2020 | 鱼与熊掌兼得:融合检索和生成的SimBERT模型 | 苏剑林. | spaces | Blog post
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
SimBERT Tiny tiny 百度网盘-1tp7 ZhuiyiTechnology github 通用
SimBERT Small small 百度网盘-nu67 ZhuiyiTechnology github 通用
SimBERT Base base 百度网盘-6xhq ZhuiyiTechnology github 通用

[Back to Top]

RoFormer-sim

  • 2021 | SimBERTv2来了!融合检索和生成的RoFormer-Sim模型 | 苏剑林. | spaces | Blog post
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
roformer-sim base(L12) 百度网盘-2cgz ZhuiyiTechnology github 通用
roformer-sim small(L6) 百度网盘-h68q ZhuiyiTechnology github 通用
roformer-sim-v2 base(L12) 百度网盘-w15n ZhuiyiTechnology github 通用

[Back to Top]

周文王

模型 版本 类型 TensorFlow PyTorch 作者 源地址 应用领域
Zhouwenwang base(L12) roformer huggingface IDEA-CCNL github 中文通用
Zhouwenwang large(L24) roformer huggingface IDEA-CCNL github 中文通用

[Back to Top]

CPM-2

  • 2021 | CPM-2: Large-scale Cost-effective Pre-trained Language Models | Zhengyan Zhang, et al. | arXiv | PDF
模型 版本 介绍 模型下载 作者 源地址 应用领域 备注
CPM-2 110亿参数 项目首页 模型下载 BAAI-WuDao github 通用 需要申请才能下载
CPM-2 100亿参数 项目首页 模型下载 BAAI-WuDao github 中英 需要申请才能下载
CPM-2 1980亿参数 项目首页 模型下载 BAAI-WuDao github 中英 需要申请才能下载

[Back to Top]

CPT

  • 2021 | CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation | Yunfan Shao, et al. | arxiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
CPT-base base(L12) huggingface fastNLP github 通用
CPT-large large(L24) huggingface fastNLP github 通用

[Back to Top]

GLM

  • 2022 | GLM: General Language Model Pretraining with Autoregressive Blank Infilling | Zhengxiao Du, et al. | arXiv | PDF
  • 2022 | GLM-130B: An Open Bilingual Pre-trained Model | Aohan Zeng, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
GLM large Huggingface THUDM github 通用
GLM xxlarge Huggingface THUDM github 通用
GLM-130B 130B 申请地址1申请地址2 THUDM github 通用

[Back to Top]

PLUG

  • 2019 | StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding | Wei Wang, et al. | arXiv | PDF
  • 2020 | PALM: Pre-training an Autoencoding&Autoregressive Language Model for Context-conditioned Generation | Bin Bi, et al. | ACL| PDF
模型 版本 模型下载 作者 源地址 应用领域
PLUG 27B AliceMind-需要申请 Alibaba github 通用

[Back to Top]

OPD

  • 2022 | 待定 | , et al. | arXiv | PDF
模型 版本 介绍 模型下载 作者 源地址 应用领域 备注
OPD 6.3B 项目首页 模型下载 thu-coai github 中文开放域对话 需要申请才能下载

[Back to Top]

Multi-Modal

WenLan

  • 2021 | WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training | Yuqi Huo, et al. | arXiv | PDF
模型 版本 介绍 模型下载 作者 源地址 应用领域 备注
BriVL(WenLan) 10亿参数 项目首页 模型下载 BAAI-WuDao github 中文通用图文 需要登陆才能下载

[Back to Top]

CogView

  • 2021 | CogView: Mastering Text-to-Image Generation via Transformers | Ming Ding, et al. | arXiv | PDF
模型 版本 介绍 模型下载 作者 源地址 应用领域 备注
CogView 40亿参数 项目首页 模型下载 THUDM github 中文多模态生成模型 需要登陆才能下载

[Back to Top]

紫东太初

模型 版本 介绍 模型下载 作者 源地址 应用领域 备注
紫东太初- light_vision_text 项目首页 模型下载 中科院自动化所 github 中文图像-文本领域 紫东太初多模态大模型中的图像-文本预训练模型
紫东太初-text[GPT] 32亿参数 项目首页 百度网盘-nos5 中科院自动化所 github 中文通用 紫东太初多模态大模型中的文本预训练模型
紫东太初-vision 项目首页 模型下载 中科院自动化所 github 视觉领域 紫东太初多模态大模型中的视觉预训练模型
紫东太初-speech 项目首页 模型下载 中科院自动化所 github 语音领域 紫东太初多模态大模型中的语音检测与识别多任务模型

[Back to Top]

Mengzi-oscar

  • 2021 | Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese | Zhuosheng Zhang, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
Mengzi-oscar base(L12) huggingface Langboat github 中文多模态-图文

[Back to Top]

R2D2

  • 2022 | Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework | Chunyu Xie, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 首页 应用领域
R2D2ViT-L large Google yuxie11 github zero 中文多模态-图文
PRD2ViT-L large Google yuxie11 github zero 中文多模态-图文

[Back to Top]

Chinese-CLIP

  • 2021 | Learning Transferable Visual Models From Natural Language Supervision | Alec Radford, et al. | arXiv | PDF
  • 2022 | Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese | An Yang, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
CN-CLIPRN50 77M aliyuncs OFA-Sys github 中文多模态-图文
CN-CLIPViT-B/16 188M aliyuncs OFA-Sys github 中文多模态-图文
CN-CLIPViT-L/14 406M aliyuncs OFA-Sys github 中文多模态-图文
CN-CLIPViT-L/14@336px 407M aliyuncs OFA-Sys github 中文多模态-图文
CN-CLIPViT-H/14 958M aliyuncs OFA-Sys github 中文多模态-图文

[Back to Top]

TaiYi-CLIP

  • 2021 | Learning Transferable Visual Models From Natural Language Supervision | Alec Radford, et al. | arXiv | PDF
  • 2022 | Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence | Junjie Wang, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
Taiyi-CLIP-Roberta-large-326M-Chinese base huggingface IDEA-CCNL github 中文多模态-图文

[Back to Top]

AltCLIP

  • 2022 | AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities | Chen, Zhongzhi, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
AltCLIP 3.22G huggingface FlagAI github 中文多模态-图文

[Back to Top]

AltDiffusion

  • 2022 | AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities | Chen, Zhongzhi, et al. | arXiv | PDF
  • 2022 | High-Resolution Image Synthesis With Latent Diffusion Models | Rombach, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
AltDiffusion 8.0G huggingface FlagAI github 中文多模态-图文

[Back to Top]

Taiyi-Stable-Diffusion

  • 2022 | Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence | Junjie Wang, et al. | arXiv | PDF
  • 2022 | High-Resolution Image Synthesis With Latent Diffusion Models | Rombach, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
Taiyi-Stable-Diffusion 1B huggingface IDEA-CCNL github 中文多模态-图文

[Back to Top]

wukong

  • 2022 | Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training Benchmark | Jiaxi Gu, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
CLIP url HUAWEI github 中文多模态-图文
FILIP url HUAWEI github 中文多模态-图文
wukong url HUAWEI github 中文多模态-图文

[Back to Top]

OFA

  • 2022 | OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework | Peng Wang, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
OFA link OFA-Sys github 中文多模态-图文
OFA-Chinese Huggingface Yang JianXin github 中文多模态-图文

[Back to Top]

Table

SDCUP

  • 2021 | Improving Text-to-SQL with Schema Dependency Learning | Binyuan Hui, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
sdcup base 阿里云 Alibaba github 中文表格
sdcup large 阿里云 Alibaba github 中文表格

[Back to Top]

LLM

大规模语言模型:表格中只罗列出参数量大于10B以上模型。

模型 大小 结构 语言 下载 机构 项目地址 时间 文献
flan-ul2 20B encoder-decoder 多语言 ckpt Google ul2 2023-03 paper
CPM-Bee 10B Decoder 中英文 待发布 OpenBMB CPM-Live 2023-01
BLOOM 176B Decoder 多语言 ckpt-95000 BigScience Megatron-DeepSpeed 2022-11 paper
BLOOMZ 176B Decoder 多语言 ckpt-498 BigScience Megatron-DeepSpeed 2022-11 paper
flan-t5-xxl 11B encoder-decoder 多语言 ckpt Google t5x 2022-11 paper
CPM-Ant+ 10B Decoder 中英文 ckpt OpenBMB CPM-Live 2022-10 blog
GLM 130B Decoder 中英文 申请下载 清华大学 GLM-130B 2022-10 paper
CPM-Ant 10B Decoder 中文 ckpt OpenBMB CPM-Live 2022-09 blog
GLM 10B Decoder 中文 ckpt 清华大学 GLM 2022-09 paper
CodeGeeX 13B Decoder 多语言code 申请下载 清华大学 CodeGeeX 2022-06 blog
源1.0 245B Decoder 中文 API申请 浪潮 Yian-1.0 2021-09 paper
CPM-2 11B encoder-decoder 中文 申请下载 智源研究院 CPM 2021-06 paper
CPM-2 10B encoder-decoder 中英文 申请下载 智源研究院 CPM 2021-06 paper
CPM-2 200B encoder-decoder,MOE 中英文 申请下载 智源研究院 CPM 2021-06 paper
PanGu-Alpha 13B Decoder 中文 ckpt 鹏城实验室 PanGu-Alpha 2021-05 paper
PanGu-Alpha 200B Decoder 中文 待发布 鹏城实验室 PanGu-Alpha 2021-05 paper
PLUG 27B encoder-decoder 中文 申请下载 阿里巴巴 AliceMind 2021-04
GPT-3 13B Decoder 中文 待发布 达摩院 GPT-3预训练生成模型 2021-04
GPT-3 30B Decoder 中文 待发布 达摩院 GPT-3预训练生成模型 2021-04

[Back to Top]

ChatLLM

具备问答和对话等功能的大型语言模型。

模型 大小 结构 语言 下载 机构/个人 项目地址 时间 文献 备注
Altay (阿勒泰羊) 65B Decoder 中文 待更新 香港科技大学 LMFlow 2023-04-01
Hetian (和田羊) 33B Decoder 中文 ckpt 香港科技大学 LMFlow 2023-04-01
Dongshan (东山羊) 13B Decoder 中文 ckpt 香港科技大学 LMFlow 2023-04-01
Hu (湖羊) 7B Decoder 中文 ckpt 香港科技大学 LMFlow 2023-04-01
ChatLLaMA 7B Decoder 多语言 ckpt Li Yudong Chinese-ChatLLaMA 2023-03
Chinese-Vicuna 13B Decoder 中文 ckpt Facico Chinese-Vicuna 2023-03
Chinese-Vicuna 7B Decoder 中文 ckpt Facico Chinese-Vicuna 2023-03
ChatYuan-V2 0.7B Encoder-Decder 中英文 ckpt 元语智能 ChatYuan 2023-03
Chinese-LLaMA-Alpaca 7B Decoder 中文 lora-ckpt Yiming Cui Chinese-LLaMA-Alpaca 2023-03 Chinese LLaMA model
Luotuo 7B Decoder 中文 ckpt 商汤科技&华中师范大学 Chinese-alpaca-lora 2023-03 Chinese LLaMA model
BELLE-LLAMA 7B Decoder 中英文 ckpt 贝壳 BELLE 2023-03
BELLE-BLOOM 7B Decoder 中英文 ckpt 贝壳 BELLE 2023-03 Bloom
ChatGLM-6B 6B Decoder 中英双语 ckpt 清华大学 ChatGLM-6B 2023-03
ChatRWKV 7B RNN 中/英文 ckpt BlinkDL ChatRWKV 2023-01 blog 中文小说

[Back to Top]

中文指令数据集

收集包含中文的指令数据集,用于微调语言模型。

模型 大小 语言 下载 作者 项目地址 备注
Zhihu-KOL / 中文 dataset Rui Wang Zhihu-KOL
InstructionWild 104k 中英文 dataset Xue Fuzhao InstructionWild
Alpaca-CoT /. 中英文 dataset Qingyi Si Alpaca-CoT 多个数据集汇总(有重叠)
GuanacoDataset / 中/多语言 dataset Guanaco guanaco-model
Traditional-Chinese-alpaca 52K 中文 dataset NTU NLP Lab Traditional-Chinese Alpaca gpt翻译
alpaca_chinese_dataset / 中文 dataset akou alpaca_chinese_dataset 人工校验
alpaca-chinese-dataset / 中文 dataset carbonz alpaca-chinese-dataset 机器翻译
generated_train_1M_CN 1M 中文 dataset Ke Technologies BELLE
generated_train_0.5M_CN 0.5M 中文 dataset Ke Technologies BELLE
HC3 人类-ChatGPT 问答 / 中文 dataset SimpleAI chatgpt-comparison-detection

[Back to Top]

开源模型库平台

  1. 🤗huggingface: The AI community building the future.
  1. ModelScope: ModelScope平台是以模型为中心的模型开源社区
  1. flagopen: flagopen飞智大模型技术开源体系

[Back to Top]

开源数据集库

  1. huggfaceing数据集仓库: https://huggingface.co/datasets
  • 包含了自然语言处理、计算机视觉、语音、多模态等数据集,内置100多个多语言公共数据集下载
  1. ModelScope数据集仓库:https://modelscope.cn/datasets
  • 提供了覆盖自然语言处理、计算机视觉、语音、多模态等数据集,更有阿里巴巴集团贡献的专业领域数据集,
  1. flagopen数据集仓库: https://data.baai.ac.cn/data
  • 内置公共数据集下载,可下200G大规模预训练语料WuDaoCorpora
  1. cluebenchmarks数据集仓库:https://www.cluebenchmarks.com/dataSet_search.html
  • 多个中英文NLP数据集,并可申请下载100GB的高质量中文预训练语料CLUECorpus2020
  1. MNBVC: Massive Never-ending BT Vast Chinese corpus
  • 超大规模中文语料集
  1. OpenDataLab数据集仓库: https://opendatalab.com/
  • OpenDataLab 是有影响力的数据开源开放平台,公开数据集触手可及。
  1. OSCAR: Open Super-large Crawled Aggregated coRpus, 多语言数据集
  • 最新版本包含1.4T的中文语言数据集

[Back to Top]

更新

[Back to Top]

Misc

↳ Stargazers

Stargazers repo roster for

↳ Forkers

Forkers repo roster for

↳ Star History

Star History Chart

Visitor Count

About

Awesome Pretrained Chinese NLP Models,高质量中文预训练模型集合

License:MIT License