zj360202 / awesome-pretrained-chinese-nlp-models

Awesome Pretrained Chinese NLP Models,高质量中文预训练模型集合

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Awesome Pretrained Chinese NLP ModelsAwesome

在自然语言处理领域中,预训练语言模型(Pretrained Language Models)已成为非常重要的基础技术,本仓库主要收集目前网上公开的一些高质量中文预训练模型(感谢分享资源的大佬),并将持续更新......

Expand Table of Contents

NLU系列

BERT

  • 2018 | BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding | Jacob Devlin, et al. | arXiv | PDF
  • 2019 | Pre-Training with Whole Word Masking for Chinese BERT | Yiming Cui, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
BERT-Base base Google Drive Google Research github 通用
BERT-wwm base

Google Drive
讯飞云-07Xj

Google Drive Yiming Cui github 通用
BERT-wwm-ext base

Google Drive
讯飞云-4cMG

Google Drive Yiming Cui github 通用
bert-base-民事 base 阿里云 THUNLP github 司法
bert-base-刑事 base 阿里云 THUNLP github 司法
BAAI-JDAI-BERT base 京东云 JDAI github 电商客服对话
FinBERT base

Google Drive
百度网盘-1cmp

Google Drive
百度网盘-986f

Value Simplex github 金融科技领域
EduBERT base 好未来AI 好未来AI tal-tech github 教育领域
guwenbert-base base

百度网盘-4jng
huggingface

Ethan github 古文领域
guwenbert-large large

百度网盘-m5sz
huggingface

Ethan github 古文领域
BERT-CCPoem small thunlp THUNLP-AIPoet github 古典诗歌

备注:

wwm全称为**Whole Word Masking **,一个完整的词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask

ext表示在更多数据集下训练

ChineseBERT

  • 2021 | ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information | Zijun Sun, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
ChineseBERT base huggingface ShannonAI github 通用
ChineseBERT large huggingface ShannonAI github 通用

RoBERTa

  • 2019 | RoBERTa: A Robustly Optimized BERT Pretraining Approach | Yinhan Liu, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
RoBERTa-tiny-clue tiny Google Drive 百度网盘-8qvb CLUE github 通用
RoBERTa-tiny-pair tiny google drive 百度网盘-8qvb CLUE github 通用
RoBERTa-tiny3L768-clue tiny Google Drive CLUE github 通用
RoBERTa-tiny3L312-clue tiny google drive 百度网盘-8qvb CLUE github 通用
RoBERTa-large-pair large Google Drive 百度网盘-8qvb CLUE github 通用
RoBERTa-large-clue large google drive 百度网盘-8qvb CLUE github 通用
RBT3 3层base

Google Drive
讯飞云-b9nx

Google Drive Yiming Cui github 通用
RBTL3 3层large

Google Drive
讯飞云-vySW

Google Drive Yiming Cui github 通用
RBTL4 4层large 讯飞云-e8dN Yiming Cui github 通用
RBTL6 6层large 讯飞云-XNMA Yiming Cui github 通用
RoBERTa-wwm-ext base

Google Drive
讯飞云-Xe1p

Google Drive Yiming Cui github 通用
RoBERTa-wwm-ext-large large

Google Drive
讯飞云-u6gC

Google Drive Yiming Cui github 通用
RoBERTa-base base

Google Drive
百度网盘

Google Drive
百度网盘

brightmart github 通用
RoBERTa-Large large

Google Drive
百度网盘

Google Drive brightmart github 通用
RoBERTa-tiny tiny huggingface huggingface DBIIR @ RUC UER 通用
RoBERTa-mini mini huggingface huggingface DBIIR @ RUC UER 通用
RoBERTa-small small huggingface huggingface DBIIR @ RUC UER 通用
RoBERTa-medium medium huggingface huggingface DBIIR @ RUC UER 通用
RoBERTa-base base huggingface huggingface DBIIR @ RUC UER 通用

ALBERT

  • 2019 | ALBERT: A Lite BERT For Self-Supervised Learning Of Language Representations | Zhenzhong Lan, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
Albert_tiny tiny Google Drive Google Drive brightmart github 通用
Albert_base_zh base Google Drive Google Drive brightmart github 通用
Albert_large_zh large Google Drive Google Drive brightmart github 通用
Albert_xlarge_zh xlarge Google Drive Google Drive brightmart github 通用
Albert_base base Google Drive Google Research github 通用
Albert_large large Google Drive Google Research github 通用
Albert_xlarge xlarge Google Drive Google Research github 通用
Albert_xxlarge xxlarge Google Drive Google Research github 通用

NEZHA

  • 2019 | NEZHA: Neural Contextualized Representation for Chinese Language Understanding | Junqiu Wei, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
NEZHA-base base

Google Drive
百度网盘-ntn3

lonePatient HUAWEI github 通用
NEZHA-base-wwm base

Google Drive
百度网盘-f68o

lonePatient HUAWEI github 通用
NEZHA-large large

Google Drive
百度网盘-7thu

lonePatient HUAWEI github 通用
NEZHA-large-wwm large

Google Drive
百度网盘-ni4o

lonePatient HUAWEI github 通用

WoNEZHA
(word-base)

base 百度网盘-qgkq ZhuiyiTechnology github 通用

MacBERT

  • 2020 | Revisiting Pre-Trained Models for Chinese Natural Language Processing | Yiming Cui, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
MacBERT-base base

Google Drive
讯飞云-E2cP

Yiming Cui github 通用
MacBERT-large large

Google Drive
讯飞云-3Yg3

Yiming Cui github 通用

WoBERT

  • 2020 | 提速不掉点:基于词颗粒度的中文WoBERT | 苏剑林. | spaces | Blog post
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
WoBERT base 百度网盘-kim2 ZhuiyiTechnology github 通用
WoBERT-plus base 百度网盘-aedw ZhuiyiTechnology github 通用

XLNET

  • 2019 | XLNet: Generalized Autoregressive Pretraining for Language Understanding | Zhilin Yang, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
XLNet-base base

Google Drive
讯飞云-uCpe

Google Drive Yiming Cui github 通用
XLNet-mid middle

Google Drive
讯飞云-68En

Google Drive Yiming Cui github 通用
XLNet_zh_Large large 百度网盘 brightmart github 通用

ELECTRA

  • 2020 | ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators | Kevin Clark, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
ELECTRA-180g-large large

Google Drive
讯飞云-Yfcy

Yiming Cui github 通用
ELECTRA-180g-small-ex small

Google Drive
讯飞云-GUdp

Yiming Cui github 通用
ELECTRA-180g-base base

Google Drive
讯飞云-Xcvm

Yiming Cui github 通用
ELECTRA-180g-small small

Google Drive
讯飞云-qsHj

Yiming Cui github 通用
legal-ELECTRA-large large

Google Drive
讯飞云-7f7b

Yiming Cui github 司法领域
legal-ELECTRA-base base

Google Drive
讯飞云-7f7b

Yiming Cui github 司法领域
legal-ELECTRA-small small

Google Drive
讯飞云-7f7b

Yiming Cui github 司法领域
ELECTRA-tiny tiny

Google Drive
百度网盘-rs99

CLUE github 通用

ZEN

  • 2019 | ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations | Shizhe Diao, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
ZEN-Base base

Google Drive
百度网盘

Sinovation Ventures AI Institute github 通用
Erlangshen-ZEN2 large huggingface IDEA-CCNL github 通用

ERNIE

  • 2019 | ERNIE: Enhanced Representation through Knowledge Integration | Yu Sun, et al. | arXiv | PDF

  • 2020 | SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis | Hao Tian, et al. | arXiv | PDF

  • 2020 | ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling for Natural Language Understanding | Dongling Xiao, et al. | arXiv | PDF

模型 版本 PaddlePaddle PyTorch 作者 源地址 应用领域
ernie-1.0-base base link PaddlePaddle github 通用
ernie_1.0_skep_large large link Baidu github 情感分析
ernie-gram base link Baidu github 通用

备注:

PaddlePaddle转TensorFlow可参考: tensorflow_ernie

PaddlePaddle转PyTorch可参考: ERNIE-Pytorch

ERNIE3

  • 2021 | ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation | Yu Sun, et al. | arXiv | PDF

  • 2021 | ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation | Shuohuan Wang, et al. | arXiv | PDF

模型 版本 PaddlePaddle PyTorch 作者 源地址 应用领域
ernie-3.0-base 12-layer, 768-hidden, 12-heads link huggingface PaddlePaddle github 通用
ernie-3.0-medium 6-layer, 768-hidden, 12-heads link huggingface PaddlePaddle github 通用
ernie-3.0-mini 6-layer, 384-hidden, 12-heads link huggingface PaddlePaddle github 通用
ernie-3.0-micro 4-layer, 384-hidden, 12-heads link huggingface PaddlePaddle github 通用
ernie-3.0-nano 4-layer, 312-hidden, 12-heads link huggingface PaddlePaddle github 通用

PaddlePaddle转PyTorch可参考: ERNIE-Pytorch

RoFormer

  • 2021 | RoFormer: Enhanced Transformer with Rotary Position Embedding | Jianlin Su, et al. | arXiv | PDF

  • 2021 | Transformer升级之路:2、博采众长的旋转式位置编码 | 苏剑林. | spaces | Blog post

模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
roformer base(L12) 百度网盘-xy9x ZhuiyiTechnology github 通用
roformer small(L6) 百度网盘-gy97 ZhuiyiTechnology github 通用
roformer-char base(L12) 百度网盘-bt94 ZhuiyiTechnology github 通用
roformerV2 small(L6) 百度网盘-ttn4追一 ZhuiyiTechnology github 通用
roformerV2 base(L12) 百度网盘-pfoh追一 ZhuiyiTechnology github 通用
roformerV2 large(L24) 百度网盘-npfv追一 ZhuiyiTechnology github 通用

StructBERT

  • 2019 | StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding | Wei Wang, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
StructBERT large(L24) 阿里云 Alibaba github 通用

Lattice-BERT

  • 2021 | Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models | Yuxuan Lai, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
LatticeBERT tiny(L4) 阿里云 Alibaba github 通用
LatticeBERT small(L6) 阿里云 Alibaba github 通用
LatticeBERT base(L12) 阿里云 Alibaba github 通用

Mengzi-BERT

  • 2021 | Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese | Zhuosheng Zhang, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
Mengzi-BERT base(L12) huggingface Langboat github 通用
Mengzi-BERT-fin base(L12) huggingface Langboat github 金融财经

Bloom

  • 2022 | Bloom: BigScience Large Open-science Open-access Multilingual Language Model | huggingface bigscience | - | BLOG
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
bloom-6b4-zh 6B(L30) huggingface Langboat (作者另有bloom-389m-zh到bloom-2b5-zh等多个中文模型) github 通用

TaCL

  • 2021 | TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning | Yixuan Su, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
TaCL base(L12) huggingface yxuansu github 通用

MC-BERT

  • 2021 | MC-BERT: Conceptualized Representation Learning for Chinese Biomedical Text Mining | alibaba-research | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
MC-BERT base(L12) link alibaba-research github 生物医疗

二郎神

模型 版本 类型 TensorFlow PyTorch 作者 源地址 应用领域
Erlangshen large(L24) bert huggingface IDEA-CCNL github 中文通用

PERT

  • 2022 | PERT: Pre-Training BERT with Permuted Language Model | Yiming Cui, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
PERT-base base(12L) 百度网盘-rcsw huggingface Yiming Cui github 通用
PERT-large large(24L) 百度网盘-e9hs huggingface Yiming Cui github 通用

MobileBERT

  • 2020 | MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices | Zhiqing Sun, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
Chinese-MobileBERT-base-f2 base 百度网盘-56bj Yiming Cui github 通用
Chinese-MobileBERT-base-f4 base 百度网盘-v2v7 Yiming Cui github 通用
Chinese-MobileBERT-large-f2 large 百度网盘-6m5a Yiming Cui github 通用
Chinese-MobileBERT-large-f4 large 百度网盘-3h9b Yiming Cui github 通用

GAU-α

  • 2022 | GAU-α: (FLASH) Transformer Quality in Linear Time | Weizhe Hua, et al. | arXiv | PDF | blog
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
chinese_GAU-alpha-char_L-24_H-768 base 下载 ZhuiyiTechnology github 通用

DeBERTa

  • 2020 | DeBERTa: Decoding-enhanced BERT with Disentangled Attention | Pengcheng He, et al. | arXiv | PDF |
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
DeBERTa-v2-Large large huggingface IDEA-CCNL github 通用
DeBERTa-v2-xLarge xlarge huggingface IDEA-CCNL github 通用
DeBERTa-v2 base huggingface IDEA-CCNL github 通用

GlyphBERT

  • 2021 | GlyphCRM: Bidirectional Encoder Representation for Chinese Character with its Glyph | Yuxin li, et al. | arXiv | PDF |
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
GlyphCRM-base base huggingface HITsz-TMG github 通用

CKBERT

  • 2022 | Revisiting and Advancing Chinese Natural Language Understanding with Accelerated Heterogeneous Knowledge Pre-training | Zhang, Taolin, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
pai-ckbert-base-zh base huggingface Alibaba github 通用
pai-ckbert-large-zh large huggingface Alibaba github 通用
pai-ckbert-huge-zh huge huggingface Alibaba github 通用

LERT

  • 2022 | LERT: A Linguistically-motivated Pre-trained Language Model | Yiming Cui et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
Chinese-LERT-small 15m 百度网盘-4vuy huggingface Yiming Cui github 通用
Chinese-LERT-base 400m 百度网盘-9jgi huggingface Yiming Cui github 通用
Chinese-LERT-large 1.2G 百度网盘-s82t huggingface Yiming Cui github 通用

RoCBert

  • 2022 | RoCBert: Robust Chinese Bert with Multimodal Contrastive Pretraining | Hui Su et al. | ACL | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
rocbert base huggingface Weiwe Shi github 通用

NLG系列

GPT

  • 2019 | Improving Language Understandingby Generative Pre-Training | Alec Radford, et al. | arXiv | PDF

  • 2019 | Language Models are Unsupervised Multitask Learners | Alec Radford, et al. | arXiv | PDF

模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
GPT2 30亿语料

Google Drive
百度网盘-ffz6

Caspar ZHANG gpt2-ml 通用
GPT2 15亿语料

Google Drive
百度网盘-q9vr

Caspar ZHANG gpt2-ml 通用
CDial-GPTLCCC-base base huggingface thu-coai CDial-GPT 中文对话
CDial-GPT2LCCC-base base huggingface thu-coai CDial-GPT 中文对话
CDial-GPTLCCC-large large huggingface thu-coai CDial-GPT 中文对话
GPT2-dialogue base

Google Drive
百度网盘-osi6

yangjianxin1 GPT2-chitchat 闲聊对话
GPT2-mmi base

Google Drive
百度网盘-1j88

yangjianxin1 GPT2-chitchat 闲聊对话
GPT2-散文模型 base

Google Drive
百度网盘-fpyu

Zeyao Du GPT2-Chinese 散文
GPT2-诗词模型 base

Google Drive
百度网盘-7fev

Zeyao Du GPT2-Chinese 诗词
GPT2-对联模型 base

Google Drive
百度网盘-i5n0

Zeyao Du GPT2-Chinese 对联
roformer-gpt base(L12) 百度网盘-2nnn ZhuiyiTechnology github 通用

GPT-3

  • 2019 | Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context | Zihang Dai, et al. | arXiv | PDF

  • 2020 | Language Models are Few-Shot Learners | Tom B. Brown, et al. | arXiv | PDF

模型 版本 介绍 PyTorch 作者 源地址 应用领域
Chinese-Transformer-XL 29亿参数(GPT-3) 项目首页 模型下载 THUDM github 通用

NEZHA-Gen

  • 2019 | NEZHA: Neural Contextualized Representation for Chinese Language Understanding | Junqiu Wei, et al. | arXiv | PDF

  • 2019 | Improving Language Understandingby Generative Pre-Training | Alec Radford, et al. | arXiv | PDF

模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
NEZHA-Gen base

Google Drive
百度网盘-rb5m

HUAWEI github 通用
NEZHA-Gen base

Google Drive
百度网盘-ytim

HUAWEI github 诗歌

CPM-Generate

  • 2020 | CPM: A Large-scale Generative Chinese Pre-trained Language Model | Zhengyan Zhang, et al. | arXiv | PDF
模型 版本 资源 PyTorch 作者 源地址 应用领域
CPM 26亿参数 项目首页 模型下载 Tsinghua AI github 通用

备注:

PyTorch转TensorFlow可参考: CPM-LM-TF2

PyTorch转PaddlePaddle可参考: CPM-Generate-Paddle

T5

  • 2019 | Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer | Colin Raffel, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
T5 small huggingface huggingface DBIIR @ RUC UER 通用

T5-PEGASUS

  • 2019 | Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer | Colin Raffel, et al. | arXiv | PDF

  • 2019 | PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization | Jingqing Zhang, et al. | arXiv | PDF

  • 2021 | T5 PEGASUS:开源一个中文生成式预训练模型 | 苏剑林. | spaces | Blog post

模型 版本 Keras PyTorch 作者 源地址 应用领域
T5 PEGASUS base 百度网盘-3sfn ZhuiyiTechnology github 通用
T5 PEGASUS small 百度网盘-qguk ZhuiyiTechnology github 通用

Keras转PyTorch可参考: t5-pegasus-pytorch

Mengzi-T5

  • 2021 | Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese | Zhuosheng Zhang, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
Mengzi-T5 base(L12) huggingface Langboat github 通用

PanGu-Alpha

  • 2021 | PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation | Wei Zeng, et al. | arXiv | PDF
模型 版本 资源 下载地址 作者 源地址 应用领域
盘古α-2.6B 2.6G 项目首页 模型下载 PCL-Platform.Intelligence github 通用
盘古α-13B 12G 项目首页 模型下载 PCL-Platform.Intelligence github 通用
盘古α-2.6B pytorch版本 2.6G 项目首页 模型下载 PCL-Platform.Intelligence github 通用
盘古α-13B pytorch版本 12G 项目首页 模型下载 PCL-Platform.Intelligence github 通用

EVA

  • 2021 | EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative Pre-Training | Hao Zhou, et al. | arXiv | PDF
模型 版本 介绍 模型下载 作者 源地址 应用领域 备注
EVA 28亿参数 项目首页 模型下载 thu-coai github 中文开放域对话 需要登陆才能下载
EVA2.0-xLarge xlarge 项目首页 huggingface thu-coai github 中文开放域对话
EVA2.0-large large 项目首页 huggingface thu-coai github 中文开放域对话
EVA2.0-base base 项目首页 huggingface thu-coai github 中文开放域对话

BART

  • 2019 | BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension | Mike Lewis, et al. | arxiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
BART-base base huggingface fastNLP github 中文通用
BART-large large huggingface fastNLP github 中文通用

闻仲

模型 版本 类型 TensorFlow PyTorch 作者 源地址 应用领域
Wenzhong large(L24) GPT2 huggingface IDEA-CCNL github 中文通用

余元

模型 版本 类型 TensorFlow PyTorch 作者 源地址 应用领域
Yuyuan large(L24) GPT2 huggingface IDEA-CCNL github 医学领域

RWKV

  • 2021 | An Attention Free Transformer | Shuangfei Zhai, et al. | arxiv | PDF
  • 2022 | The RWKV Language Model . | github
模型 版本 类型 TensorFlow PyTorch 作者 源地址 应用领域
RWKV base(L12) github PENG Bo github 小说
RWKV 7B huggingface PENG Bo github 小说
RWKV 14B huggingface PENG Bo github 小说

PromptCLUE

模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
PromptCLUE base(L12) huggingface ClueAI github 通用
PromptCLUE-v1-5 base(L12) huggingface ClueAI github 通用
PromptCLUE-large large API在线调用 ClueAI github 通用

ChatYuan

模型 版本 类型 TensorFlow PyTorch 作者 源地址 应用领域
ChatYuan large T5 huggingface ClueAI github 元语功能型对话

SkyText

模型 版本 类型 TensorFlow PyTorch 作者 源地址 应用领域
SkyText large GPT3 huggingface SkyWorkAIGC github 通用

ProphetNet

  • 2020 | Prophetnet: Predicting future n-gram for sequence-to-sequence pre-training | Qi, Weizhen, et al. | arxiv | PDF
  • 2021 | ProphetNet-X: Large-Scale Pre-training Models for English, Chinese, Multi-lingual, Dialog, and Code Generation | Qi, Weizhen, et al. | arxiv | PDF
模型 版本 类型 TensorFlow PyTorch 作者 源地址 应用领域
ProphetNet-Zh link microsoft github 通用
ProphetNet-Dialog-Zh link microsoft github 对话

NLU-NLG系列

UniLM

  • 2019 | Unified Language Model Pre-training for Natural Language Understanding and Generation | Li Dong, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
Unilm base 百度网盘-tblr 百度网盘-etwf YunwenTechnology github 通用

Simbert

  • 2020 | 鱼与熊掌兼得:融合检索和生成的SimBERT模型 | 苏剑林. | spaces | Blog post
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
SimBERT Tiny tiny 百度网盘-1tp7 ZhuiyiTechnology github 通用
SimBERT Small small 百度网盘-nu67 ZhuiyiTechnology github 通用
SimBERT Base base 百度网盘-6xhq ZhuiyiTechnology github 通用

RoFormer-sim

  • 2021 | SimBERTv2来了!融合检索和生成的RoFormer-Sim模型 | 苏剑林. | spaces | Blog post
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
roformer-sim base(L12) 百度网盘-2cgz ZhuiyiTechnology github 通用
roformer-sim small(L6) 百度网盘-h68q ZhuiyiTechnology github 通用
roformer-sim-v2 base(L12) 百度网盘-w15n ZhuiyiTechnology github 通用

周文王

模型 版本 类型 TensorFlow PyTorch 作者 源地址 应用领域
Zhouwenwang base(L12) roformer huggingface IDEA-CCNL github 中文通用
Zhouwenwang large(L24) roformer huggingface IDEA-CCNL github 中文通用

CPM-2

  • 2021 | CPM-2: Large-scale Cost-effective Pre-trained Language Models | Zhengyan Zhang, et al. | arXiv | PDF
模型 版本 介绍 模型下载 作者 源地址 应用领域 备注
CPM-2 110亿参数 项目首页 模型下载 BAAI-WuDao github 通用 需要申请才能下载
CPM-2 100亿参数 项目首页 模型下载 BAAI-WuDao github 中英 需要申请才能下载
CPM-2 1980亿参数 项目首页 模型下载 BAAI-WuDao github 中英 需要申请才能下载

CPT

  • 2021 | CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation | Yunfan Shao, et al. | arxiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
CPT-base base(L12) huggingface fastNLP github 通用
CPT-large large(L24) huggingface fastNLP github 通用

GLM

  • 2022 | GLM: General Language Model Pretraining with Autoregressive Blank Infilling | Zhengxiao Du, et al. | arXiv | PDF
  • 2022 | GLM-130B: An Open Bilingual Pre-trained Model | Aohan Zeng, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
GLM large Huggingface THUDM github 通用
GLM xxlarge Huggingface THUDM github 通用
GLM-130B 130B 申请地址1申请地址2 THUDM github 通用

PLUG

  • 2019 | StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding | Wei Wang, et al. | arXiv | PDF
  • 2020 | PALM: Pre-training an Autoencoding&Autoregressive Language Model for Context-conditioned Generation | Bin Bi, et al. | ACL| PDF
模型 版本 模型下载 作者 源地址 应用领域
PLUG 27B AliceMind-需要申请 Alibaba github 通用

OPD

  • 2022 | 待定 | , et al. | arXiv | PDF
模型 版本 介绍 模型下载 作者 源地址 应用领域 备注
OPD 6.3B 项目首页 模型下载 thu-coai github 中文开放域对话 需要申请才能下载

Multi-Modal

WenLan

  • 2021 | WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training | Yuqi Huo, et al. | arXiv | PDF
模型 版本 介绍 模型下载 作者 源地址 应用领域 备注
BriVL(WenLan) 10亿参数 项目首页 模型下载 BAAI-WuDao github 中文通用图文 需要登陆才能下载

CogView

  • 2021 | CogView: Mastering Text-to-Image Generation via Transformers | Ming Ding, et al. | arXiv | PDF
模型 版本 介绍 模型下载 作者 源地址 应用领域 备注
CogView 40亿参数 项目首页 模型下载 THUDM github 中文多模态生成模型 需要登陆才能下载

紫东太初

模型 版本 介绍 模型下载 作者 源地址 应用领域 备注
紫东太初- light_vision_text 项目首页 模型下载 中科院自动化所 github 中文图像-文本领域 紫东太初多模态大模型中的图像-文本预训练模型
紫东太初-text[GPT] 32亿参数 项目首页 百度网盘-nos5 中科院自动化所 github 中文通用 紫东太初多模态大模型中的文本预训练模型
紫东太初-vision 项目首页 模型下载 中科院自动化所 github 视觉领域 紫东太初多模态大模型中的视觉预训练模型
紫东太初-speech 项目首页 模型下载 中科院自动化所 github 语音领域 紫东太初多模态大模型中的语音检测与识别多任务模型

Mengzi-oscar

  • 2021 | Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese | Zhuosheng Zhang, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
Mengzi-oscar base(L12) huggingface Langboat github 中文多模态-图文

R2D2

  • 2022 | Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework | Chunyu Xie, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 首页 应用领域
R2D2ViT-L large Google yuxie11 github zero 中文多模态-图文
PRD2ViT-L large Google yuxie11 github zero 中文多模态-图文

Chinese-CLIP

  • 2021 | Learning Transferable Visual Models From Natural Language Supervision | Alec Radford, et al. | arXiv | PDF
  • 2022 | Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese | An Yang, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
CN-CLIPRN50 77M aliyuncs OFA-Sys github 中文多模态-图文
CN-CLIPViT-B/16 188M aliyuncs OFA-Sys github 中文多模态-图文
CN-CLIPViT-L/14 406M aliyuncs OFA-Sys github 中文多模态-图文
CN-CLIPViT-L/14@336px 407M aliyuncs OFA-Sys github 中文多模态-图文
CN-CLIPViT-H/14 958M aliyuncs OFA-Sys github 中文多模态-图文

TaiYi-CLIP

  • 2021 | Learning Transferable Visual Models From Natural Language Supervision | Alec Radford, et al. | arXiv | PDF
  • 2022 | Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence | Junjie Wang, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
Taiyi-CLIP-Roberta-large-326M-Chinese base huggingface IDEA-CCNL github 中文多模态-图文

AltCLIP

  • 2022 | AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities | Chen, Zhongzhi, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
AltCLIP 3.22G huggingface FlagAI github 中文多模态-图文

AltDiffusion

  • 2022 | AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities | Chen, Zhongzhi, et al. | arXiv | PDF
  • 2022 | High-Resolution Image Synthesis With Latent Diffusion Models | Rombach, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
AltDiffusion 8.0G huggingface FlagAI github 中文多模态-图文

Taiyi-Stable-Diffusion

  • 2022 | Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence | Junjie Wang, et al. | arXiv | PDF
  • 2022 | High-Resolution Image Synthesis With Latent Diffusion Models | Rombach, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
Taiyi-Stable-Diffusion 1B huggingface IDEA-CCNL github 中文多模态-图文

wukong

  • 2022 | Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training Benchmark | Jiaxi Gu, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
CLIP url HUAWEI github 中文多模态-图文
FILIP url HUAWEI github 中文多模态-图文
wukong url HUAWEI github 中文多模态-图文

Table

SDCUP

  • 2021 | Improving Text-to-SQL with Schema Dependency Learning | Binyuan Hui, et al. | arXiv | PDF
模型 版本 TensorFlow PyTorch 作者 源地址 应用领域
sdcup base 阿里云 Alibaba github 中文表格
sdcup large 阿里云 Alibaba github 中文表格

LLM

大规模语言模型:表格中只罗列出参数量大于10B以上模型。

模型 大小 结构 语言 下载 机构 项目地址 时间 文献
flan-ul2 20B encoder-decoder 多语言 ckpt Google ul2 2023-03 paper
CPM-Bee 10B Decoder 中英文 待发布 OpenBMB CPM-Live 2023-01
BLOOM 176B Decoder 多语言 ckpt-95000 BigScience Megatron-DeepSpeed 2022-11 paper
BLOOMZ 176B Decoder 多语言 ckpt-498 BigScience Megatron-DeepSpeed 2022-11 paper
flan-t5-xxl 11B encoder-decoder 多语言 ckpt Google t5x 2022-11 paper
CPM-Ant+ 10B Decoder 中英文 ckpt OpenBMB CPM-Live 2022-10 blog
GLM 130B Decoder 中英文 申请下载 清华大学 GLM-130B 2022-10 paper
CPM-Ant 10B Decoder 中文 ckpt OpenBMB CPM-Live 2022-09 blog
GLM 10B Decoder 中文 ckpt 清华大学 GLM 2022-09 paper
CodeGeeX 13B Decoder 多语言code 申请下载 清华大学 CodeGeeX 2022-06 blog
源1.0 245B Decoder 中文 API申请 浪潮 Yian-1.0 2021-09 paper
CPM-2 11B encoder-decoder 中文 申请下载 智源研究院 CPM 2021-06 paper
CPM-2 10B encoder-decoder 中英文 申请下载 智源研究院 CPM 2021-06 paper
CPM-2 200B encoder-decoder,MOE 中英文 申请下载 智源研究院 CPM 2021-06 paper
PanGu-Alpha 13B Decoder 中文 ckpt 鹏城实验室 PanGu-Alpha 2021-05 paper
PanGu-Alpha 200B Decoder 中文 待发布 鹏城实验室 PanGu-Alpha 2021-05 paper
PLUG 27B encoder-decoder 中文 申请下载 阿里巴巴 AliceMind 2021-04
GPT-3 13B Decoder 中文 待发布 达摩院 GPT-3预训练生成模型 2021-04
GPT-3 30B Decoder 中文 待发布 达摩院 GPT-3预训练生成模型 2021-04

ChatLLM

具备问答和对话等功能的大型语言模型。

模型 大小 结构 语言 下载 机构 项目地址 时间 文献 备注
Luotuo 7B Decoder 中文 ckpt 商汤科技&华中师范大学 Chinese-alpaca-lora 2023-03 Chinese LLaMA model
BELLE 7B Decoder 中英文 ckpt 贝壳 BELLE 2023-03 Bloom
ChatGLM-6B 6B Decoder 中英双语 ckpt 清华大学 ChatGLM-6B 2023-03
ChatRWKV 7B RNN 中/英文 ckpt BlinkDL ChatRWKV 2023-01 blog 中文小说

中文指令数据集

收集包含中文的指令数据集,用于微调语言模型。

模型 大小 语言 下载 作者 项目地址 备注
GuanacoDataset / 中/多语言 dataset Guanaco guanaco-model
alpaca-chinese-dataset / 中文 dataset carbonz alpaca-chinese-dataset 机器翻译
generated_train_0.5M_CN 0.5M 中文 dataset Ke Technologies BELLE

开源模型库平台

  1. 🤗huggingface: The AI community building the future.
  1. ModelScope: ModelScope平台是以模型为中心的模型开源社区
  1. flagopen: flagopen飞智大模型技术开源体系

开源数据集库

  1. huggfaceing数据集仓库: https://huggingface.co/datasets
  • 包含了自然语言处理、计算机视觉、语音、多模态等数据集,内置100多个多语言公共数据集下载
  1. ModelScope数据集仓库:https://modelscope.cn/datasets
  • 提供了覆盖自然语言处理、计算机视觉、语音、多模态等数据集,更有阿里巴巴集团贡献的专业领域数据集,
  1. flagopen数据集仓库: https://data.baai.ac.cn/data
  • 内置公共数据集下载,可下200G大规模预训练语料WuDaoCorpora
  1. cluebenchmarks数据集仓库:https://www.cluebenchmarks.com/dataSet_search.html
  • 多个中英文NLP数据集,并可申请下载100GB的高质量中文预训练语料CLUECorpus2020
  1. MNBVC: Massive Never-ending BT Vast Chinese corpus
  • 超大规模中文语料集
  1. OpenDataLab数据集仓库: https://opendatalab.com/
  • OpenDataLab 是有影响力的数据开源开放平台,公开数据集触手可及。
  1. OSCAR: Open Super-large Crawled Aggregated coRpus, 多语言数据集
  • 最新版本包含1.4T的中文语言数据集

更新

Misc

↳ Stargazers

Stargazers repo roster for

↳ Forkers

Forkers repo roster for

↳ Star History

Star History Chart

About

Awesome Pretrained Chinese NLP Models,高质量中文预训练模型集合

License:MIT License