简体中文 | English
News
- [2021-10-12] PaddleNLP 2.1版本已发布!新增开箱即用的NLP任务能力、Prompt Tuning应用示例与生成任务的高性能推理!:tada:更多详细升级信息请查看Release Note。
- [2021-08-22]《千言:面向事实一致性的生成评测比赛》正式开赛啦🔥🔥🔥,欢迎大家踊跃报名!! PaddleNLP比赛基线地址。
简介
PaddleNLP是飞桨自然语言处理开发库,具备易用的文本领域API,多场景的应用示例、和高性能分布式训练三大特点,旨在提升开发者在文本领域的开发效率,并提供丰富的NLP应用示例。
-
易用的文本领域API
- 提供丰富的工业级预置任务能力Taskflow和全流程的文本领域API:支持丰富中文数据集加载的Dataset API;灵活高效地完成数据预处理的Data API;提供60+预训练模型的Transformer API等,可大幅提升NLP任务建模的效率。
-
多场景的应用示例
- 覆盖从学术到工业级的NLP应用示例,涵盖NLP基础技术、NLP核心技术、NLP系统应用以及相关拓展应用。全面基于飞桨核心框架2.0全新API体系开发,为开发提供飞桨框架在文本领域的最佳实践。
-
高性能分布式训练
- 基于飞桨核心框架领先的自动混合精度优化策略,结合分布式Fleet API,支持4D混合并行策略,可高效地完成超大规模参数的模型训练。
安装
环境依赖
- python >= 3.6
- paddlepaddle >= 2.1
pip安装
pip install --upgrade paddlenlp
更多关于PaddlePaddle和PaddleNLP安装的详细教程请查看Installation。
易用的文本领域API
Taskflow:开箱即用的工业级NLP能力
Taskflow旨在提供开箱即用的NLP预置任务能力,覆盖自然语言理解与生成两大场景,提供工业级的效果与极致的预测性能。
from paddlenlp import Taskflow
# 中文分词
seg = Taskflow("word_segmentation")
seg("第十四届全运会在西安举办")
>>> ['第十四届', '全运会', '在', '西安', '举办']
# 词性标注
tag = Taskflow("pos_tagging")
tag("第十四届全运会在西安举办")
>>> [('第十四届', 'm'), ('全运会', 'nz'), ('在', 'p'), ('西安', 'LOC'), ('举办', 'v')]
# 命名实体识别
ner = Taskflow("ner")
ner("《孤女》是2010年九州出版社出版的小说,作者是余兼羽")
>>> [('《', 'w'), ('孤女', '作品类_实体'), ('》', 'w'), ('是', '肯定词'), ('2010年', '时间类'), ('九州出版社', '组织机构类'), ('出版', '场景事件'), ('的', '助词'), ('小说', '作品类_概念'), (',', 'w'), ('作者', '人物类_概念'), ('是', '肯定词'), ('余兼羽', '人物类_实体')]
# 句法分析
ddp = Taskflow("dependency_parsing")
ddp("百度是一家高科技公司")
>>> [{'word': ['百度', '是', '一家', '高科技', '公司'], 'head': ['2', '0', '5', '5', '2'], 'deprel': ['SBV', 'HED', 'ATT', 'ATT', 'VOB']}]
# 情感分析
senta = Taskflow("sentiment_analysis")
senta("怀着十分激动的心情放映,可是看着看着发现,在放映完毕后,出现一集米老鼠的动画片")
>>> [{'text': '怀着十分激动的心情放映,可是看着看着发现,在放映完毕后,出现一集米老鼠的动画片', 'label': 'negative'}]
更多使用方法请参考Taskflow文档
Transformer API: 强大的预训练模型生态底座
覆盖22个网络结构和90余个预训练模型参数,既包括百度自研的预训练模型如ERNIE系列, PLATO, SKEP等,也涵盖业界主流的中文预训练模型如。欢迎开发者贡献更多预训练模型!🤗
from paddlenlp.transformers import *
ernie = ErnieModel.from_pretrained('ernie-1.0')
ernie_gram = ErnieGramModel.from_pretrained('ernie-gram-zh')
bert = BertModel.from_pretrained('bert-wwm-chinese')
albert = AlbertModel.from_pretrained('albert-chinese-tiny')
roberta = RobertaModel.from_pretrained('roberta-wwm-ext')
electra = ElectraModel.from_pretrained('chinese-electra-small')
gpt = GPTForPretraining.from_pretrained('gpt-cpm-large-cn')
对预训练模型应用范式如语义表示、文本分类、句对匹配、序列标注、问答等,提供统一的API体验。
import paddle
from paddlenlp.transformers import ErnieTokenizer, ErnieModel
tokenizer = ErnieTokenizer.from_pretrained('ernie-1.0')
text = tokenizer('自然语言处理')
# 语义表示
model = ErnieModel.from_pretrained('ernie-1.0')
sequence_output, pooled_output = model(input_ids=paddle.to_tensor([text['input_ids']]))
# 文本分类 & 句对匹配
model = ErnieForSequenceClassification.from_pretrained('ernie-1.0')
# 序列标注
model = ErnieForTokenClassification.from_pretrained('ernie-1.0')
# 问答
model = ErnieForQuestionAnswering.from_pretrained('ernie-1.0')
请参考Transformer API文档查看目前支持的预训练模型结构、参数和详细用法。
Dataset API: 丰富的中文数据集
Dataset API提供便捷、高效的数据集加载功能;内置千言数据集,提供丰富的面向自然语言理解与生成场景的中文数据集,为NLP研究人员提供一站式的科研体验。
from paddlenlp.datasets import load_dataset
train_ds, dev_ds, test_ds = load_dataset("chnsenticorp", splits=["train", "dev", "test"])
train_ds, dev_ds = load_dataset("lcqmc", splits=["train", "dev"])
可参考Dataset文档 查看更多数据集。
Embedding API: 一键加载预训练词向量
from paddlenlp.embeddings import TokenEmbedding
wordemb = TokenEmbedding("w2v.baidu_encyclopedia.target.word-word.dim300")
print(wordemb.cosine_sim("国王", "王后"))
>>> 0.63395125
wordemb.cosine_sim("艺术", "火车")
>>> 0.14792643
内置50+中文词向量,覆盖多种领域语料、如百科、新闻、微博等。更多使用方法请参考Embedding文档。
更多API使用文档
- Data API: 提供便捷高效的文本数据处理功能
- Metrics API: 提供NLP任务的评估指标,与飞桨高层API兼容。
更多的API示例与使用说明请查阅PaddleNLP官方文档
多场景的应用示例
PaddleNLP提供了多粒度、多场景的NLP应用示例,面向动态图模式和全新的API体系开发,更加简单易懂。 涵盖了NLP基础技术、NLP核心技术、NLP系统应用以及文本相关的拓展应用如模型压缩、与知识库结合的文本知识关联、与图结合的文本图学习等。
NLP 基础技术
任务 | 简介 |
---|---|
词向量 | 利用TokenEmbedding API 展示如何快速计算词之间语义距离和词的特征提取。 |
词法分析 | 基于BiGRU-CRF模型实现了分词、词性标注和命名实体识的联合训练任务。 |
语言模型 | 提供了基于RNNLM和Transformer-XL两种结构的语言模型,支持输入词序列计算其生成概率,可用于表示模型生成句子的流利程度。 |
语义解析⭐ | 语义解析Text-to-SQL任务是让机器自动让自然语言问题转换数据库可操作的SQL查询语句,是实现基于数据库自动问答的核心模块。 |
NLP 核心技术
文本分类 (Text Classification)
模型 | 简介 |
---|---|
RNN/CNN/GRU/LSTM | 实现了经典的RNN, CNN, GRU, LSTM等经典文本分类结构。 |
BiLSTM-Attention | 基于BiLSTM网络结构引入注意力机制提升文本分类效果。 |
BERT/ERNIE | 提供基于预训练模型的文本分类任务实现,包含训练、预测和推理部署的全流程应用。 |
文本匹配 (Text Matching)
模型 | 简介 |
---|---|
SimCSE🌟 | 基于论文SimCSE: Simple Contrastive Learning of Sentence Embeddings实现无监督语义匹配模型,无需标注数据仅利用无监督数据也能训练效果出众的语义匹配模型。 |
ERNIE-Gram w/ R-Drop | 提供基于ERNIE-Gram预训练模型结合R-Drop策略的问题匹配任在千言数据集上的基线代码。 |
SimNet | 百度自研的语义匹配框架,使用BOW、CNN、GRNN等核心网络作为表示层,在百度内搜索、推荐等多个应用场景得到广泛易用。 |
ERNIE | 基于ERNIE使用LCQMC数据完成中文句对匹配任务,提供了Pointwise和Pairwise两种类型学习方式。 |
Sentence-BERT | 提供基于Siamese双塔结构的文本匹配模型Sentence-BERT实现,可用于获取文本的向量化表示。 |
SimBERT | 提供SimBERT模型实现,用于获取文本的向量化表示。 |
文本生成 (Text Generation)
模型 | 简介 |
---|---|
Seq2Seq | 实现了经典的Seq2Seq with Attention的网络结构,并提供在自动对联的文本生成应用示例。 |
VAE-Seq2Seq | 在Seq2Seq框架基础上,加入VAE结构以实现更加多样化的文本生成。 |
ERNIE-GEN | ERNIE-GEN是百度NLP提出的基于多流(multi-flow)机制生成完整语义片段的预训练模型,基于该模型实现了提供了智能写诗的应用示例。 |
文本纠错 (Text Correction)
模型 | 简介 |
---|---|
ERNIE-CSC:star1: | ERNIE-CSC是基于ERNIE预训练模型融合了拼音特征的端到端中文拼写纠错模型,在SIGHAN数据集上取得SOTA的效果。 |
语义索引 (Semantic Indexing)
提供一套完整的语义索引开发流程,并提供了In-Batch Negative和Hardest Negatives两种策略,开发者可基于该示例实现一个轻量级的语义索引系统,更多信息请查看语义索引应用示例。
信息抽取 (Information Extraction)
任务 | 简介 |
---|---|
DuEE | 基于DuEE数据集,使用预训练模型的方式提供句子级和篇章级的事件抽取示例。 |
DuIE | 基于DuIE数据集,使用预训练模型的方式提供关系抽取示例。 |
快递单信息抽取 | 提供BiLSTM+CRF和预训练模型两种方式完成真实的快递单信息抽取案例。 |
NLP 系统应用
情感分析 (Sentiment Analysis)
模型 | 简介 |
---|---|
SKEP🌟 | SKEP是百度提出的基于情感知识增强的预训练算法,利用无监督挖掘的海量情感知识构建预训练目标,让模型更好理解情感语义,可为各类情感分析任务提供统一且强大的情感语义表示。 |
阅读理解 (Machine Reading Comprehension)
任务 | 简介 |
---|---|
SQuAD | 提供预训练模型在SQuAD 2.0数据集上微调的应用示例。 |
DuReader-yesno | 提供预训练模型在千言数据集DuReader-yesno上微调的应用示例。 |
DuReader-robust | 提供预训练模型在千言数据集DuReader-robust上微调的应用示例。 |
文本翻译 (Text Translation)
模型 | 简介 |
---|---|
Seq2Seq-Attn | 提供了Effective Approaches to Attention-based Neural Machine Translation基于注意力机制改进的Seq2Seq经典神经网络机器翻译模型实现。 |
Transformer | 提供了基于Attention Is All You Need论文的Transformer机器翻译实现,包含了完整的训练到推理部署的全流程实现。 |
同传翻译 (Simultaneous Translation)
模型 | 简介 |
---|---|
STACL ⭐ | STACL是百度自研的基于Prefix-to-Prefix框架的同传翻译模型,结合Wait-k策略可以在保持较高的翻译质量的同时实现任意字级别的翻译延迟,并提供了轻量级同声传译系统搭建教程。 |
对话系统 (Dialogue System)
模型 | 简介 |
---|---|
PLATO-2 | PLATO-2是百度自研领先的基于课程学习两阶段方式训练的开放域对话预训练模型。 |
PLATO-mini🌟 | 基于6层UnifiedTransformer预训练结构,结合海量中文对话语料数据预训练的轻量级中文闲聊对话模型。 |
拓展应用
文本知识关联 (Text to Knowledge)
🌟解语是由百度知识图谱部开发的文本知识关联框架,覆盖中文全词类的知识库和知识标注工具,能够帮助开发者面对更加多元的应用场景,方便地融合自有知识体系,显著提升中文文本解析和挖掘效果,还可以便捷地利用知识增强机器学习模型效果。
文本图学习 (Text Graph Learning)
模型 | 简介 |
---|---|
ERNIESage | 基于飞桨PGL图学习框架结合PaddleNLP Transformer API实现的文本与图结构融合的模型。 |
模型压缩 (Model Compression)
模型 | 简介 |
---|---|
MiniLMv2 🌟 | 基于MiniLMv2: Multi-Head Self-Attention Relation Distillation for Compressing Pretrained Transformers论文策略的实现,是一种通用蒸馏方法。本实例以bert-base-chinese 为教师模型,利用中文数据进行了通用蒸馏。 |
TinyBERT | 基于论文TinyBERT: Distilling BERT for Natural Language Understanding的实现,提供了通用蒸馏和下游任务蒸馏的脚本。本实例利用开源模型tinybert-6l-768d-v2 初始化,在GLUE的7个数据集上进行下游任务的蒸馏,最终模型参数量缩小1/2,预测速度提升2倍,同时保证模型精度几乎无损,其中精度可达教师模型bert-base-uncased 的 98.90%。 |
OFA-BERT 🌟 | 基于PaddleSlim Once-For-ALL(OFA)策略对BERT在GLUE任务的下游模型进行压缩,在精度无损的情况下可减少33%参数量,达到模型小型化的提速的效果。 |
Distill-LSTM | 基于Distilling Task-Specific Knowledge from BERT into Simple Neural Networks论文策略的实现,将BERT中英文分类的下游模型知识通过蒸馏的方式迁移至LSTM的小模型结构中,取得比LSTM单独训练更好的效果。 |
小样本学习 (Few-Shot Learning)
算法 | 简介 |
---|---|
PET | 基于Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference 论文策略实现, 基于人工知识设计 Prompt, 将下游目标任务转换为完形填空任务来充分挖掘预训练模型中的知识, 显著提升模型效果。 |
P-Tuning | 基于GPT Understands, Too 论文策略实现, 首次提出连续可学习的模板参数,在全参数空间对模板进行连续优化,大幅提升模型稳定性和模型效果。 |
EFL | 基于Entailment as Few-Shot Learner 论文策略实现,将下游目标任务转换为蕴含任务降低模型预测空间,显著提升模型效果。 |
交互式Notebook教程
- 使用Seq2Vec模块进行句子情感分类
- 如何通过预训练模型Fine-tune下游任务
- 使用BiGRU-CRF模型完成快递单信息抽取
- 使用预训练模型ERNIE优化快递单信息抽取
- 使用Seq2Seq模型完成自动对联
- 使用预训练模型ERNIE-GEN实现智能写诗
- 使用TCN网络完成新冠疫情病例数预测
更多教程参见PaddleNLP on AI Studio。
社区贡献与技术交流
特殊兴趣小组
- 欢迎您加入PaddleNLP的SIG社区,贡献优秀的模型实现、公开数据集、教程与案例等。
- 现在就加入PaddleNLP的QQ技术交流群,一起交流NLP技术吧!⬇️
版本更新
更多版本更新说明请查看ChangeLog
License
PaddleNLP遵循Apache-2.0开源协议。