wxbool / NLP

中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据、百度中文问答数据集、句子相似度匹配算法集合、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取工具、国内电话号码正则匹配、清华大学XLORE:中英文跨语言百科知识图谱、清华大学人工智能技术系列报

Home Page:https://zhuanlan.zhihu.com/yangyangfuture

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool


NLP民工的乐园

The Most Powerful NLP-Weapon Arsenal

NLP民工的乐园: 几乎最全的中文NLP资源库

在入门到熟悉NLP的过程中,用到了很多github上的包,遂整理了一下,分享在这里。

很多包非常有趣,值得收藏,满足大家的收集癖! 如果觉得有用,请分享并star:star:,谢谢!

长期不定时更新,欢迎watch和fork!:heart::heart::heart:

🍆 🍒 🍐 🍊                   🌻 🍓 🍈 🍅 🍍                    
* 语料库
* 词库及词法工具
* 预训练语言模型
* 抽取
* 知识图谱
* 文本生成
* 文本摘要
* 智能问答
* 文本纠错
* 文档处理
* 表格处理
* 文本匹配
* 文本数据增强
* 文本检索
* 阅读理解
* 情感分析
* 常用正则表达式
* 语音处理
* 常用正则表达式
* 事件抽取
* 机器翻译
* 数字转换
* 指代消解
* 文本聚类
* 文本分类
* 知识推理
* 可解释NLP
* 文本对抗攻击
* 文本可视化
* 文本标注工具
* 综合工具
* 有趣搞笑工具
* 课程报告面试等
* 比赛
* 金融NLP
* 医疗NLP
* 法律NLP
* 文本生成图像
* 其他

语料库

资源名(Name) 描述(Description) 链接
人名语料库 wainshine/Chinese-Names-Corpus
Chinese-Word-Vectors 各种中文词向量 github repo
中文聊天语料 该库搜集了包含豆瓣多轮, PTT八卦语料, 青云语料, 电视剧对白语料, 贴吧论坛回帖语料,微博语料,小黄鸡语料 link
中文谣言数据 该数据文件中,每一行为一条json格式的谣言数据 github
中文问答数据集 链接 提取码 2dva
微信公众号语料 3G语料,包含部分网络抓取的微信公众号的文章,已经去除HTML,只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文 github
中文自然语言处理 语料、数据集 github
任务型对话英文数据集 【最全任务型对话数据集】主要介绍了一份任务型对话数据集大全,这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外,为了帮助研究者更好的把握领域进展的脉络,我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。 github
语音识别语料生成工具 从具有音频/字幕的在线视频创建自动语音识别(ASR)语料库 github
LitBankNLP数据集 支持自然语言处理和计算人文学科任务的100部带标记英文小说语料 github
中文ULMFiT 情感分析 文本分类 语料及模型 github
省市区镇行政区划数据带拼音标注 github
教育行业新闻 自动文摘 语料库 github
中文自然语言处理数据集 github
百度知道问答语料库 超过580万的问题,938万的答案,5800个分类标签。基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘 github
维基大规模平行文本语料 85种语言、1620种语言对、135M对照句 github
古诗词库 github repo
更全的古诗词库
低内存加载维基百科数据 用新版nlp库加载17GB+英文维基语料只占用9MB内存遍历速度2-3 Gbit/s github
对联数据 700,000 couplets, 超过70万对对联 github
《配色辞典》数据集 github
42GB的JD客服对话数据(CSDD) github
70万对联数据 link
用户名黑名单列表 github
依存句法分析语料 4万句高质量标注数据 Homepage
人民日报语料处理工具集 github
虚假新闻数据集 fake news corpus github
诗歌质量评价/细粒度情感诗歌语料库 github
中文自然语言处理相关的开放任务 数据集以及当前最佳结果 github
中文缩写数据集 github
中文任务基准测评 代表性的数据集-基准(预训练)模型-语料库-baseline-工具包-排行榜 github
中文谣言数据库 github
CLUEDatasetSearch 中英文NLP数据集搜索所有中文NLP数据集,附常用英文NLP数据集 github
多文档摘要数据集 github
让人人都变得“彬彬有礼”礼貌迁移任务 在保留意义的同时将非礼貌语句转换为礼貌语句,提供包含139M + 实例的数据集 paper and code
粤语/英语会话双语语料库 github
中文NLP数据集列表 github
类人名/地名/组织机构名的命名体识别数据集 github
中文语言理解测评基准 包括代表性的数据集&基准模型&语料库&排行榜 github
OpenCLaP多领域开源中文预训练语言模型仓库 民事文书、刑事文书、百度百科 github
中文全词覆盖BERT及两份阅读理解数据 DRCD数据集:由****台达研究院发布,其形式与SQuAD相同,是基于繁体中文的抽取式阅读理解数据集。
CMRC 2018数据集:哈工大讯飞联合实验室发布的中文机器阅读理解数据。根据给定问题,系统需要从篇章中抽取出片段作为答案,形式与SQuAD相同。
github
Dakshina数据集 十二种南亚语言的拉丁/本地文字平行数据集合 github
OPUS-100 以英文为中心的多语(100种)平行语料 github
中文阅读理解数据集 github
中文自然语言处理向量合集 github
中文语言理解测评基准 包括代表性的数据集、基准(预训练)模型、语料库、排行榜 github
NLP数据集/基准任务大列表 github
LitBankNLP数据集 支持自然语言处理和计算人文学科任务的100部带标记英文小说语料 github
70万对联数据 github
文言文(古文)-现代文平行语料 短篇章中包括了《论语》、《孟子》、《左传》等篇幅较短的古籍,已和《资治通鉴》合并 github
COLDDateset,中文冒犯性语言检测数据集 涵盖了种族、性别和地区等话题内容,数据待论文发表后放出 paper

词库及词法工具

资源名(Name) 描述(Description) 链接
textfilter 中英文敏感词过滤 observerss/textfilter
人名抽取功能 中文(现代、古代)名字、日文名字、中文的姓和名、称呼(大姨妈、小姨妈等)、英文->中文名字(李约翰)、成语词典 cocoNLP
中文缩写库 全国人大: 全国 人民 代表大会; **: 中华人民共和国;女网赛: 女子/n 网球/n 比赛/vn github
汉语拆字词典 漢字 拆法 (一) 拆法 (二) 拆法 (三) 拆 手 斥 扌 斥 才 斥 kfcd/chaizi
词汇情感值 山泉水:0.400704566541
充沛: 0.37006739587
rainarch/SentiBridge
中文词库、停用词、敏感词 dongxiexidian/Chinese
python-pinyin 汉字转拼音 mozillazg/python-pinyin
zhtools 中文繁简体互转 skydark/nstools
英文模拟中文发音引擎 say wo i ni #说:我爱你 tinyfool/ChineseWithEnglish
chinese_dictionary 同义词库、反义词库、否定词库 guotong1988/chinese_dictionary
wordninja 无空格英文串分割、抽取单词 wordninja
汽车品牌、汽车零件相关词汇 data
THU整理的词库 IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库 link
罪名法务名词及分类模型 包含856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能 github
分词语料库+代码 百度网盘链接 - 提取码 pea6
基于Bi-LSTM + CRF的中文分词+词性标注 keras实现 link
基于Universal Transformer + CRF 的中文分词和词性标注 link
快速神经网络分词包 java version
chinese-xinhua 中华新华字典数据库及api,包括常用歇后语、成语、词语和汉字 github
SpaCy 中文模型 包含Parser, NER, 语法树等功能。有一些英文package使用spacy的英文模型的,如果要适配中文,可能需要使用spacy中文模型。 github
中文字符数据 github
Synonyms中文近义词工具包 github
HarvestText 领域自适应文本挖掘工具(新词发现-情感分析-实体链接等) github
word2word 方便易用的多语言词-词对集62种语言/3,564个多语言对 github
多音字词典数据及代码 github
汉字、词语、成语查询接口 github
103976个英语单词库包 (sql版,csv版,Excel版) github
英文脏话大列表 github
词语拼音数据 github
186种语言的数字叫法库 github
世界各国大规模人名库 github
汉字字符特征提取器 (featurizer) 提取汉字的特征(发音特征、字形特征)用做深度学习的特征 github
char_featurizer - 汉字字符特征提取工具 github
中日韩分词库mecab的Python接口库 github
g2pC基于上下文的汉语读音自动标记模块 github
ssc, Sound Shape Code 音形码 - 基于“音形码”的中文字符串相似度计算方法 version 1
version 2
blog/introduction
基于百科知识库的中文词语多词义/义项获取与特定句子词语语义消歧 github
Tokenizer快速、可定制的文本词条化库 github
Tokenizers 注重性能与多功能性的最先进分词器 github
通过同义词替换实现文本“变脸” github
token2index与PyTorch/Tensorflow兼容的强大轻量词条索引库 github
繁简体转换 github
粤语NLP工具 github
领域词典库 涵盖68个领域、共计916万词的专业词典知识库 github

预训练语言模型&大模型

资源名(Name) 描述(Description) 链接
BMList 大模型大列表 github
bert论文中文翻译 link
bert原作者的slides link
文本分类实践 github
bert tutorial文本分类教程 github
bert pytorch实现 github
bert pytorch实现 github
BERT生成句向量,BERT做文本分类、文本相似度计算 github
bert、ELMO的图解 github
BERT Pre-trained models and downstream applications github
语言/知识表示工具BERT & ERNIE github
Kashgari中使用gpt-2语言模型 github
Facebook LAMA 用于分析预训练语言模型中包含的事实和常识知识的探针。语言模型分析,提供Transformer-XL/BERT/ELMo/GPT预训练语言模型的统一访问接口 github
中文的GPT2训练代码 github
XLMFacebook的跨语言预训练语言模型 github
海量中文预训练ALBERT模型 github
Transformers 20 支持TensorFlow 20 和 PyTorch 的自然语言处理预训练语言模型(BERT, GPT-2, RoBERTa, XLM, DistilBert, XLNet…) 8种架构/33种预训练模型/102种语言 github
8篇论文梳理BERT相关模型进展与反思 github
法文RoBERTa预训练语言模型 用138GB语料训练的法文RoBERTa预训练语言模型 link
中文预训练 ELECTREA 模型 基于对抗学习 pretrain Chinese Model github
albert-chinese-ner 用预训练语言模型ALBERT做中文NER github
开源预训练语言模型合集 github
中文ELECTRA预训练模型 github
用Transformers(BERT, XLNet, Bart, Electra, Roberta, XLM-Roberta)预测下一个词(模型比较) github
TensorFlow Hub 40+种语言的新语言模型(包括中文) link
UER 基于不同语料、编码器、目标任务的中文预训练模型仓库(包括BERT、GPT、ELMO等) github
开源预训练语言模型合集 github
多语言句向量包 github
Language Model as a Service (LMaaS) 语言模型即服务 github
开源语言模型GPT-NeoX-20B 200亿参数,是目前最大的可公开访问的预训练通用自回归语言模型 github
中文科学文献数据集(CSL) 包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)。CSL 数据集可以作为预训练语料,也可以构建许多NLP任务,例如文本摘要(标题预测)、 关键词生成和文本分类等。 github
大模型开发神器 github

抽取

资源名(Name) 描述(Description) 链接
时间抽取 已集成到 python package cocoNLP中,欢迎试用 java version
python version
神经网络关系抽取 pytorch 暂不支持中文 github
基于bert的命名实体识别 pytorch 暂不支持中文 github
关键词(Keyphrase)抽取包 pke github
BLINK最先进的实体链接库 github
BERT/CRF实现的命名实体识别 github
支持批并行的LatticeLSTM中文命名实体识别 github
构建医疗实体识别的模型 包含词典和语料标注,基于python github
基于TensorFlow和BERT的管道式实体及关系抽取 - Entity and Relation Extraction Based on TensorFlow and BERT 基于TensorFlow和BERT的管道式实体及关系抽取,2019语言与智能技术竞赛信息抽取任务解决方案。Schema based Knowledge Extraction, SKE 2019 github
中文命名实体识别NeuroNER vs BertNER github
基于BERT的中文命名实体识别 github
中文关键短语抽取工具 github
bert 用于中文命名实体识别 tensorflow版本 github
bert-Kashgari 基于 keras 的封装分类标注框架 Kashgari,几分钟即可搭建一个分类或者序列标注模型 github
cocoNLP 人名、地址、邮箱、手机号、手机归属地 等信息的抽取,rake短语抽取算法。 github
Microsoft多语言数字/单位/如日期时间识别包 github
百度开源的基准信息抽取系统 github
中文地址分词(地址元素识别与抽取),通过序列标注进行NER github
基于依存句法的开放域文本知识三元组抽取和知识库构建 github
基于预训练模型的中文关键词抽取方法 github
chinese_keyphrase_extractor (CKPE) A tool for chinese keyphrase extraction 一个快速从自然语言文本中提取和识别关键短语的工具 github
简单的简历解析器,用来从简历中提取关键信息 github
BERT-NER-Pytorch三种不同模式的BERT中文NER实验 github

知识图谱

资源名(Name) 描述(Description) 链接
清华大学XLORE中英文跨语言百科知识图谱 百度、中文维基、英文维基 link
文档图谱自动生成 github
基于医疗领域知识图谱的问答系统 github
该repo参考了github
中文人物关系知识图谱项目 github
AmpliGraph 知识图谱表示学习(Python)库知识图谱概念链接预测 github
中文知识图谱资料、数据及工具 github
基于百度百科的中文知识图谱 抽取三元组信息,构建中文知识图谱 github
Zincbase 知识图谱构建工具包 github
基于知识图谱的问答系统 github
知识图谱深度学习相关资料整理 github
东南大学《知识图谱》研究生课程(资料) github
知识图谱车音工作项目 github
《海贼王》知识图谱 github
132个知识图谱的数据集 涵盖常识、城市、金融、农业、地理、气象、社交、物联网、医疗、娱乐、生活、商业、出行、科教 link
大规模、结构化、中英文双语的新冠知识图谱(COKG-19) link
基于依存句法与语义角色标注的事件三元组抽取 github
抽象知识图谱 目前规模50万,支持名词性实体、状态性描述、事件性动作进行抽象 github
大规模中文知识图谱数据14亿实体 github
Jiagu自然语言处理工具 以BiLSTM等模型为基础,提供知识图谱关系抽取 中文分词 词性标注 命名实体识别 情感分析 新词发现 关键词 文本摘要 文本聚类等功能 github
medical_NER - 中文医学知识图谱命名实体识别 github
知识图谱相关学习资料/数据集/工具资源大列表 github
LibKGE面向可复现研究的知识图谱嵌入库 github
基于mongodb存储的军事领域知识图谱问答项目 包括飞行器、太空装备等8大类,100余小类,共计5800项的军事武器知识库,该项目不使用图数据库进行存储,通过jieba进行问句解析,问句实体项识别,基于查询模板完成多类问题的查询,主要是提供一种工业界的问答**demo。 github
京东商品知识图谱 github
基于远监督的中文关系抽取 github
基于医药知识图谱的智能问答系统 github
BLINK最先进的实体链接库 github
一个小型的证券知识图谱/知识库 github
dstlr非结构化文本可扩展知识图谱构建平台 github
百度百科人物词条属性抽取 用基于BERT的微调和特征提取方法来进行知识图谱 github
新冠肺炎相关数据 新冠及其他类型肺炎中文医疗对话数据集;清华大学等机构的开放数据源(COVID-19) github
github
DGL-KE 图嵌入表示学习算法 github
因果关系图谱 method data
基于多领域文本数据集的因果事件对 link

文本生成

资源名(Name) 描述(Description) 链接
Texar Toolkit for Text Generation and Beyond github
Ehud Reiter教授的博客 link 北大万小军教授强力推荐,该博客对NLG技术、评价与应用进行了深入的探讨与反思。
文本生成相关资源大列表 github
开放域对话生成及在微软小冰中的实践 自然语言生成让机器掌握自动创作的本领 link
文本生成控制 github
自然语言生成相关资源大列表 github
用BLEURT评价自然语言生成 link
自动对联数据及机器人 代码 link
70万对联数据
自动生成评论 用Transformer编解码模型实现的根据Hacker News文章标题生成评论 github
自然语言生成SQL语句(英文) github
自然语言生成资源大全 github
中文生成任务基准测评 github
基于GPT2的特定主题文本生成/文本增广 github
编码、标记和实现一种可控高效的文本生成方法 github
TextFooler针对文本分类/推理的对抗文本生成模块 github
SimBERT 基于UniLM**、融检索与生成于一体的BERT模型 github
新词生成及造句 不存在的词用GPT-2变体从头生成新词及其定义、例句 github
由文本自动生成多项选择题 github
合成数据生成基准 github

文本摘要

资源名(Name) 描述(Description) 链接
中文文本摘要/关键词提取 github
基于命名实体识别的简历自动摘要 github
文本自动摘要库TextTeaser 仅支持英文 github
基于BERT等最新语言模型的抽取式摘要提取 github
Python利用深度学习进行文本摘要的综合指南 link
(Colab)抽象文本摘要实现集锦(教程 github

智能问答

资源名(Name) 描述(Description) 链接
中文聊天机器人 根据自己的语料训练出自己想要的聊天机器人,可以用于智能客服、在线问答、智能聊天等场景 github
有趣的情趣robot qingyun qingyun 训练出来的中文聊天机器人 github
开放了对话机器人、知识图谱、语义理解、自然语言处理工具及数据 github
qa对的机器人 Amodel-for-Retrivalchatbot - 客服机器人,Chinese Retreival chatbot(中文检索式机器人) git
ConvLab开源多域端到端对话系统平台 github
基于最新版本rasa搭建的对话系统 github
基于金融-司法领域(兼有闲聊性质)的聊天机器人 github
端到端的封闭域对话系统 github
MiningZhiDaoQACorpus 580万百度知道问答数据挖掘项目,百度知道问答语料库,包括超过580万的问题,每个问题带有问题标签。基于该问答语料库,可支持多种应用,如逻辑挖掘 github
用于中文闲聊的GPT2模型GPT2-chitchat github
基于检索聊天机器人多轮响应选择相关资源列表(Leaderboards、Datasets、Papers) github
微软对话机器人框架 github
chatbot-list 行业内关于智能客服、聊天机器人的应用和架构、算法分享和介绍 github
Chinese medical dialogue data 中文医疗对话数据集 github
一个大规模医疗对话数据集 包含110万医学咨询,400万条医患对话 github
大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ paper & data
开源对话式信息搜索平台 github
情境互动多模态对话挑战2020(DSTC9 2020) github
用Quora问题对训练的T5问题意译(Paraphrase) github
Google发布Taskmaster-2自然语言任务对话数据集 github
Haystack灵活、强大的可扩展问答(QA)框架 github
端到端的封闭域对话系统 github
Amazon发布基于知识的人-人开放领域对话数据集 github
基于百度webqa与dureader数据集训练的Albert Large QA模型 github
CommonsenseQA面向常识的英文QA挑战 link
MedQuAD(英文)医学问答数据集 github
基于Albert、Electra,用维基百科文本作为上下文的问答引擎 github
基于14W歌曲知识库的问答尝试 功能包括歌词接龙,已知歌词找歌曲以及歌曲歌手歌词三角关系的问答 github

文本纠错

资源名(Name) 描述(Description) 链接
中文文本纠错模块代码 github
英文拼写检查库 github
python拼写检查库 github
GitHub Typo Corpus大规模GitHub多语言拼写错误/语法错误数据集 github
BertPunc基于BERT的最先进标点修复模型 github
中文写作校对工具 github
文本纠错文献列表 Chinese Spell Checking (CSC) and Grammatical Error Correction (GEC) github
文本智能校对大赛冠军方案 已落地应用,来自苏州大学、达摩院团队 link

多模态

资源名(Name) 描述(Description) 链接
中文多模态数据集「悟空」 华为诺亚方舟实验室开源大型,包含1亿图文对 github
中文图文表征预训练模型Chinese-CLIP 中文版本CLIP预训练模型,开源多个模型规模,几行代码搞定中文图文表征提取 & 图文检索 github

语音处理

资源名(Name) 描述(Description) 链接
ASR 语音数据集 + 基于深度学习的中文语音识别系统 github
清华大学THCHS30中文语音数据集 data_thchs30tgz-OpenSLR国内镜像
data_thchs30tgz
test-noisetgz-OpenSLR国内镜像test-noisetgz
resourcetgz-OpenSLR国内镜像
resourcetgz
Free ST Chinese Mandarin Corpus
Free ST Chinese Mandarin Corpus
AIShell-1 开源版数据集-OpenSLR国内镜像
AIShell-1 开源版数据集
Primewords Chinese Corpus Set 1-OpenSLR国内镜像
Primewords Chinese Corpus Set 1
笑声检测器 github
Common Voice语音识别数据集新版 包括来自42,000名贡献者超过1,400小时的语音样本,涵github link
speech-aligner 从“人声语音”及其“语言文本”,产生音素级别时间对齐标注的工具 github
ASR语音大辞典/词典 github
语音情感分析 github
masr 中文语音识别,提供预训练模型,高识别率 github
面向语音识别的中文文本规范化 github
语音质量评价指标(MOSNet, BSSEval, STOI, PESQ, SRMR) github
面向语音识别的中文/英文发音辞典 github
CoVoSTFacebook发布的多语种语音-文本翻译语料库 包括11种语言(法语、德语、荷兰语、俄语、西班牙语、意大利语、土耳其语、波斯语、瑞典语、蒙古语和中文)的语音、文字转录及英文译文 github
Parakeet基于PaddlePaddle的文本-语音合成 github
(Java)准确的语音自然语言检测库 github
CoVoSTFacebook发布的多语种语音-文本翻译语料库 github
TensorFlow 2 实现的文本语音合成 github
Python音频特征提取包 github
ViSQOL音频质量感知客观、完整参考指标,分音频、语音两种模式 github
zhrtvc 好用的中文语音克隆兼中文语音合成系统 github
aukit 好用的语音处理工具箱,包含语音降噪、音频格式转换、特征频谱生成等模块 github
phkit 好用的音素处理工具箱,包含中文音素、英文音素、文本转拼音、文本正则化等模块 github
zhvoice 中文语音语料,语音更加清晰自然,包含8个开源数据集,3200个说话人,900小时语音,1300万字 github
audio面向语音行为检测 、二值化、说话人识别、自动语音识别、情感识别等任务的音频标注工具 github
深度学习情感文本语音合成 github
Python音频数据增广库 github
基于大规模音频数据集Audioset的音频增强 github
语声迁移 github

文档处理

资源名(Name) 描述(Description) 链接
LayoutLM-v3文档理解模型 github
PyLaia面向手写文档分析的深度学习工具包 github
单文档非监督的关键词抽取 github
DocSearch免费文档搜索引擎 github
fdfgen 能够自动创建pdf文档,并填写信息 link
pdfx 自动抽取出引用参考文献,并下载对应的pdf文件 link
invoice2data 发票pdf信息抽取 invoice2data
pdf文档信息抽取 github
PDFMiner PDFMiner能获取页面中文本的准确位置,以及字体或行等其他信息。它还有一个PDF转换器,可以将PDF文件转换成其他文本格式(如HTML)。还有一个可扩展的解析器PDF,可以用于文本分析以外的其他用途。 link
PyPDF2 PyPDF 2是一个python PDF库,能够分割、合并、裁剪和转换PDF文件的页面。它还可以向PDF文件中添加自定义数据、查看选项和密码。它可以从PDF检索文本和元数据,还可以将整个文件合并在一起。 link
PyPDF2 PyPDF 2是一个python PDF库,能够分割、合并、裁剪和转换PDF文件的页面。它还可以向PDF文件中添加自定义数据、查看选项和密码。它可以从PDF检索文本和元数据,还可以将整个文件合并在一起。 link
ReportLab ReportLab能快速创建PDF 文档。经过时间证明的、超好用的开源项目,用于创建复杂的、数据驱动的PDF文档和自定义矢量图形。它是免费的,开源的,用Python编写的。该软件包每月下载5万多次,是标准Linux发行版的一部分,嵌入到许多产品中,并被选中为Wikipedia的打印/导出功能提供动力。 link
SIMPdfPython写的简单PDF文件文字编辑器 github
pdf-diff PDF文件diff工具 可显示两个pdf文档的差别 github

表格处理

资源名(Name) 描述(Description) 链接
用unet实现对文档表格的自动检测,表格重建 github
pdftabextract 用于OCR识别后的表格信息解析,很强大 link
tabula-py 直接将pdf中的表格信息转换为pandas的dataframe,有java和python两种版本代码
camelot pdf表格解析 link
pdfplumber pdf表格解析
PubLayNet 能够划分段落、识别表格、图片 link
从论文中提取表格数据 github
用BERT在表格中寻找答案 github
表格问答的系列文章 简介
模型
完结篇
使用GAN生成表格数据(仅支持英文) github
carefree-learn(PyTorch) 表格数据集自动化机器学习(AutoML)包 github
封闭域微调表格检测 github
PDF表格数据提取工具 github
TaBERT理解表格数据查询的新模型 paper
表格处理 Awesome-Table-Recognition github

文本匹配

资源名(Name) 描述(Description) 链接
句子、QA相似度匹配MatchZoo 文本相似度匹配算法的集合,包含多个深度学习的方法,值得尝试。 github
中文问题句子相似度计算比赛及方案汇总 github
similarity相似度计算工具包 java编写,用于词语、短语、句子、词法分析、情感分析、语义分析等相关的相似度计算 github
中文词语相似度计算方法 综合了同义词词林扩展版与知网(Hownet)的词语相似度计算方法,词汇覆盖更多、结果更准确。 gihtub
Python字符串相似性算法库 github
基于Siamese bilstm模型的相似句子判定模型,提供训练数据集和测试数据集 提供了10万个训练样本 github

文本数据增强

资源名(Name) 描述(Description) 链接
中文NLP数据增强(EDA)工具 github
英文NLP数据增强工具 github
一键中文数据增强工具 github
数据增强在机器翻译及其他nlp任务中的应用及效果 link
NLP数据增广资源集 github

常用正则表达式

资源名(Name) 描述(Description) 链接
抽取email的正则表达式 已集成到 python package cocoNLP中,欢迎试用
抽取phone_number 已集成到 python package cocoNLP中,欢迎试用
抽取身份证号的正则表达式 IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])
IDs = re.findall(IDCards_pattern, text, flags=0)
IP地址正则表达式 (25[0-5]| 2[0-4]\d| [0-1]\d{2}| [1-9]?\d).(25[0-5]| 2[0-4]\d| [0-1]\d{2}| [1-9]?\d).(25[0-5]| 2[0-4]\d| [0-1]\d{2}| [1-9]?\d).(25[0-5]| 2[0-4]\d| [0-1]\d{2}| [1-9]?\d)
腾讯QQ号正则表达式 [1-9]([0-9]{5,11})
国内固话号码正则表达式 [0-9-()()]{7,18}
用户名正则表达式 [A-Za-z0-9_-\u4e00-\u9fa5]+
国内电话号码正则匹配(三大运营商+虚拟等) github
正则表达式教程 github

文本检索

资源名(Name) 描述(Description) 链接
高效模糊搜索工具 github
面向各语种/任务的BERT模型大列表/搜索引擎 link
Deepmatch针对推荐、广告和搜索的深度匹配模型库 github
wwsearch是企业微信后台自研的全文检索引擎 github
aili - the fastest in-memory index in the East 东半球最快并发索引 github
高效的字符串匹配工具 RapidFuzz a fast string matching library for Python and C++, which is using the string similarity calculations from FuzzyWuzzy github

阅读理解

资源名(Name) 描述(Description) 链接
高效模糊搜索工具 github
面向各语种/任务的BERT模型大列表/搜索引擎 link
Deepmatch针对推荐、广告和搜索的深度匹配模型库 github
allennlp阅读理解支持多种数据和模 github

情感分析

资源名(Name) 描述(Description) 链接
方面情感分析包 github
awesome-nlp-sentiment-analysis 情感分析、情绪原因识别、评价对象和评价词抽取 github
情感分析技术让智能客服更懂人类情感 github

事件抽取

资源名(Name) 描述(Description) 链接
中文事件抽取 github
NLP事件提取文献资源列表 github
PyTorch实现的BERT事件抽取(ACE 2005 corpus) github
新闻事件线索抽取 github

机器翻译

资源名(Name) 描述(Description) 链接
无道词典 有道词典的命令行版本,支持英汉互查和在线查询 github
NLLB 支持200+种语言任意互译的语言模型NLLB link
Easy-Translate 在本地翻译大文本文件的脚本,基于Facebook/Meta AI的 M2M100模型和NLLB200模型,支持200+种语言 github

数字转换

资源名(Name) 描述(Description) 链接
最好的汉字数字(中文数字)-阿拉伯数字转换工具 github
快速转化「中文数字」和「阿拉伯数字」 github
将自然语言数字串解析转换为整数和浮点数 github

指代消解

资源名(Name) 描述(Description) 链接
中文指代消解数据 github
baidu ink code a0qq

文本聚类

资源名(Name) 描述(Description) 链接
TextCluster短文本聚类预处理模块 Short text cluster github

文本分类

资源名(Name) 描述(Description) 链接
NeuralNLP-NeuralClassifier腾讯开源深度学习文本分类工具 github

知识推理

资源名(Name) 描述(Description) 链接
GraphbrainAI开源软件库和科研工具,目的是促进自动意义提取和文本理解以及知识的探索和推断 github
(哈佛)讲因果推理的免费书 pdf

可解释自然语言处理

资源名(Name) 描述(Description) 链接
文本机器学习模型最先进解释器库 github

文本攻击

资源名(Name) 描述(Description) 链接
TextAttack自然语言处理模型对抗性攻击框架 github
OpenBackdoor: 文本后门攻防工具包 OpenBackdoor基于Python和PyTorch开发,可用于复现、评估和开发文本后门攻防的相关算法 github

文本可视化

资源名(Name) 描述(Description) 链接
Scattertext 文本可视化(python) github
whatlies词向量交互可视化 spacy工具
PySS3面向可解释AI的SS3文本分类器机器可视化工具 github
用记事本渲染3D图像 github
attnvisGPT2、BERT等transformer语言模型注意力交互可视化 github
Texthero文本数据高效处理包 包括预处理、关键词提取、命名实体识别、向量空间分析、文本可视化等 github

文本标注工具

资源名(Name) 描述(Description) 链接
NLP标注平台综述 github
brat rapid annotation tool 序列标注工具 link
Poplar网页版自然语言标注工具 github
LIDA轻量交互式对话标注工具 github
doccano基于网页的开源协同多语言文本标注工具 github
Datasaurai 在线数据标注工作流管理工具 link

语言检测

资源名(Name) 描述(Description) 链接
langid 97种语言检测 https://github.com/saffsd/langid.py
langdetect 语言检测 https://code.google.com/archive/p/language-detection/

综合工具

资源名(Name) 描述(Description) 链接
jieba jieba
hanlp hanlp
nlp4han 中文自然语言处理工具集(断句/分词/词性标注/组块/句法分析/语义分析/NER/N元语法/HMM/代词消解/情感分析/拼写检 github
仇恨言论检测进展 link
基于Pytorch的Bert应用 包括命名实体识别、情感分析、文本分类以及文本相似度等 github
nlp4han中文自然语言处理工具集 断句/分词/词性标注/组块/句法分析/语义分析/NER/N元语法/HMM/代词消解/情感分析/拼写检查 github
一些关于自然语言的基本模型 github
用BERT进行序列标记和文本分类的模板代码 github
jieba_fast 加速版的jieba github
StanfordNLP 纯Python版自然语言处理包 link
Python口语自然语言处理工具集(英文) github
PreNLP自然语言预处理库 github
nlp相关的一些论文及代码 包括主题模型、词向量(Word Embedding)、命名实体识别(NER)、文本分类(Text Classificatin)、文本生成(Text Generation)、文本相似性(Text Similarity)计算等,涉及到各种与nlp相关的算法,基于keras和tensorflow github
Python文本挖掘/NLP实战示例 github
Forte灵活强大的自然语言处理pipeline工具集 github
stanza斯坦福团队NLP工具 可处理六十多种语言 github
Fancy-NLP用于建设商品画像的文本知识挖掘工具 github
全面简便的中文 NLP 工具包 github
工业界常用基于DSSM向量化召回pipeline复现 github
Texthero文本数据高效处理包 包括预处理、关键词提取、命名实体识别、向量空间分析、文本可视化等 github
nlpgnn图神经网络自然语言处理工具箱 github
Macadam 以Tensorflow(Keras)和bert4keras为基础,专注于文本分类、序列标注和关系抽取的自然语言处理工具包 github
LineFlow面向所有深度学习框架的NLP数据高效加载器 github
Arabica:Python文本数据探索性分析工具包 github
Python 压力测试工具:SMSBoom github

有趣搞笑工具

资源名(Name) 描述(Description) 链接
汪峰歌词生成器 phunterlau/wangfeng-rnn
女友 情感波动分析 github
NLP太难了系列 github
变量命名神器 github link
图片文字去除,可用于漫画翻译 github
CoupletAI - 对联生成 基于CNN+Bi-LSTM+Attention 的自动对对联系统 github
用神经网络符号推理求解复杂数学方程 github
基于14W歌曲知识库的问答机器人 功能包括歌词接龙,已知歌词找歌曲以及歌曲歌手歌词三角关系的问答 github
COPE - 格律诗编辑程序 github
Paper2GUI 一款面向普通人的AI桌面APP工具箱,免安装即开即用,已支持18+AI模型,内容涵盖语音合成、视频补帧、视频超分、目标检测、图片风格化、OCR识别等领域 github
礼貌程度估算器(使用新浪微博数据训练) github paper
草蟒(Python 中文版)入门指南 中文编程语言 homepage gitee

课程报告面试等

资源名(Name) 描述(Description) 链接
自然语言处理报告 link
知识图谱报告 link
数据挖掘报告 link
自动驾驶报告 link
机器翻译报告 link
区块链报告 link
机器人报告 link
计算机图形学报告 link
3D打印报告 link
人脸识别报告 link
人工智能芯片报告 link
cs224n深度学习自然语言处理课程 link 课程中模型的pytorch实现 link
面向深度学习研究人员的自然语言处理实例教程 github
《Natural Language Processing》by Jacob Eisenstein github
ML-NLP 机器学习(Machine Learning)、NLP面试中常考到的知识点和代码实现 github
NLP任务示例项目代码集 github
2019年NLP亮点回顾 download
nlp-recipes微软出品--自然语言处理最佳实践和范例 github
面向深度学习研究人员的自然语言处理实例教程 github
Transfer Learning in Natural Language Processing (NLP) youtube
《机器学习系统》图书 link github

比赛

资源名(Name) 描述(Description) 链接
复盘所有NLP比赛的TOP方案 github
2019年百度的三元组抽取比赛,“科学空间队”源码(第7名) github

金融自然语言处理

资源名(Name) 描述(Description) 链接
BDCI2019金融负面信息判定 github
开源的金融投资数据提取工具 github
金融领域自然语言处理研究资源大列表 github
基于金融-司法领域(兼有闲聊性质)的聊天机器人 github
小型金融知识图谱构流程示范 github

医疗自然语言处理

资源名(Name) 描述(Description) 链接
中文医学NLP公开资源整理 github
spaCy 医学文本挖掘与信息提取 github
构建医疗实体识别的模型 包含词典和语料标注,基于python github
基于医疗领域知识图谱的问答系统 github 该repo参考了github
Chinese medical dialogue data 中文医疗对话数据集 github
一个大规模医疗对话数据集 包含110万医学咨询,400万条医患对话 github
新冠肺炎相关数据 新冠及其他类型肺炎中文医疗对话数据集;清华大学等机构的开放数据源(COVID-19) github
github

法律自然语言处理

资源名(Name) 描述(Description) 链接
Blackstone面向非结构化法律文本的spaCy pipeline和NLP模型 github
法务智能文献资源列表 github
基于金融-司法领域(兼有闲聊性质)的聊天机器人 github
罪名法务名词及分类模型 包含856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能 github

文本生成图像

资源名(Name) 描述(Description) 链接
Dalle-mini 根据文本提示生成图片的迷你版DALL·E github

其他

资源名(Name) 描述(Description) 链接
phone **手机归属地查询 ls0f/phone
phone 国际手机、电话归属地查询 AfterShip/phone
ngender 根据名字判断性别 observerss/ngender
中文对比英文自然语言处理NLP的区别综述 link
各大公司内部里大牛分享的技术文档 PDF 或者 PPT github
comparxiv 用于比较arXiv上两提交版本差异的命令 pypi
CHAMELEON深度学习新闻推荐系统元架构 github
简历自动筛选系统 github
Python实现的多种文本可读性评价指标 github

About

中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全、古诗词库、IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库、中文聊天语料、中文谣言数据、百度中文问答数据集、句子相似度匹配算法集合、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取工具、国内电话号码正则匹配、清华大学XLORE:中英文跨语言百科知识图谱、清华大学人工智能技术系列报

https://zhuanlan.zhihu.com/yangyangfuture


Languages

Language:Python 100.0%