nlp_corpus

语料资源

Datasets

nlp_chinese_corpus - 中文自然语言处理大规模语料库收集
CLUEbenchmark / CLUECorpus2020 - 100GB的高质量中文预训练语料
CLUEbenchmark / CLUEDatasetSearch - 搜索所有中文NLP数据集，附常用英文NLP数据集
codemayq / chinese_chatbot_corpus - 中文公开聊天语料库
DiDi / ChineseNLP - 滴滴整理的中文数据集与SOTA
GanjinZero / awesome_Chinese_medical_NLP - 中文医学NLP公开资源整理
InsaneLife / ChineseNLPCorpus - 中文自然语言处理数据集
KaiDMML / FakeNewsNet - This is a dataset for fake news detection research
liuhuanyong / ChineseDiachronicCorpus - 中文历时语料库
niderhoff / nlp-datasets - NLP部分数据集集合
ownthink / KnowledgeGraphData - 史上最大规模1.4亿中文知识图谱开源下载
Sogou Lab - 搜狗实验室语料资源
SophonPlus / ChineseNlpCorpus - 中文自然语言处理数据集收集
yangjianxin1 / QQMusicSpider - 基于Scrapy的QQ音乐爬虫与49万+语料
zengjunjun / CNSD - 中文自然语言推理数据集
zhangyics / Chinese-abbreviation-dataset - 中文缩写数据集
中文情感分析语料大全
SimmerChan / corpus - 自然语言处理，知识图谱相关语料，按照Task细分

Toolkits

fighting41love / funNLP - 中文词库与结构化信息、工具收藏大全
huggingface / nlp - datasets and evaluation metrics for Natural Language Processing in NumPy, Pandas, PyTorch and TensorFlow
skishore / makemeahanzi - 中文字符字形数据
kfcd / chaizi - 中文拆字字典
wangchuan2008888 / cn-radical - 提取中文偏旁部首和拼音
mozillazg / python-pinyin - Python汉字转拼音工具
howl-anderson / hanzi_char_featurizer - 汉字字符特征提取器
Kyubyong / g2pC - 基于上下文的汉语拼音自动标注工具
skydark / nstools - 中文简繁体转换工具
berniey / hanziconv - 中文繁简体转换工具
tinyfool / ChineseWithEnglish - 英文模拟中文发音引擎
fighting41love / cocoNLP - 中文信息抽取工具，实现邮箱、手机号、身份证号等正则表达式
THUNLP / THUOCL - 开源中文领域词库
goto456 / stopwords - 中文停用词库
wainshine / Chinese-Names-Corpus - 人名语料库
wainshine / Company-Names-Corpus - 公司机构语料库
1data-inc / chinese_popular_new_words - 壹沓科技中文新词表
dongxiexidian / Chinese - 中文词库整理
observerss / textfilter - 中文敏感词词库与过滤工具
fwwdn / sensitive-stop-words - 互联网常用敏感词、停止词库
LDNOOBW 多语言低俗词汇库
rainarch / SentiBridge - 新闻、餐饮、旅游领域中文实体情感词库
guotong1988 / chinese_dictionary - 同义词表、反义词表、否定词表
huyingxi / Synonyms - 中文近义词工具包
panhaiqi / AncientPoetry - 古诗词语料库
chinese-poetry / chinese-poetry - 最全中华古诗词数据库
pwxcoo / chinese-xinhua - 中华新华字典数据库
marteinn / The-Big-Username-Blacklist - 用户名黑名单列表
zacanger / profane-words - 英文脏话列表
saffsd / langid.py - 97种语言检测工具
google / language-detection - G厂语言检测工具
ls0f / phone - 国内手机号码归属地查询工具
AfterShip / phone - 国际号码归属地查询工具
observerss / ngender - 根据中文姓名猜测性别
keredson / wordninja - 无空格英文字符串分词
zhanzecheng / Time_NLP - 中文时间表达抽取工具
Microsoft / Recognizers-Text - 多语言数字、单位、日期时间识别
HaveTwoBrush / cn2an - 中文数字阿拉伯数字转换工具
Wall-ee / chinese2digits - 另一个中文数字阿拉伯数字转换工具
jaidevd / numerizer - 英文表达转换数字工具
google / UniNum - 186种语言的数字叫法库
ChestnutHeng / Wudao-dict - 有道词典命令行版本
liuhuanyong / TextGrapher - 文档图谱自动化生成
bamtercelboo / corpus_process_script - 维基百科语料处理工具

RegExp List

邮箱

email_pattern = '^[*#\u4e00-\u9fa5 a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+(\.[a-zA-Z0-9-]+)*\.[a-zA-Z0-9]{2,6}$'emails = re.findall(email_pattern, text, flags=0)

手机号

cellphone_pattern = '^((13[0-9])|(14[0-9])|(15[0-9])|(17[0-9])|(18[0-9]))\d{8}$'phoneNumbers = re.findall(cellphone_pattern, text, flags=0)

身份证号

IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])$'IDs = re.findall(IDCards_pattern, text, flags=0)

QQ号

[1-9]([0-9]{5,11})

国内固话号码

[0-9-()（）]{7,18}

IP地址

(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)

用户名

[A-Za-z0-9_\-\u4e00-\u9fa5]+

ZhengZixiang / nlp_corpus

nlp_corpus

Datasets

Toolkits

RegExp List

About