语料资源
- nlp_chinese_corpus - 中文自然语言处理大规模语料库收集
- CLUEbenchmark / CLUECorpus2020 - 100GB的高质量中文预训练语料
- CLUEbenchmark / CLUEDatasetSearch - 搜索所有中文NLP数据集,附常用英文NLP数据集
- codemayq / chinese_chatbot_corpus - 中文公开聊天语料库
- DiDi / ChineseNLP - 滴滴整理的中文数据集与SOTA
- GanjinZero / awesome_Chinese_medical_NLP - 中文医学NLP公开资源整理
- InsaneLife / ChineseNLPCorpus - 中文自然语言处理数据集
- KaiDMML / FakeNewsNet - This is a dataset for fake news detection research
- liuhuanyong / ChineseDiachronicCorpus - 中文历时语料库
- niderhoff / nlp-datasets - NLP部分数据集集合
- ownthink / KnowledgeGraphData - 史上最大规模1.4亿中文知识图谱开源下载
- Sogou Lab - 搜狗实验室语料资源
- SophonPlus / ChineseNlpCorpus - 中文自然语言处理数据集收集
- yangjianxin1 / QQMusicSpider - 基于Scrapy的QQ音乐爬虫与49万+语料
- zengjunjun / CNSD - 中文自然语言推理数据集
- zhangyics / Chinese-abbreviation-dataset - 中文缩写数据集
- 中文情感分析语料大全
- SimmerChan / corpus - 自然语言处理,知识图谱相关语料,按照Task细分
- fighting41love / funNLP - 中文词库与结构化信息、工具收藏大全
- huggingface / nlp - datasets and evaluation metrics for Natural Language Processing in NumPy, Pandas, PyTorch and TensorFlow
- skishore / makemeahanzi - 中文字符字形数据
- kfcd / chaizi - 中文拆字字典
- wangchuan2008888 / cn-radical - 提取中文偏旁部首和拼音
- mozillazg / python-pinyin - Python汉字转拼音工具
- howl-anderson / hanzi_char_featurizer - 汉字字符特征提取器
- Kyubyong / g2pC - 基于上下文的汉语拼音自动标注工具
- skydark / nstools - 中文简繁体转换工具
- berniey / hanziconv - 中文繁简体转换工具
- tinyfool / ChineseWithEnglish - 英文模拟中文发音引擎
- fighting41love / cocoNLP - 中文信息抽取工具,实现邮箱、手机号、身份证号等正则表达式
- THUNLP / THUOCL - 开源中文领域词库
- goto456 / stopwords - 中文停用词库
- wainshine / Chinese-Names-Corpus - 人名语料库
- wainshine / Company-Names-Corpus - 公司机构语料库
- 1data-inc / chinese_popular_new_words - 壹沓科技中文新词表
- dongxiexidian / Chinese - 中文词库整理
- observerss / textfilter - 中文敏感词词库与过滤工具
- fwwdn / sensitive-stop-words - 互联网常用敏感词、停止词库
- LDNOOBW 多语言低俗词汇库
- rainarch / SentiBridge - 新闻、餐饮、旅游领域中文实体情感词库
- guotong1988 / chinese_dictionary - 同义词表、反义词表、否定词表
- huyingxi / Synonyms - 中文近义词工具包
- panhaiqi / AncientPoetry - 古诗词语料库
- chinese-poetry / chinese-poetry - 最全中华古诗词数据库
- pwxcoo / chinese-xinhua - 中华新华字典数据库
- marteinn / The-Big-Username-Blacklist - 用户名黑名单列表
- zacanger / profane-words - 英文脏话列表
- saffsd / langid.py - 97种语言检测工具
- google / language-detection - G厂语言检测工具
- ls0f / phone - 国内手机号码归属地查询工具
- AfterShip / phone - 国际号码归属地查询工具
- observerss / ngender - 根据中文姓名猜测性别
- keredson / wordninja - 无空格英文字符串分词
- zhanzecheng / Time_NLP - 中文时间表达抽取工具
- Microsoft / Recognizers-Text - 多语言数字、单位、日期时间识别
- HaveTwoBrush / cn2an - 中文数字阿拉伯数字转换工具
- Wall-ee / chinese2digits - 另一个中文数字阿拉伯数字转换工具
- jaidevd / numerizer - 英文表达转换数字工具
- google / UniNum - 186种语言的数字叫法库
- ChestnutHeng / Wudao-dict - 有道词典命令行版本
- liuhuanyong / TextGrapher - 文档图谱自动化生成
- bamtercelboo / corpus_process_script - 维基百科语料处理工具
- 邮箱
email_pattern = '^[*#\u4e00-\u9fa5 a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+(\.[a-zA-Z0-9-]+)*\.[a-zA-Z0-9]{2,6}$'emails = re.findall(email_pattern, text, flags=0)
- 手机号
cellphone_pattern = '^((13[0-9])|(14[0-9])|(15[0-9])|(17[0-9])|(18[0-9]))\d{8}$'phoneNumbers = re.findall(cellphone_pattern, text, flags=0)
- 身份证号
IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX])$'IDs = re.findall(IDCards_pattern, text, flags=0)
- QQ号
[1-9]([0-9]{5,11})
- 国内固话号码
[0-9-()()]{7,18}
- IP地址
(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)
- 用户名
[A-Za-z0-9_\-\u4e00-\u9fa5]+