wutonghua's repositories
addressparser
中文地址提取工具,支持**三级区划地址(省、市、区)提取和映射,支持地址热力图绘制。
Administrative-divisions-of-China
中华人民共和国行政区划:省级(省份)、 地级(城市)、 县级(区县)、 乡级(乡镇街道)、 村级(村委会居委会) ,**省市区镇村二级三级四级五级联动地址数据。
AiLearning
AiLearning: 机器学习 - MachineLearning - ML、深度学习 - DeepLearning - DL、自然语言处理 NLP
authority-data
官方权威数据:统计年签,统计公报,互联网行业报告,工信部数据,ICT报告等 Official authoritative data (Chinese)
BaiduSpider
BaiduSpider,一个爬取百度搜索结果的爬虫,目前支持百度网页搜索,百度图片搜索,百度知道搜索,百度视频搜索,百度资讯搜索,百度文库搜索,百度经验搜索和百度百科搜索。
BERT-BiLSTM-CRF-NER
Tensorflow solution of NER task Using BiLSTM-CRF model with Google BERT Fine-tuning And private Server services
ChainKnowledgeGraph
ChainKnowledgeGraph, 产业链知识图谱包括A股上市公司、行业和产品共3类实体,包括上市公司所属行业关系、行业上级关系、产品上游原材料关系、产品下游产品关系、公司主营产品、产品小类共6大类。 上市公司4,654家,行业511个,产品95,559条、上游材料56,824条,上级行业480条,下游产品390条,产品小类52,937条,所属行业3,946条。
CHINESE-MEDICINE-QUESTION-GENERATION
“万创杯”中医药天池大数据竞赛——中医文献问题生成挑战 决赛 第一名方案
CnkiSpider
知网爬虫,专利、论文项目。仅供学习交流,严禁盈利
cntext
中文文本分析库,可对文本进行词频统计、词典扩充、情绪分析、相似度、可读性等
company-crawler
天眼查爬虫&企查查爬虫,指定关键字爬取公司信息
companynameparser
company name parser, extract company name brand. 中文公司名称分词工具,支持公司名称中的地名,品牌名(主词),行业词,公司名后缀提取。
HarvestText
文本挖掘和预处理工具(文本清洗、新词发现、情感分析、实体识别链接、关键词抽取、知识抽取、句法分析等),无监督或弱监督方法
JioNLP
中文 NLP 预处理工具包,准确、高效、易用 A Chinese NLP Preprocessing Library
lxSpider
爬虫案例合集。包括但不限于《淘宝、京东、天猫、豆瓣、抖音、快手、微博、微信、阿里、头条、pdd、优酷、爱奇艺、携程、12306、58、搜狐、各种指数、维普万方、Zlibraty、Oalib、小说、招标网、采购网、小红书、大众点评、推特、脉脉》
Natural-Language-Processing
自然语言处理的基础知识,术语抽取与关键词提取、知识图谱与图嵌入、检索与推荐等
nlp-tutorial-1
自然语言处理(NLP)教程,包括:词向量,词法分析,预训练语言模型,文本分类,文本语义匹配,信息抽取,翻译,对话。
ppocr-onnx
利用 onnxruntime 及 PaddleOCR 提供的模型, 对图片中的文字进行检测与识别.
pyspark-examples
Pyspark RDD, DataFrame and Dataset Examples in Python language
qichacha_patent_file_download
企查查专利文件下载工具
Rh-s-PyTool
行政区域坐标数据、行政区域名称补全/查询;综合指标评价方法
semantic-similarity
semantic similarity, word2vec + wmd, bert+wmd, pytorch
spider_python
python爬虫
spiders
各种爬虫:爱企查爬虫,网上114企业信息爬虫,抖音视频爬虫,wipo爬虫, 专利信息爬虫(patentscope)
Synonyms
:herb: 中文近义词:聊天机器人,智能问答工具包
text2vec
text2vec, text to vector. 文本向量化表示,包括:词向量化表示,句子向量化表示,长文本向量化表示,文本相似度计算。
xiangshi
中文文本相似度计算器