Alioth's repositories
wechat-spider
开源微信爬虫:爬取公众号所有 文章、阅读量、点赞量和评论内容。易部署。持续维护!!!
app_spider
应用商店爬虫
Daily-Learning
每日抓取CGTN、人民网语料素材积累
dianping_spider
大众点评爬虫(全站可爬,解决动态字体加密,非OCR)。持续更新
dianping_textmining
大众点评评论文本挖掘,包括点评数据爬取、数据清洗入库、数据分析、评论情感分析等的完整挖掘项目
Douban_LDA_topic_modeling
豆瓣小组话题帖LDA主题模型构建
jd_comment_crawl_and_analyse
对京东评论进行爬取,对爬取的好评和差评进行分词分析及情感性分析
pyhanlp
中文分词 词性标注 命名实体识别 依存句法分析 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁 自然语言处理
QQMusicSpider
基于Scrapy的QQ音乐爬虫(QQ Music Spider),爬取歌曲信息、歌词、精彩评论等,并且分享了QQ音乐中排名前6400名的内地和港台歌手的49万+的音乐语料
red_book_spider
小红书相关爬虫
Sentiment-analysis
基于PaddleHub通过预训练模型Erine-tiny在中文7情感分类数据集OCEMOTION上进行微调训练从而实现较为精确的情感7分类任务,并完成了基于PyQt5的GUI及前后端分离式web端双端部署。
spider_draft
各种网站的登陆破解,仅供交流学习,包括:126邮箱,17173,189邮箱,360登录中心,37玩,39健康,51游戏,58同城,bilibili,YY直播,一加手机,**移动,九游,今日头条,企查查,优酷视频,信息公示系统,凤凰网,去哪儿,启信宝,和讯网,咪咕视频登录,唯品会,喜马拉雅,国美,大众点评,大麦网,天眼查,好豆菜谱,宜贷网,小米商城,开源**,微博,恒信易贷,房天下,搜房帮,搜狐,搜狐视频,搜狗翻译,斗鱼,新华电子邮局,易车网,有赞网,淘宝,爱企查,爱应用,猫眼,珍爱网,百家号,空中网,筑龙学社,粉笔网,纵横小说网,网易,美团,老k游戏,联通营业厅,聚惠商城,芒果TV,虎牙,豆瓣,途牛,逗游网,金牛理财,问卷星,阿里云,风行网,飞卢小说网,魅族、、、
text-classification-cnn-rnn
CNN-RNN中文文本分类,基于TensorFlow
twint
An advanced Twitter scraping & OSINT tool written in Python that doesn't use Twitter's API, allowing you to scrape a user's followers, following, Tweets and more while evading most API limitations.
WeiboCrawler
无cookie版微博爬虫,可以连续爬取一个或多个新浪微博用户信息、用户微博及其微博评论转发。
weiboSpider
新浪微博爬虫,用python爬取新浪微博数据
WeiboSpider-1
This is a sina weibo spider built by scrapy [微博爬虫/持续维护]
WeiboSuperSpider
最强微博爬虫,用户、话题、评论一网打尽。图片下载、情感分析,地理位置、关系网络等功能应有尽有。Docs:https://buyixiao.github.io/blog/weibo-super-spider.html