chuan3676's repositories
Anti-Anti-Spider
越来越多的网站具有反爬虫特性,有的用图片隐藏关键数据,有的使用反人类的验证码,建立反反爬虫的代码仓库,通过与不同特性的网站做斗争(无恶意)提高技术。(欢迎提交难以采集的网站)(因工作原因去TX写验证码了,项目暂停)
crawler4j
Open Source Web Crawler for Java
distribute_crawler
使用scrapy,redis, mongodb,graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现,爬虫状态显示使用graphite实现
ghostdriver
Ghost Driver is an implementation of the Remote WebDriver Wire protocol, using PhantomJS as back-end
JD-Coin
自动登录京东,打卡领钢镚,签到领京豆
jd_analysis
京东商城评价信息数据分析。查看示例:http://awolfly9.com/article/jd_comment_analysis
jd_spider
两只蠢萌京东的分布式爬虫
jobhunter
使用WebMagic抓取招聘信息,并且持久化到Mysql的例子。
OpenGrok
Main {OpenGrok git repository
play-webdrive
Play framework module to support Selenium 2 WebDriver
porndl
这是一个91porn网站视频下载工具,采用代理(http、socks)模式突破单IP10次访问限制
portia
Visual scraping for Scrapy
proxy_pool
python爬虫代理IP池(proxy pool)
pyspider
A Powerful Spider(Web Crawler) System in Python.
Qix
Machine Learning、Deep Learning、PostgreSQL、Distributed System、Node.Js、Golang
scrapy-examples
Multifarious Scrapy examples.
SeimiCrawler
一个敏捷的,分布式的爬虫框架;An agile, distributed crawler framework.
spider
A configurable web spider with a easy-to-use web console
tumblr_spider
汤不热 python 多线程爬虫
webmagic
A scalable web crawler framework for Java.
wecenter
WeCenter 是一款知识型的社交化开源社区程序,专注于企业和行业社区内容的整理、归类、检索和再发行。
wecode
WeCode是CodeHelp源代码管理的升级版本
what-happens-when-zh_CN
What-happens-when 的中文翻译,原仓库 https://github.com/alex/what-happens-when
YNote-Java-SDK
有道笔记开放平台Java SDK(Youdao Note open platform Java SDK)
you-get
:arrow_double_down: Dumb downloader that scrapes the web
yunshare
百度云分享爬虫项目