cogitozz / jianshu

通过scrapy框架,结合selenium+Chromedriver爬取AJAX内容,实现同步/异步爬取简书全部文章及其相关信息,并存储到mysql中。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

jianshu

通过scrapy框架,结合selenium+Chromedriver爬取AJAX内容,实现简书全部文章及其相关信息的爬取,并存储到mysql中。 使用crawlspider创建爬虫项目,定义rule,爬取简书上的全部文章。 使用xpath进行数据解析 通过pipeline将数据存储到mysql 使用twisted进行异步存储数据到mysql提高爬取效率

About

通过scrapy框架,结合selenium+Chromedriver爬取AJAX内容,实现同步/异步爬取简书全部文章及其相关信息,并存储到mysql中。


Languages

Language:Python 100.0%