cogitozz / jianshu

通过scrapy框架，结合selenium+Chromedriver爬取AJAX内容，实现同步/异步爬取简书全部文章及其相关信息，并存储到mysql中。

jianshu

通过scrapy框架，结合selenium+Chromedriver爬取AJAX内容，实现简书全部文章及其相关信息的爬取，并存储到mysql中。使用crawlspider创建爬虫项目，定义rule，爬取简书上的全部文章。使用xpath进行数据解析通过pipeline将数据存储到mysql 使用twisted进行异步存储数据到mysql提高爬取效率

About

通过scrapy框架，结合selenium+Chromedriver爬取AJAX内容，实现同步/异步爬取简书全部文章及其相关信息，并存储到mysql中。

Languages

Language:Python 100.0%