第一个实习项目,国家药品监督局爬虫
方法:selenium+webdriver(无头)
难点:解决网站断点问题;数据量大,根据需求分文件在MySQL建表;Ajax网页,翻页为POST请求,根据Form data中的curstart参数生成网页
自学:pyspider框架,CSS选择器,Ajax异步请求,html,豆瓣电影评分人数与分数爬取并可视化
a crawl project for drug and enterprise information
第一个实习项目,国家药品监督局爬虫
方法:selenium+webdriver(无头)
难点:解决网站断点问题;数据量大,根据需求分文件在MySQL建表;Ajax网页,翻页为POST请求,根据Form data中的curstart参数生成网页
自学:pyspider框架,CSS选择器,Ajax异步请求,html,豆瓣电影评分人数与分数爬取并可视化
a crawl project for drug and enterprise information