carlosxiao / crawlproject-gjypjd

a crawl project for drug and enterprise information

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

第一个实习项目,国家药品监督局爬虫

方法:selenium+webdriver(无头)

难点:解决网站断点问题;数据量大,根据需求分文件在MySQL建表;Ajax网页,翻页为POST请求,根据Form data中的curstart参数生成网页

自学:pyspider框架,CSS选择器,Ajax异步请求,html,豆瓣电影评分人数与分数爬取并可视化

About

a crawl project for drug and enterprise information


Languages

Language:Python 100.0%