DangHT / npulibrary_spider

npulibrary webcrawler

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

此项目的存在是为npulibrary提供数据

使用Scrapy+MySQL

数据来源:西北工业大学畅想之星电子图书馆

注意,经实践发现:

  1. 网站中图书内容是通过JS动态加载而来的,因此若直接通过静态方法是无法获取到全部图书数据的
  2. 网站中除首页外,所有的学科类别链接都是通过转发方式完成跳转,因此地址栏url不变

目前采取的解决方案:

  1. 采用 Selenium WebDriver 方法,模拟浏览器发送请求可以等待页面加载完成获取完整数据
  2. 若要获取多个学科的数据,需要从首页点击链接获取对应的url地址

使用方法:

  1. 安装配置 python3 环境
  2. 安装依赖包
pip install scrapy
pip install pymysql
  1. 建立数据表(数据表及部分数据样例已在项目中给出book.sql
  2. 修改MySQL配置信息
  3. 修改start_urls和item['theme']爬取指定的学科
  4. 在控制台输入
scrapy crawl books

等待完善:

  1. 控制 WebDriver 自动跳转到其他学科页面进行爬取
  2. 实现翻页爬取
  3. 将MySQL等配置信息重写到settings.py中

About

npulibrary webcrawler


Languages

Language:TSQL 91.2%Language:Python 8.8%