YAN7 / spa-crawler

针对SPA项目实现的爬虫

SPA项目爬虫

主要使用puppeteer实现的一个适用于SPA项目的爬虫

项目来源

在做一个项目的过程中使用了一个开源前端框架,该开源框架的使用到的图片都是从服务器返回的,为了防止图片万一被删掉,所以需要把图片爬取到本地.

使用

git clone https://github.com/YAN7/spa-crawler.git
npm install
node index.js

使用效果

主要功能

通过跳转到到登陆页面并写入账号密码来实现登陆功能,
通过直接向页面的localStorage写入token来模拟登陆功能,
自动检测写入的文件夹是否存在,不存在则创建,
自动检测爬取的图片是否已存在,存在则跳过,
写入新的爬取模块只需要在load.js中写入新的函数,则在启动的时候会自动执行,
引入eslint.

About

针对SPA项目实现的爬虫

Languages

Language:JavaScript 100.0%