sdta25196 / website-crawler

抓取站点全部链接

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

运行

yarn start 运行 src\index.js,修改run函数参数即可

特性

  • 支持全站抓取
  • 支持按目录抓取
    • 可使用队列模式抓取
  • 支持断点续传
  • 支持代理设置
  • 支持黑名单系统
  • 支持对下级子域名的统计
  • 支持自定义处理函数
  • 支持单页抓取

TODO

  • 对二级域名开启自动抓取任务

About

抓取站点全部链接


Languages

Language:JavaScript 100.0%