RainClown / webVulnScanCrawler

主要用于漏洞扫描器简单的爬虫收集url

webVulnScanCrawler

1. 简介

本来是公司有在结合自己的业务场景和产品架构做漏扫，漏扫里必然就涉及到资产收集，那就离不开爬虫。公司的项目本来用的是pyppeteer，依托google的chromium来做模拟浏览器访问url。后面发现微软做了一个和puppeteer一毛一样的东西，就是playwright，这个代码就是基于playwright来重新写的一套逻辑，利用gevent来做协程管理。

2.食用方法

可以修改main方法执行，或者跨脚本调用即可。

3.优化计划

a. 现在用协程去做，协程的优点在于针对io密集型的操作，可以在一个线程里并行执行这些  io操作，然后等待所有io结束，进行后续逻辑，没有多线程之间上下文切换带来的性能损耗。但是，现有的代码里涉及一定的计算，如计算md5等，需要消耗cpu资源，所以协程并不能有效优化速度。后续还是考虑多进程的方式，充分利用多核，牺牲一部分性能，提高url爬取的并发率。
b. url的去重逻辑相对做的比较基础，然后用布隆过滤器做的爬取过的url不再爬取逻辑，这块后面可以看下怎么优化。
c. 目前还是只能单节点跑，如果考虑一个任务很多url，甚至是一个url爬取到的url集合，来做异步爬取，可能需要做较大改动，尤其是已爬取的url识别。
d. 路径爆破。

About

主要用于漏洞扫描器简单的爬虫收集url

Languages

Language:Python 100.0%