aleenzz / aleenscan

多重判断网站文件扫描(网页相似性,关键词,状态码)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

aleenscan

多重判断网站文件扫描(网页相似性,关键词,状态码)

功能

一个完整的全自动扫描器,判断404页面的方法必不可少在这里 我采用 网页相似性,关键词,状态码的判断方法

步骤

提取网页有2种 一种是标签 ,一种是文本内容,我采用的是文本内容提取,但是方法很粗糙直接BeautifulSoup到body用get_text()提取

分词 TF-IDF算法 我直接用的jieba 提取关键词 有个方法就是TF-IDF算法的 还有个 什么rank算法,弄好后计算余弦相似性

定义一个根本不存在的页面 ,另一个为字典路径

准备一些网页200的的关键词 我这里准备的“不存在” ,“404/search_children” 其后是我们常见的 404页面 js加载的 找孩子

│  aleenscan.py
└─aleenscan
        aleen.py
        aleen.pyc
        test.py
        __init__.py
        __init__.pyc

后文,此方法也算不上严谨,相对于传统扫描器稍好一点

About

多重判断网站文件扫描(网页相似性,关键词,状态码)


Languages

Language:Python 100.0%