dynamic Weak File Scanner 动态敏感文件扫描器 -- NOVESEC
本工具整体架构已迭代完毕,如果您有自己的字典文件,那现在就开始使用吧!!!
本工具仅用于合法范围内进行企业防御测试,请勿用于违法活动, 否则所有产生后果由使用者自身负责!!!
本团队任何技术及文件仅用于学习研究,请勿用于任何违法活动,感谢大家的支持!!!
欢迎大家提交扩展需求、Issue、命中记录文件、技术支持、使用反馈
如果我未及时回复您的信息,请您在NOVASEC公众号后台留言,或直接微信搜索[WINEZER0 酒零]
项目时间开源较短,正在快速迭代中,请右上角选择关注本项目的更新
测试批量扫描2000个springboot站点,目前一切运行正常。
20220217 更新字典文件 备份文件扫描扫描字典
20220319 更新字典文件 SpringBoot路径扫描字典
20220319 添加【仅加载特定目录下的指定字典】的功能, 默认调用目录下所有字典,太多
20220319 添加响应标题关键字匹配,过滤一些确定没有的页面
20220319 添加关闭直接模式和关闭组合模式开关
20220320 更新源代码泄露字典、通用敏感文件字典
20220321 由于gb2312繁体会报错,对中文编码处理由gb2312转为gbk
20220320 取消默认的同时加载目标URL和目标文件,删除默认目标文件,设置无任何参数时扫描www.baidu.com
20220323 多线程检测HOST协议,发现大批量时原来的实在时太慢,极大加快大批量目标的处理,修改大量空结果处理逻辑
20220323 修复大量BUG,自动适应控制台编码(gbk|utf8等)输出,无法输出的进行UTF-8的URL编码
20220323 添加空字符表示串 %BLANK% BASE_VAR_REPLACE_DICT = {"%BLANK%": ['']}
20220323 添加URL结尾去除开关 REMOVE_END_SYMBOL = False REMOVE_SYMBOL_LIST = ['.','/']
20220323 添加路径全部小写功能 ALL_PATH_LOWERCASE = False
20220323 添加路径添加自定义前缀列表功能 CUSTOM_PREFIX_LIST = ['/admin'] CUSTOM_PREFIX_SWITCH = False
20220323 添加指定结果文件是否按目标分割开关 WRITE_RESULT_DIFF_SWITCH = False
20220323 添加结果文件和日志文件是否添加程序启动时间戳开关 FILE_RUN_TIME_SWITCH = False
20220323 添加保留指定后缀的URL目标功能 STORE_SPECIFY_EXT_SWITCH = True STORE_SPECIFY_EXT_LIST = ['zip','xxx']
20220323 添加移除指定后缀的URL目标功能 DELETE_SPECIFY_EXT_SWITCH = False DELETE_SPECIFY_EXT_LIST = ['jsp']
20220323 当保留指定后缀和移除指定后缀同时存在时,先进行指定后缀URL保留,后进行指定后缀URL排除, 建议一次扫描仅开启一个开关
20220323 添加排除已扫描URL目标的功能,如果记录文件中已有这个URL,就跳过扫描。默认EXCLUDE_VISITED_TARGET_SWITCH = True,对于HOST-Port形式的目标会先进行多线程协议探测。只有经过完整的路径探测的目标才会加入记录文件,如果担心目标没有扫到,可以多扫几次。
20220324 简单显示当前扫描任务的进度,输出list_all_target.index(target)/len(list_all_target))
20220325 优化对有协议头和没有协议头目标的处理,更好的兼容目标排除功能
20220325 添加排除已测试的不可访问的URL目标的功能,如果记录文件中已有这个URL,就跳过扫描。
20220328 增加最后的请求URL (resp_redirect_url = resp.url.strip()),用于自动筛选和人工筛选。
20220520 修复非智能请求头判断模式下,没有接受resp_redirect_url参数导致的错误。
20220531 内置requests==2.22.0模块,解决requests==2.27.0时,相应chunk数据包报错问题。
20220601 修复由于路径字典中关键字不正确导致的变量不替换问题
20220601 修复由于路径字典中的\u200b等不可见字符导致的logger输出报错
20220601 添加停止扫描阈值,当多次没有正常响应时,结束对目标的扫描。
必选
新增常用的根目录敏感文件字典
可选
修改结构为队列结构,实现WAF禁止检测,自动暂停任务。
考虑将字典固定到一个文件内,更好的进行命中添加。
已忽略的更改
修改HTTP响应模块返回的结果格式,转换元组修改为字典格式【工作量太大】
1.日志文件路径及说明
格式1:runtime/runtime_{时间戳}{module分类}.log
格式2:runtime/runtime_{module分类}.log
module选项:
info 正常信息
debug 调试信息
error 错误信息(需要关注)
2.结果文件路径及说明
结果目录:result
格式1:result_path = "{结果目录}/{主机名}_{module分类}_{时间戳}.csv"
格式2:result_path = "{结果目录}/{主机名}_{module分类}.csv"
格式3:result_path = "{结果目录}/{module分类}_{时间戳}.csv"
格式4:result_path = "{结果目录}/{module分类}.csv"
module选项:
result 正常结果的项目(需要关注)
manual 需要手动访问测试的项目(需要关注)
error 发生编码等错误信息(其中需要手动测试的项目会写入到manual)
ignore 被404等静态特征及响应内容对比的动态特征排除的项目
3.命中记录文件路径及说明
runtime/runtime_visited.log 记录已完成扫描的目标,实现断点续传。
1. 基于网站路径【深入的、动态的】检测指定目录下的敏感文件,并支持自动过滤大部分不存在的路径。
2. 开发前主要关注于根目录下的备份文件扫描,但对于根目录下其他敏感文件也可以完美支持。
3. 支持自动分割带有多个目录层级的为多个基本URL进行扫描,但暂不支持自动递归目录进行扫描。
1. 能够根据特定的规则生成动态字典文件,主要是实现动态替换(日期、域名、路径等)属性。
2. 能够根据响应情况,自动筛选出不存在的文件,减少扫描过程中的误报。
3. 能够自动处理字典的编码逻辑,自动编码访问中文和特殊字符命名的路径。
4. 能够记录程序的详细日志输出,辅助单独的结果文件进行判断。
5. 添加字典频率筛选功能,仅加载频率在某一个阈值范围的字典 [新增功能]
6. 支持简单分析命中的URL,并自动加入hit_xxx.lst加入规则字典 [新增功能]
7. 更多功能请查看更新记录
-
(通过基本变量替换+因变量替换+解析正则规则+解析自定义规则实现)。 (因变量支持域名、路径和自定义,基本变量支持从文件中读取替换。) (由于规则解析的格式需要,因此对字典内容存在格式要求,具体规则编写办法参考下文)
-
1、支持添加直接拼接到URL后的字典 2、支持笛卡尔组合的目录和字典) 3、不同目录下的字典在拼接到URL时,有不同的处理方式,具体参考下文
1、对输入的目标URL自动进行格式分析、自动访问检测和协议头自动判断功能。
简单输入——URL或URL文件,支持检测目标是否可以访问
扩展输入——自动分析处理HOST格式[IP:PORT,Domain],自动检测分析请求协议‘
2、默认启用中文路径或特殊字符会添加分别以【gb2312、utf-8】作为基础编码进行URL编码。
3、请求时大量的参数配置在setting.py中有描述和支持,用户可自定义大部分的参数配置。
4、对已经访问过的URL可以进行过滤,不进行多次扫描。
5、对输出的多级URL可选拆分为多个目标URL。
情景1:直接获取用户输入的URL作为目标,拼接URL+字典路径进行扫描。
情景2:分别获取http://HOST:PORT、http://HOST:PORT/XXX/、http://HOST:PORT/XXX/YYY/等多个层级作为目标,然后拼接目标进行扫描。
6、支持自动进行Refer头更新、HOST头更新,及配置Cookie等请求参数
- 响应状态码丢弃列表,判断响应状态码是否在丢弃列表内。
1. 响应内容前10字节,判断是否与随机测试路径响应内容的前十字节是否相同。
2. 响应内容Hash,判断是否与随机测试路径的响应全文Hash相同。
3. 响应内容实际返回大小,判断是否与随机测试路径的响应内容的实际返回大小相同。
4. 响应内容Content-Length,判断是否与随机测试路径的响应的Content-Length相同。
5. 响应内容Title,判断是否与随机测试路径的响应的标题字段相同。
更多使用配置参数详情参照 [setting.py]
1. 所有字典默认存放在dict目录,其目录下存在4个目录(base_var,direct_path,group_folder,group_files),存放不同类型的字典文件。
2. 字典文件的后缀默认设置为【.lst】,默认只读取目录下该后缀的字典文件。(该参数在setting.py中可以自定义)
3. 如有需求,后续可考虑使用sqlite存储字典数据库,但是手动修改目录会变得复杂.
4、每一行字典支持追加 【frequency==XXX】 字段用于表明字典频率,用于阈值筛选来决定是否加载该路径。
base目录存放基础变量字典,每个基础变量字典用于自动替换字典规则中的对应基础变量(由文件名提取)。
字典文件名 file_name.lst ==> 删除后缀 == > file_name ==>变为基本替换规则的键 == > %file_name%
对应关系:
文件名【xxx.lst】其中的内容,会在初次规则渲染时【用字典内容】替换字典规则中的【%xxx%】变量
简单示例情景:
direct目录下某个文件字典存在一行字典规则/admin.%backup_ext%
base目录下存在文件【backup_ext.lst】文件,该文件每一行内容是一个后缀【rar、zip、tar.gz、...】
1、base目录下的字典文件【BACKUP_EXT.lst】会从文件名会提取出【%BACKUP_EXT%】作为替换关键字。
2、字典文件内容会在读取后转变为一个后缀列表 ['rar','zip',...]
3、字典文件名与内容会转变为一个替换字典 {"%BACKUP_EXT%": ['rar','zip',...],...}
4、然后会对后置列表内的每个元素的【{xxx=xx:xxxx}$】规则进行渲染。
5、然后在其他类型中进行直接替换,如【/admin.%BACKUP_EXT%】会变为【/admin.rar、/admin.zip、...】
1、base字典目录下存放最基础的变量字典,每一行仅且支持一条[{xxx:xx=xxxx}$]格式的动态替换规则,不支持基础变量和因变量。
2、base字典目录下的字典文件命名【如xxx.lst】和其他目录下的字典规则中的基础变量【%xxx%】有强关联性。
direct目录下的文件名无特殊的命名要求,会读取目录下所有符合定义的自定后缀的文件内容。
dict/direct 目录存放的字典的规则内容会被【规则解析+基本变量替换+因变量替换】,然后直接添加到URL之后。
dict/floders目录下仅仅存放用于组合的目录字典文件,字典的每一行是一个目录,字典文件名命名除后缀外没有要求。
dict/files 目录下仅仅存放用于组合的文件名字典,字典的每一行是一个文件名,字典文件名命名除后缀外没有要求。
1、从floders目录下的所有文件读取到一个floder列表,并对列表元素进行【规则解析+基本变量替换】
2、从files目录下的所有文件读取到一个file列表,并对列表元素进行【规则解析+基本变量替换】
3、对floder列表和file列表,会以/{floder}/{file}的格式进行遍历拼接(笛卡尔集)。
PS:所有的因变量替换实际是在循环目标的时候处理的,因为只有此时才能获取到所有的因变量
1. 对每一个行路径进行{xxx=xx:xxxx}$ 规则的解析,每行字典路径仅且支持一句解析规则
2. 对基本变量关键字进行替换,每行字典路径支持多个不相同的基本变量
3. 对因变量关键字进行替换,每行字典路径支持多个不相同的因变量
字典内以 %变量名% 格式出现,变量名是从base目录下的字典文件名中动态获取的。
基础变量会在【基本变量替换时】被替换为字典文件的内容。
基本变量替换字典示例:
backup_ext.lst字典文件衍生规则: {'%backup_ext%': ['rar','zip']}
字典内以 %%变量名%% 格式出现,变量名在代码中定义,变量对应的内容获取函数也在代码中定义。
目前内置有【%%domain%%、%%path%%】两个变量,会分别获取域名相关的列表和路径相关的列表。
因变量会在【因变量替换时】被替换为从URL中动态获取的内容。
因变量替换字典示例:
解析 https://www.baidu.com 得到因变量字典: {'%%domain%%': ['baidu','baidu_com','www.baidu.com','baidu.com','www_baidu_com']}
动态替换规则指字典内以 {规则分类=规则类型(附加参数):实际解析部分}$ 格式出现的字符串。
因此在字典中使用规则引擎,需要以 { 括号开头,并以 }$ 结尾,
替换规则有【date、int、str、re】四种规则分类,每种规则可能存在多种规则类型。
不同的规则的【实际解析部分】有不同的编写格式要求。
规则 | 说明 |
---|---|
re | 正则引擎 |
int | 整数 |
str | 字符 |
date | 日期 |
{date=日期类型:日期开始-日期结束}$
规则类型:year(年) 2005-2015
规则示例:RuleParser('{date=year:2017-2018}$').parse()
规则输出:['2017', '17', '2018', '18']
规则类型:mon(月) 1-12
规则示例:RuleParser('{date=mon:9-10}$').parse()
规则输出:['9', '09', '10']
规则类型:day(日) 0-30
规则示例:RuleParser('{date=day:9-10}$').parse()
规则输出:['9', '09', '10']
规则类型:year_mon(年月) 200501-201512
规则示例:result = RuleParser('{date=year_mon:201709-201712}$').parse()
规则输出:['201709', '20179', '201710', '201711', '201712']
规则类型:mon_day(月日) 0101-1231
规则示例: result = RuleParser('{date=mon_day:0928-1003}$').parse()
规则输出:['0930', '1001', '0929', '09-29', '1003', '10-01', '09-30', '10-02', '10-03', '1002']
规则类型:year_mon_day(年月日) 20050101-20151231
规则示例:RuleParser('{date=year_mon_day:20170111-20170112}$').parse()
规则输出:['170112', '20170112', '17-01-12', '2017-01-12']
规则类型:mon_day_year(月日年) 01012005-12312015
规则示例:RuleParser('{date=mon_day_year:01112017-01122017}$').parse()
规则输出:['2017-01-12', '17-01-12', '170112', '20170112']
PS:日期会出现的子分类情况,初始位数补充0911,911
{int=数字类型#元素长度$步长:数字开始-数字结束}$
规则类型:series(正常按照顺序递进,支持$步长选项)
规则示例:RuleParser('{int=series:1-5}$').parse()
规则输出:['1', '2', '3', '4', '5']
规则示例:result = RuleParser('{int=series$2:1-15}$').parse() #使用步长选项
规则输出:['1', '3', '5', '7', '9', '11', '13', '15']
规则提示:
仅series类型支持步长
仅series类型长度选项没有实际用处
规则类型:digits(连号数字)
规则示例:RuleParser('{int=digits#3:1-5}$').parse()
规则输出:['123', '321', '234', '432', '345', '543']
规则提示:#3表示数字的长度为3
规则类型:overlap(重叠数字)
规则示例:RuleParser('{int=overlap#3:1-9}$').parse()
规则输出:['111', '222', '333', '444', '555', '666', '777', '888', '999']
规则示例:RuleParser('{int=overlap#3:11-22}$').parse()
规则输出:['111111', '121212', '131313', '141414', '151515', '161616', '171717', '181818', '191919', '202020', '212121', '222222']
规则提示:#3表示元素的个数为3
{str=字符类型#元素长度:字符开始-字符结束}$
规则类型:letters(按照顺序递进)
规则示例:RuleParser('{str=letters#3:a-d}$').parse()
规则输出:['abc', 'bcd']
规则提示:#3表示字母的长度为3
规则类型:overlap(重叠字母)
规则示例:RuleParser('{str=overlap#3:A-D}$').parse()
规则输出:['AAA', 'BBB', 'CCC', 'DDD']
规则提示:#3表示元素的个数为3
re是正则解析器,会根据正则生成符合正则规则的字符串,是最常用的规则。
已知的正则解析生成器有 exrex、sre_yield,解析结果是相同的,只不过有不同的解析算法。
{re=引擎类型:正则表达式}$
引擎类型:exrex(exrex正则解析引擎)
规则示例:RuleParser('{re=exrex:(201[7-9]{1}[1]{1}[8-9]{1})}$').parse()
规则输出:['201718', '201719', '201818', '201819', '201918', '201919']
引擎类型:sre_yield(sre_yield正则解析引擎)
规则示例:RuleParser('{re=sre_yield:(201[7-9]{1}[1]{1}[8-9]{1})}$').parse()
规则输出:['201718', '201818', '201918', '201719', '201819', '201919']
1、字典内的每一行规则最多支持【两个%基本变量%】、【两个%%因变量%%】
2、字典内的每一行规则最多 【一个】解析规则
3、组合目录字典和组合文件字典在进行初次渲染时,会分别进行一次渲染(1-1和1-2次),每一行字典也支持如上两项。
1、如果一行字典规则有问题,会显示错误提示,并忽略解析该条规则。
错误内容:
[22:30:20] [-] 每条字典规则仅支持单个{xx=xx:xxxx}$格式规则!!!
Rule: /{date=year:2021-2022}$-{re=exrex:([ABC])(%backup_ext%)}$
Error: too many values to unpack (expected 2)
错误原因:
本规则内带有了两条解析规则,所以导致了错误。
1、支持#号注释,对#号开头的行,和频率字符串后面的#号都会进行删除
python3 DynaScan.py -h
usage: DynaScan.py [-h] [-u TARGET] [-f TARGET_FILE] [-p PROXY] [-t thread] [-d] [-v]
optional arguments:
-h, --help show this help message and exit
-u TARGET 指定扫描目标URL, Example: http://www.baidu.com
-f TARGET_FILE 指定扫描目标URL文件, Example: target.txt
-p PROXY 指定请求时使用的HTTPS或SOCKS5的代理, Example: http://127.0.0.1:8080 or socks5://127.0.0.1:1080
-t thread 指定多线程池的最大线程数
-d debug 显示程序运行时的所有调试信息,默认关闭
-v version 显示程序当前版本号
Examples:
python3 DynaScan.py -u http://www.baidu.com
python3 DynaScan.py -f target.txt
python3 DynaScan.py -f target.txt -p http://127.0.0.1:8080
其他控制细节参数请通过Setting.py进行配置
T00L Version: Ver 0.0.1
####################################################
渲染规则部分主要参考ring04的weakfilescan,另外修复Python3环境的一些错误,并分离了因变量和基本变量的替换。
weakfilescan原版请访问https://github.com/ring04h/weakfilescan