DynaScan 戴拿 )

dynamic Weak File Scanner 动态敏感文件扫描器 -- NOVESEC

本工具整体架构已迭代完毕,如果您有自己的字典文件,那现在就开始使用吧!!!

0、前提摘要

0.1、严正声明:

本工具仅用于合法范围内进行企业防御测试,请勿用于违法活动, 否则所有产生后果由使用者自身负责！！！

本团队任何技术及文件仅用于学习研究，请勿用于任何违法活动，感谢大家的支持！！！

0.2、技术支持

欢迎大家提交扩展需求、Issue、命中记录文件、技术支持、使用反馈

如果我未及时回复您的信息,请您在NOVASEC公众号后台留言,或直接微信搜索[WINEZER0 酒零]

项目时间开源较短,正在快速迭代中,请右上角选择关注本项目的更新

测试批量扫描2000个springboot站点，目前一切运行正常。

0.3、更新记录

20220217 更新字典文件 备份文件扫描扫描字典  
20220319 更新字典文件 SpringBoot路径扫描字典 
20220319 添加【仅加载特定目录下的指定字典】的功能, 默认调用目录下所有字典,太多
20220319 添加响应标题关键字匹配,过滤一些确定没有的页面
20220319 添加关闭直接模式和关闭组合模式开关
20220320 更新源代码泄露字典、通用敏感文件字典
20220321 由于gb2312繁体会报错,对中文编码处理由gb2312转为gbk
20220320 取消默认的同时加载目标URL和目标文件,删除默认目标文件,设置无任何参数时扫描www.baidu.com
20220323 多线程检测HOST协议,发现大批量时原来的实在时太慢,极大加快大批量目标的处理，修改大量空结果处理逻辑
20220323 修复大量BUG,自动适应控制台编码(gbk|utf8等)输出,无法输出的进行UTF-8的URL编码
20220323 添加空字符表示串 %BLANK%  BASE_VAR_REPLACE_DICT = {"%BLANK%": ['']}

20220323 添加URL结尾去除开关 REMOVE_END_SYMBOL = False  REMOVE_SYMBOL_LIST = ['.','/']
20220323 添加路径全部小写功能 ALL_PATH_LOWERCASE = False
20220323 添加路径添加自定义前缀列表功能 CUSTOM_PREFIX_LIST = ['/admin']  CUSTOM_PREFIX_SWITCH = False

20220323 添加指定结果文件是否按目标分割开关  WRITE_RESULT_DIFF_SWITCH = False
20220323 添加结果文件和日志文件是否添加程序启动时间戳开关  FILE_RUN_TIME_SWITCH = False

20220323 添加保留指定后缀的URL目标功能 STORE_SPECIFY_EXT_SWITCH = True STORE_SPECIFY_EXT_LIST = ['zip','xxx']
20220323 添加移除指定后缀的URL目标功能 DELETE_SPECIFY_EXT_SWITCH = False DELETE_SPECIFY_EXT_LIST = ['jsp']
20220323 当保留指定后缀和移除指定后缀同时存在时,先进行指定后缀URL保留,后进行指定后缀URL排除, 建议一次扫描仅开启一个开关 

20220323 添加排除已扫描URL目标的功能，如果记录文件中已有这个URL,就跳过扫描。默认EXCLUDE_VISITED_TARGET_SWITCH = True,对于HOST-Port形式的目标会先进行多线程协议探测。只有经过完整的路径探测的目标才会加入记录文件，如果担心目标没有扫到,可以多扫几次。

20220324 简单显示当前扫描任务的进度,输出list_all_target.index(target)/len(list_all_target))

20220325 优化对有协议头和没有协议头目标的处理,更好的兼容目标排除功能
20220325 添加排除已测试的不可访问的URL目标的功能，如果记录文件中已有这个URL,就跳过扫描。

20220328 增加最后的请求URL (resp_redirect_url = resp.url.strip()),用于自动筛选和人工筛选。

20220520 修复非智能请求头判断模式下，没有接受resp_redirect_url参数导致的错误。
20220531 内置requests==2.22.0模块,解决requests==2.27.0时，相应chunk数据包报错问题。
20220601 修复由于路径字典中关键字不正确导致的变量不替换问题
20220601 修复由于路径字典中的\u200b等不可见字符导致的logger输出报错
20220601 添加停止扫描阈值，当多次没有正常响应时，结束对目标的扫描。

0.4、TODO

必选
新增常用的根目录敏感文件字典

可选
修改结构为队列结构,实现WAF禁止检测,自动暂停任务。
考虑将字典固定到一个文件内,更好的进行命中添加。

已忽略的更改
修改HTTP响应模块返回的结果格式,转换元组修改为字典格式【工作量太大】

1、程序说明

1.0、结果文件位置

1.日志文件路径及说明
格式1：runtime/runtime_{时间戳}{module分类}.log
格式2：runtime/runtime_{module分类}.log
module选项：
info  正常信息 
debug 调试信息 
error 错误信息(需要关注)

2.结果文件路径及说明
结果目录：result
格式1：result_path = "{结果目录}/{主机名}_{module分类}_{时间戳}.csv"
格式2：result_path = "{结果目录}/{主机名}_{module分类}.csv"
格式3：result_path = "{结果目录}/{module分类}_{时间戳}.csv"
格式4：result_path = "{结果目录}/{module分类}.csv"
module选项：
result 正常结果的项目(需要关注)
manual 需要手动访问测试的项目(需要关注)
error  发生编码等错误信息(其中需要手动测试的项目会写入到manual)
ignore 被404等静态特征及响应内容对比的动态特征排除的项目


3.命中记录文件路径及说明
runtime/runtime_visited.log  记录已完成扫描的目标，实现断点续传。

1.1、程序开发目的

1. 基于网站路径【深入的、动态的】检测指定目录下的敏感文件,并支持自动过滤大部分不存在的路径。
2. 开发前主要关注于根目录下的备份文件扫描,但对于根目录下其他敏感文件也可以完美支持。
3. 支持自动分割带有多个目录层级的为多个基本URL进行扫描,但暂不支持自动递归目录进行扫描。

1.2、功能描述：

1.     能够根据特定的规则生成动态字典文件,主要是实现动态替换(日期、域名、路径等）属性。
2.     能够根据响应情况,自动筛选出不存在的文件,减少扫描过程中的误报。
3.     能够自动处理字典的编码逻辑,自动编码访问中文和特殊字符命名的路径。
4.     能够记录程序的详细日志输出,辅助单独的结果文件进行判断。
5.     添加字典频率筛选功能,仅加载频率在某一个阈值范围的字典  [新增功能]
6.     支持简单分析命中的URL,并自动加入hit_xxx.lst加入规则字典  [新增功能]
7.     更多功能请查看更新记录

2、工具特点

2.1、扫描字典突出优势

1、支持多种动态规则来动态生成扫描路径

(通过基本变量替换+因变量替换+解析正则规则+解析自定义规则实现）。
(因变量支持域名、路径和自定义，基本变量支持从文件中读取替换。)
(由于规则解析的格式需要,因此对字典内容存在格式要求,具体规则编写办法参考下文)

2、扫描字典添加支持多种方案,不同的需求可以添加到不同的字典目录中。

1、支持添加直接拼接到URL后的字典
2、支持笛卡尔组合的目录和字典）
3、不同目录下的字典在拼接到URL时,有不同的处理方式，具体参考下文

2.2、HTTP请求配置

    1、对输入的目标URL自动进行格式分析、自动访问检测和协议头自动判断功能。
       简单输入——URL或URL文件,支持检测目标是否可以访问
       扩展输入——自动分析处理HOST格式[IP:PORT,Domain],自动检测分析请求协议‘
    2、默认启用中文路径或特殊字符会添加分别以【gb2312、utf-8】作为基础编码进行URL编码。
    3、请求时大量的参数配置在setting.py中有描述和支持,用户可自定义大部分的参数配置。
    4、对已经访问过的URL可以进行过滤,不进行多次扫描。
    5、对输出的多级URL可选拆分为多个目标URL。
        情景1：直接获取用户输入的URL作为目标,拼接URL+字典路径进行扫描。 
        情景2：分别获取http://HOST:PORT、http://HOST:PORT/XXX/、http://HOST:PORT/XXX/YYY/等多个层级作为目标，然后拼接目标进行扫描。
    6、支持自动进行Refer头更新、HOST头更新,及配置Cookie等请求参数

2.3、HTTP响应配置

1、有效响应结果筛选可以选择多种筛选方案:

1、基本判断规则：

响应状态码丢弃列表，判断响应状态码是否在丢弃列表内。

2、动态判断基准：

1.  响应内容前10字节，判断是否与随机测试路径响应内容的前十字节是否相同。
2.  响应内容Hash，判断是否与随机测试路径的响应全文Hash相同。
3.  响应内容实际返回大小，判断是否与随机测试路径的响应内容的实际返回大小相同。
4.  响应内容Content-Length，判断是否与随机测试路径的响应的Content-Length相同。
5.  响应内容Title，判断是否与随机测试路径的响应的标题字段相同。

更多使用配置参数详情参照 [setting.py]

3、字典目录结构

1. 所有字典默认存放在dict目录,其目录下存在4个目录(base_var,direct_path,group_folder,group_files),存放不同类型的字典文件。
2. 字典文件的后缀默认设置为【.lst】,默认只读取目录下该后缀的字典文件。(该参数在setting.py中可以自定义)
3. 如有需求,后续可考虑使用sqlite存储字典数据库,但是手动修改目录会变得复杂.
4、每一行字典支持追加 【frequency==XXX】 字段用于表明字典频率,用于阈值筛选来决定是否加载该路径。

3.1、dict/base目录

base目录存放基础变量字典,每个基础变量字典用于自动替换字典规则中的对应基础变量(由文件名提取)。

3.1.1 base目录下字典文件命名和产生的基本变量:

字典文件名 file_name.lst ==> 删除后缀 == > file_name ==>变为基本替换规则的键 == > %file_name%

对应关系:
文件名【xxx.lst】其中的内容,会在初次规则渲染时【用字典内容】替换字典规则中的【%xxx%】变量

简单示例情景: 
direct目录下某个文件字典存在一行字典规则/admin.%backup_ext%
base目录下存在文件【backup_ext.lst】文件,该文件每一行内容是一个后缀【rar、zip、tar.gz、...】

3.1.2、base目录下字典文件的大致处理过程:

1、base目录下的字典文件【BACKUP_EXT.lst】会从文件名会提取出【%BACKUP_EXT%】作为替换关键字。
2、字典文件内容会在读取后转变为一个后缀列表 ['rar','zip',...]
3、字典文件名与内容会转变为一个替换字典 {"%BACKUP_EXT%": ['rar','zip',...],...}
4、然后会对后置列表内的每个元素的【{xxx=xx:xxxx}$】规则进行渲染。
5、然后在其他类型中进行直接替换,如【/admin.%BACKUP_EXT%】会变为【/admin.rar、/admin.zip、...】

3.1.3、base字典添加注意事项:

1、base字典目录下存放最基础的变量字典,每一行仅且支持一条[{xxx:xx=xxxx}$]格式的动态替换规则，不支持基础变量和因变量。
2、base字典目录下的字典文件命名【如xxx.lst】和其他目录下的字典规则中的基础变量【%xxx%】有强关联性。

3.2、dict/direct目录

3.2.1 direct目录下的字典介绍:

direct目录下的文件名无特殊的命名要求,会读取目录下所有符合定义的自定后缀的文件内容。

3.2.2、direct目录下的字典处理:

dict/direct 目录存放的字典的规则内容会被【规则解析+基本变量替换+因变量替换】，然后直接添加到URL之后。

3.3、dict/floders 和 dict/files目录

3.3.1 dict/floders 和 dict/files目录下的字典介绍:

dict/floders目录下仅仅存放用于组合的目录字典文件,字典的每一行是一个目录,字典文件名命名除后缀外没有要求。
dict/files 目录下仅仅存放用于组合的文件名字典,字典的每一行是一个文件名,字典文件名命名除后缀外没有要求。

3.2.2、dict/floders 和 dict/files目录下的字典处理:

1、从floders目录下的所有文件读取到一个floder列表,并对列表元素进行【规则解析+基本变量替换】
2、从files目录下的所有文件读取到一个file列表,并对列表元素进行【规则解析+基本变量替换】
3、对floder列表和file列表,会以/{floder}/{file}的格式进行遍历拼接(笛卡尔集)。

PS:所有的因变量替换实际是在循环目标的时候处理的,因为只有此时才能获取到所有的因变量

4、字典文件内容编写规则

4.1、字典渲染顺序：

1. 对每一个行路径进行{xxx=xx:xxxx}$ 规则的解析，每行字典路径仅且支持一句解析规则
2. 对基本变量关键字进行替换，每行字典路径支持多个不相同的基本变量
3. 对因变量关键字进行替换，每行字典路径支持多个不相同的因变量

4.2、基础变量介绍

字典内以 %变量名% 格式出现,变量名是从base目录下的字典文件名中动态获取的。
基础变量会在【基本变量替换时】被替换为字典文件的内容。

基本变量替换字典示例：
backup_ext.lst字典文件衍生规则: {'%backup_ext%': ['rar','zip']}

4.3、因变量介绍:

字典内以 %%变量名%% 格式出现,变量名在代码中定义,变量对应的内容获取函数也在代码中定义。
目前内置有【%%domain%%、%%path%%】两个变量,会分别获取域名相关的列表和路径相关的列表。
因变量会在【因变量替换时】被替换为从URL中动态获取的内容。

因变量替换字典示例:
解析 https://www.baidu.com 得到因变量字典: {'%%domain%%': ['baidu','baidu_com','www.baidu.com','baidu.com','www_baidu_com']}

4.4、动态替换规则:

 动态替换规则指字典内以 {规则分类=规则类型(附加参数):实际解析部分}$ 格式出现的字符串。
 因此在字典中使用规则引擎，需要以 { 括号开头，并以 }$ 结尾，
 替换规则有【date、int、str、re】四种规则分类,每种规则可能存在多种规则类型。
 不同的规则的【实际解析部分】有不同的编写格式要求。

规则	说明
re	正则引擎
int	整数
str	字符
date	日期

4.4.1、date类型替换规则:

    {date=日期类型:日期开始-日期结束}$

    规则类型:year(年) 2005-2015
    规则示例:RuleParser('{date=year:2017-2018}$').parse()
    规则输出:['2017', '17', '2018', '18']

    规则类型:mon(月) 1-12
    规则示例:RuleParser('{date=mon:9-10}$').parse()
    规则输出:['9', '09', '10']

    规则类型:day(日) 0-30 
    规则示例:RuleParser('{date=day:9-10}$').parse()
    规则输出:['9', '09', '10']

    规则类型:year_mon(年月) 200501-201512
    规则示例:result = RuleParser('{date=year_mon:201709-201712}$').parse() 
    规则输出:['201709', '20179', '201710', '201711', '201712']

    规则类型:mon_day(月日) 0101-1231
    规则示例: result = RuleParser('{date=mon_day:0928-1003}$').parse() 
    规则输出:['0930', '1001', '0929', '09-29', '1003', '10-01', '09-30', '10-02', '10-03', '1002']

    规则类型:year_mon_day(年月日) 20050101-20151231
    规则示例:RuleParser('{date=year_mon_day:20170111-20170112}$').parse() 
    规则输出:['170112', '20170112', '17-01-12', '2017-01-12']

    规则类型:mon_day_year(月日年) 01012005-12312015
    规则示例:RuleParser('{date=mon_day_year:01112017-01122017}$').parse() 
    规则输出:['2017-01-12', '17-01-12', '170112', '20170112']

    PS：日期会出现的子分类情况，初始位数补充0911,911

4.4.2、int类型替换规则:

    {int=数字类型#元素长度$步长:数字开始-数字结束}$
   
   规则类型:series(正常按照顺序递进,支持$步长选项)
    规则示例:RuleParser('{int=series:1-5}$').parse() 
    规则输出:['1', '2', '3', '4', '5']
    规则示例:result = RuleParser('{int=series$2:1-15}$').parse() #使用步长选项
    规则输出:['1', '3', '5', '7', '9', '11', '13', '15']
    规则提示:
    仅series类型支持步长
    仅series类型长度选项没有实际用处

    规则类型:digits(连号数字)
    规则示例:RuleParser('{int=digits#3:1-5}$').parse() 
    规则输出:['123', '321', '234', '432', '345', '543']
    规则提示:#3表示数字的长度为3

    规则类型:overlap(重叠数字)
    规则示例:RuleParser('{int=overlap#3:1-9}$').parse() 
    规则输出:['111', '222', '333', '444', '555', '666', '777', '888', '999']
    规则示例:RuleParser('{int=overlap#3:11-22}$').parse() 
    规则输出:['111111', '121212', '131313', '141414', '151515', '161616', '171717', '181818', '191919', '202020', '212121', '222222']
    规则提示:#3表示元素的个数为3

4.4.3、str类型替换规则:

    {str=字符类型#元素长度:字符开始-字符结束}$
    
    规则类型:letters(按照顺序递进)
    规则示例:RuleParser('{str=letters#3:a-d}$').parse()
    规则输出:['abc', 'bcd']
    规则提示:#3表示字母的长度为3

    规则类型:overlap(重叠字母)
    规则示例:RuleParser('{str=overlap#3:A-D}$').parse() 
    规则输出:['AAA', 'BBB', 'CCC', 'DDD']
    规则提示:#3表示元素的个数为3

4.4.4、re类型替换规则:

re是正则解析器,会根据正则生成符合正则规则的字符串,是最常用的规则。

已知的正则解析生成器有 exrex、sre_yield,解析结果是相同的,只不过有不同的解析算法。

{re=引擎类型:正则表达式}$

引擎类型:exrex(exrex正则解析引擎)
规则示例:RuleParser('{re=exrex:(201[7-9]{1}[1]{1}[8-9]{1})}$').parse() 
规则输出:['201718', '201719', '201818', '201819', '201918', '201919']

引擎类型:sre_yield(sre_yield正则解析引擎)
规则示例:RuleParser('{re=sre_yield:(201[7-9]{1}[1]{1}[8-9]{1})}$').parse()  
规则输出:['201718', '201818', '201918', '201719', '201819', '201919']

4.5 字典规则编写注意事项

1、字典内的每一行规则最多支持【两个%基本变量%】、【两个%%因变量%%】
2、字典内的每一行规则最多 【一个】解析规则
3、组合目录字典和组合文件字典在进行初次渲染时,会分别进行一次渲染(1-1和1-2次),每一行字典也支持如上两项。

4.6 字典规则调试和验证

1、如果一行字典规则有问题,会显示错误提示,并忽略解析该条规则。

47. 规则报错示例:

错误内容:
    [22:30:20] [-] 每条字典规则仅支持单个{xx=xx:xxxx}$格式规则!!! 
    Rule: /{date=year:2021-2022}$-{re=exrex:([ABC])(%backup_ext%)}$ 
    Error: too many values to unpack (expected 2)
    错误原因:
    本规则内带有了两条解析规则,所以导致了错误。

4.8其他字典规则

1、支持#号注释,对#号开头的行,和频率字符串后面的#号都会进行删除

5、其他使用与配置信息

python3 DynaScan.py -h

usage: DynaScan.py [-h] [-u TARGET] [-f TARGET_FILE] [-p PROXY] [-t thread] [-d] [-v]

optional arguments:
  -h, --help       show this help message and exit
  -u TARGET        指定扫描目标URL, Example: http://www.baidu.com
  -f TARGET_FILE   指定扫描目标URL文件, Example: target.txt
  -p PROXY         指定请求时使用的HTTPS或SOCKS5的代理, Example: http://127.0.0.1:8080 or socks5://127.0.0.1:1080
  -t thread        指定多线程池的最大线程数
  -d debug         显示程序运行时的所有调试信息,默认关闭
  -v version       显示程序当前版本号

Examples:
  python3 DynaScan.py -u http://www.baidu.com
  python3 DynaScan.py -f target.txt
  python3 DynaScan.py -f target.txt -p http://127.0.0.1:8080

  其他控制细节参数请通过Setting.py进行配置

  T00L Version: Ver 0.0.1

####################################################

6、程序参考说明

渲染规则部分主要参考ring04的weakfilescan,另外修复Python3环境的一些错误,并分离了因变量和基本变量的替换。

weakfilescan原版请访问https://github.com/ring04h/weakfilescan