xrogzu / spider-design

可视化爬虫以流程图的方式,在界面自定义爬虫,是一个高度灵活可配置的爬虫平台。基于spider-flow,整合各种插件

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

2023-03-08

  • 把spider-spider 修改为 spider-design
  • 并设置版本为0.6.0

2023-03-07

  • 新增spider-design-elasticsearch插件
  • 使用maven的revision

2023-03-06

  • 新增spider-design-plugin插件模块
  • 把mailbox、minio、mongodb、ocr、oss、redis、selenium、translate插件移入spider-design-plugin插件

2023-03-03

  • 配置中中文乱码问题,把配置文件properties修改为yml
  • fix升级版本后阿里云翻译翻译报错
  • 翻译接口调整为翻译内容为空时候不调用翻译接口
  • 调整翻译接口的命名
  • 翻译报错添加日志打印

2023-03-02

  • 新增URL函数${url.completeUrl(strVar,'./a.html')}
  • 新增string函数${string.defaultIfEmpty(str1,str2)}
  • 引用hutool工具包
  • 翻译新增使用默认平台功能。
  • 把commons-io、commons-codec工具包替换为hutool工具包
  • 升级mongodb到3.12.12
  • 升级springboot版本,从2.0.7.RELEASE升级到2.7.9
  • 升级mybatis.plus到3.5.3.1
  • 升级guava到31.1-jre
  • 升级连接池druid到1.2.16
  • 升级fastjson到1.12.83
  • 升级transmittable到2.14.2
  • 升级selenium版本到4.8.1

2023-03-01

  • 升级为0.5.1版本
  • 新增spider-design-translate翻译插件

2022-11-11

  • 升级mysql驱动版本为8.0.31

  • 整合插件

翻译插件

minio插件

Selenium插件

Redis插件

OSS插件

Mongodb插件

IP代理池插件

OCR识别插件

电子邮箱插件

介绍 | 特性 | 插件 | DEMO站点 | 文档 | 更新日志 | 截图 | 其它开源 | 免责声明

介绍

平台以流程图的方式定义爬虫,是一个高度灵活可配置的爬虫平台

特性

  • 支持Xpath/JsonPath/css选择器/正则提取/混搭提取
  • 支持JSON/XML/二进制格式
  • 支持多数据源、SQL select/selectInt/selectOne/insert/update/delete
  • 支持爬取JS动态渲染(或ajax)的页面
  • 支持代理
  • 支持自动保存至数据库/文件
  • 常用字符串、日期、文件、加解密等函数
  • 支持插件扩展(自定义执行器,自定义方法)
  • 任务监控,任务日志
  • 支持HTTP接口
  • 支持Cookie自动管理
  • 支持自定义函数

插件

项目部分截图

爬虫列表

爬虫列表

爬虫测试

爬虫测试

Debug

Debug

日志

日志

其它开源项目

免责声明

请勿将spider-design应用到任何可能会违反法律规定和道德约束的工作中,请友善使用spider-design,遵守蜘蛛协议,不要将spider-design用于任何非法用途。如您选择使用spider-design即代表您遵守此协议,作者不承担任何由于您违反此协议带来任何的法律风险和损失,一切后果由您承担。

About

可视化爬虫以流程图的方式,在界面自定义爬虫,是一个高度灵活可配置的爬虫平台。基于spider-flow,整合各种插件

License:MIT License


Languages

Language:Java 100.0%Language:Dockerfile 0.0%