kidbei / jcspider

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

jcspider

功能介绍

基于java8实现的类似pyspider的爬虫系统,目标在于实现规则实时更新、异常报警、分布式调度、多种语法兼容(javascript/python/groovy/lua等等)的垂直爬虫系统。目前已经支持JavaScript语法,并有了前端管理界面。可以在线调试、开启/停止爬虫任务。该爬虫系统是为了自己做一些抓取供研究使用,严禁用于非法内容抓取。

使用截图

登录界面

logo

爬虫管理界面

list

爬虫开发页面

dev

爬虫debug

debug

日志

log

实现方案

基于JSR223规范实现多语言支持,目前使用nashorn实现了JavaScript支持,提供一些内置函数,尽量让爬虫开发者使用少量语法来实现规则配置。

TODOLIST

  • 分布式实现(通过定制dispatcher和process模块)
  • 完善报警机制
  • 支持多语言(python/groovy)

语法介绍

todo

About


Languages

Language:Java 99.1%Language:JavaScript 0.9%