SailHe / crawling

crawling

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

crawling

爬虫项目

link-validator

校验爬虫: 适用于对大量网站的可用性确认

用于检验指定文件中的URL的有效性

  • 源文本文件输出为Markdown格式
  • 命令行
  • 指定http代理
  • 无效文件使用invalid前缀标识
  • 输出文件查重
  • 自动化测试用例

用法

node ./cli.js -i "源文件路径 一行视为一个链接" -o "输出文件路径 输出格式为markdown格式 无效的链接会直接在标题示意" -t "title 表示markdown文件的标题"
node ./cli.js -i "./res/test/test.txt" -o "./res/test/test.md" -t "【搜索引擎】"

About

crawling

License:GNU Lesser General Public License v3.0


Languages

Language:JavaScript 100.0%