hibikilogy / spiders

爬取论坛文章并生成指定格式 markdown 的爬虫。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

b站文章爬虫更新

lrioxh opened this issue · comments

feat:

  • 添加基于chrome的动态渲染爬取,需要下载浏览器版本对应的driver并指定路径,用于头图等动态元素爬取
  • 添加默认header
  • 图像批量保存至images/{date}文件夹
  • 规范化命名,去除特殊字符
  • 添加参数配置,可通过修改config.py/命令行输入控制参数,详见readme

fix:

  • b站更新导致的原匹配不成功

TODO:

  • 尝试pandoc的html转md
  • 仍需较多人工校对