ChengCY-2254 / shuba

69书吧爬虫 https://69shuba.cx/index.html

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

69shuba-download

Rust

从69书吧网下载书籍,使用edge WebDriver进行内容抓取。

如需此项目进行抓取,需要启动WebDriver并默认监听在9515端口

由于有些代理软件会妨碍对WebDriver的连接,一定不要放弃,请多尝试一下其它的代理软件,或者探索你所使用的代理软件功能,我本人没遇到过这个问题,也没有第二个设备来调试,多折腾折腾代理软件吧(开个全局代理之类的?)

研究中,目前没什么办法,有办法也测试不了。

从目录页下载

./shuba -l https://69shuba.cx/book/46869/

下载单章

./shuba -l https://69shuba.cx/txt/46869/31308058

使用-a可链接远程WebDriver主机进行数据抓取

这里在ip为10.0.0.1的主机上使用edge进行数据抓取。

./shuba -a http://10.0.0.1:9515 -l https://69shuba.cx/book/46869/

由于69shuba屏蔽了**大陆的ip所以添加了代理检查,如果不想检查则可以添加-c参数以跳过检查。

./shuba -a http://10.0.0.1:9515 -l https://69shuba.cx/book/46869/ -c

添加代理选项,参数为--proxy仅支持socks5代理。
在一个远程主机上通过代理的方式抓取内容

./shuba -a http://10.0.0.1:9515 -l https://69shuba.cx/book/46869/ -proxy socks5://10.0.0.251:1082

Future

  • 支持浏览器代理
  • 下载章节
  • 下载全本
  • 远程连接WebDriver进行抓取

About

69书吧爬虫 https://69shuba.cx/index.html


Languages

Language:Rust 100.0%