yefengchun / Web-Crawler-of-Chinese-Fiction

基于python的中文网络小说爬虫/下载器,可以爬取并校对网络小说,输出txt文件

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

基本资料

  • 名称:【小说爬虫】
  • 版本:1.1.1 (点此下载最新版)
  • 要求:Win 10 或以上
  • 功能:从小说网站抓取小说内容,排版并保存为TXT文档。
  • 教程:点此查看使用方法,请务必跟着教程一步一步来。
  • 备注:本软件免费且无毒。若出现任何问题,一是没按操作来,二是用了【支援的网站】以外的网站,三是在繁忙时间使用,网站伺服器处理不过来。点此查看源代码

预览图片

demo

制作目的

  • 提供一款真正简单易用的小说下载器。
    • 仅需复制粘贴网址,点击开始按钮。
  • 方便使用封闭式阅读器的朋友以及需要离线阅读的中小学生追书。
    • 一经建立书单,后续一键下载最新章节TXT。
  • 提供排版过的原始小说文本。
    • 排版格式为:标题不缩进,段落缩进两个中文全角空格,章节间空两行。同时自动去除网址等广告。
  • 方便分享书籍。
    • 只要将 book_info.html 文件分享给别人,别人就能够使用你的书单。

使用方法

  • 从【支援的网站】中选择一本你中意的书,点开目录页面。(请勿使用其它网站!!!)
  • 复制目录页面的网页链接。
    • 例如:复制以上链接
  • 回到应用,手动输入书名至【书名栏】,并复制链接至【链接栏】。
  • 点击右侧【添加数据】按钮,将书籍放入候选区。
      • 道诡异仙 <- 候选区状态
  • 在候选区勾选书籍,点击【开始下载】,即可开始下载。
      • 道诡异仙 <- 候选区状态
  • 下载完成后,点击【查看文件】按钮,打开装有已下载文件的文件夹。
    • 你会在文件夹里见到 道诡异仙.txt
  • 如有再次下载的需要,请点击【保存书单】,以便下次打开时恢复数据。
    • 注:应用程序同一目录下名为 book_info.html 的文件是用户自己创建的书单,请勿删除。

支援的网站

网站名 网址 书目数量 优点 缺点
31小说网 https://www.31xs.net 73000+ 更新快,质量高 目前无法使用
UU看书 https://www.uuks.org 65000+ 质量高 暂未发现
飘天文学 https://www.ptwxz.com 8800+ 质量高 书籍少,有屏蔽字
爱笔楼 https://www.ibiquge.net 无法统计 超多书! 质量低,或有广告
笔趣阁① http://www.bqxs520.com 无法统计 更新快 质量低,或有广告

更新计划

  • 添加只爬取最近100章按钮,避免浪费时间空间以及对网站造成负荷。v1.0 已更新
  • 将使用教程转移至Github,令页面更简洁。v1.1 已更新
  • 修改用户保存的书单,从用户不可见格式修改为html格式,将书单打造成一个网站导航页面,方便用户浏览网站。v1.1 已更新
  • 修改UI设定,添加一键打开文件夹选项,方便用户爬取完后直接打开文件夹获得TXT文件。v1.1 已更新
  • 尝试建立小说索引库,可以直接在应用内搜索并爬取。预计 v1.2 更新 (如果有赞助的话)
  • 扩充支援的网站。预计 v1.3 更新 (如果有赞助的话)
后续版本不会有大更新,但还是会根据我自己的使用情况有更新。

备注

怎么说呢,原本只是想写一段代码方便自己下书,写着写着就搞成了这样。果然还是太闲,啧。

免责声明

  1. 【小说爬虫】对爬取速度进行了极大的限制,已尽量减少对网站的负担。
  2. 【小说爬虫】是一款解析指定规则并获取内容的工具,为广大网络文学爱好者提供一种方便、快捷舒适的试读体验。
  3. 您可以自行浏览源代码,添加正则表达式,从选定的网页上下载文字至txt文档,也可使用预定义的网站。
  4. 各第三方网站返回的内容与【小说爬虫】无关,【小说爬虫】对其概不负责,亦不承担任何法律责任。
  5. 任何通过使用【小说爬虫】而链接到的第三方网页均为他人制作或提供,您可能从第三方网页上获得其他服务,【小说爬虫】对其合法性概不负责,亦不承担任何法律责任。
  6. 您可能从第三方网页上获得其他服务,【小说爬虫】对其合法性概不负责,亦不承担任何法律责任。
  7. 对于第三方网站之内容与立场,【小说爬虫】不会支持或反对,您应该对下载文章的内容自行承担风险。
  8. 【小说爬虫】不做任何形式的保证:不保证搜索服务不中断,不保证搜索结果的安全性、正确性、及时性、合法性。
  9. 因网络状况、通讯线路、第三方网站等任何原因而导致您不能正常使用【小说爬虫】,阅读不承担任何法律责任。
  10. 【小说爬虫】致力于最大程度地减少网络文学阅读者在自行搜寻txt文档过程中的无意义的时间浪费
  11. 【小说爬虫】鼓励广大小说爱好者通过阅读发现优秀网络小说及其提供商,并建议阅读正版图书。
  12. 任何单位或个人认为通过【小说爬虫】搜索链接到的第三方网页内容可能涉嫌侵犯其信息网络传播权,应该及时向阅读提出书面权力通知,并提供身份证明、权属证明及详细侵权情况证明。
  13. 【小说爬虫】在收到上述法律文件后,将会依法尽快断开相关链接内容。

About

基于python的中文网络小说爬虫/下载器,可以爬取并校对网络小说,输出txt文件


Languages

Language:Python 94.0%Language:HTML 6.0%