Tieba-spider

百度贴吧爬虫，用于爬取单个帖子

简介

这是一个功能比较简陋的爬虫，目前只支持单帖子爬取（写个脚本爬多帖子也不是不行233）输出为markdown文档

一开始是为了备份自己喜欢的帖子才做的这个爬虫（我没有找到带楼中楼爬取的，可能是我太菜了QAQ）然后接下来的目标是提高效率，顺便学下面向对象（因为是为了算法竞赛学的编程就只会面向过程），估计会重写很多次吧，会一直持续随缘更新

关于settings.json

"path":保存文件的路径
"path_to_python":python3的路径
"is_local":是否使用本地模式，这个是DEBUG的时候节省下载文件的时间用的
"local_files_page_number":本地模式要分析的页数
"tid":帖子编号，就是链接/p/后面的数字
"name":用于保存帖子的文件夹名，应作为path的子文件夹并包含lzl和source文件夹

如何编译？

只需运行g++ main.cpp -o main.exe -D WIN即可（Windows）有很大的可能性用不了……暂时也不准备改了……

关于综合素质评价招生材料的说明

这个项目是2020年寒假做的，因为高三忙于准备高考没有做什么活动就填在2022年寒假了，但确实是本人独立完成，给您带来的麻烦还请谅解，希望资料审核可以通过。谢谢。

使用GPLv3协议开源。

About

百度贴吧爬虫，可以爬取单个帖子，包括楼中楼

GNU General Public License v3.0

Languages

Language:C++ 95.6%Language:C 3.6%Language:Python 0.7%