bryarrow / tieba-spider

百度贴吧爬虫,可以爬取单个帖子,包括楼中楼

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Tieba-spider

百度贴吧爬虫,用于爬取单个帖子

使用了RapidJson库,有关的版权声明与开源协议见RapidJson

简介

这是一个功能比较简陋的爬虫,目前只支持单帖子爬取(写个脚本爬多帖子也不是不行233)输出为markdown文档

一开始是为了备份自己喜欢的帖子才做的这个爬虫(我没有找到带楼中楼爬取的,可能是我太菜了QAQ)然后接下来的目标是提高效率,顺便学下面向对象(因为是为了算法竞赛学的编程就只会面向过程),估计会重写很多次吧,会一直 持续 随缘更新


关于settings.json

"path":保存文件的路径
"path_to_python":python3的路径
"is_local":是否使用本地模式,这个是DEBUG的时候节省下载文件的时间用的
"local_files_page_number":本地模式要分析的页数
"tid":帖子编号,就是链接/p/后面的数字
"name":用于保存帖子的文件夹名,应作为path的子文件夹并包含lzl和source文件夹


如何编译?

只需运行g++ main.cpp -o main.exe -D WIN即可(Windows) 有很大的可能性用不了……暂时也不准备改了……


关于综合素质评价招生材料的说明

这个项目是2020年寒假做的,因为高三忙于准备高考没有做什么活动就填在2022年寒假了,但确实是本人独立完成,给您带来的麻烦还请谅解,希望资料审核可以通过。谢谢。


使用GPLv3协议开源。

About

百度贴吧爬虫,可以爬取单个帖子,包括楼中楼

License:GNU General Public License v3.0


Languages

Language:C++ 95.6%Language:C 3.6%Language:Python 0.7%