所需知识

首先研究贴子的HTML结构，看看你要爬的数据都在什么位置，建议使用chrome的审查元素功能。
requests库只用到了requests.get('url')来获取网站源码,快速入门请看requests官方文档
lxml.etree库只用到了etree.HTML('str')来将str格式化为HTML，进而使用xpath来查找想要的元素。快速入门请看xpath菜鸟教程，建议百度多搜搜相关资料，搞清楚绝对路径和相对路径。chrome审查元素功能下，右键相应的元素，选择copy，可以拿到该元素的xpath路径。
python也用到了最基本的语法，有什么不会的可以边百度边写。

About

百度贴吧的爬虫，以北京工业大学吧为测试用例。

MIT License

Language:Python 100.0%