Moonium / Spider4Novel

Spider4Novel

这是为学习《海量数据处理》课程准备的简单文本爬虫作业.

主要利用Python爬虫对两个小说网站进行了按章节的文本爬取实验，并将结果输出到txt文件中：

处理方法：

对于前者，直接在Chrome浏览器中审查元素，利用request获取html源码，利用re正则表达式进行筛选，最后replace进行数据清洗.
对于后者，采取同样的思路处理，发现网页会有一个加载的过程，无法爬取到正确的内容。因此使用selenium等待文本加载完毕后再读取.

About

Languages

Language:Python 100.0%