tmzncty / Crawler-http-122.200.75.13

一个针对于 http://122.200.75.13/ 其内容的爬虫

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Crawler-http-122.200.75.13

一个针对于 http://122.200.75.13/ 内容的爬虫

2021 年 1 月 8 日开始

Crawer-1 为爬取内容的代码

Crawer-4 为爬取目录的URL的代码

其中解决了 UTF-8 编码和 ASCII 编码的转换问题,参考对应函数

2021 年 1 月 11 日 21:56:04 初步完成

12.txt 是最终成果

change pages 是最终文件(原谅我没写注释,不过应该看得懂)

list 是获得目录的源代码

adjust URL 是转码 URL 以及对其判断,顺便实现翻页功能。

Crawer2.0.1 实现遍历三级目录功能,但是未测试

About

一个针对于 http://122.200.75.13/ 其内容的爬虫

License:Mozilla Public License 2.0


Languages

Language:Python 100.0%