tmzncty / harvard_qirushan

爬取哈佛大学图书馆的齐如山书。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

我想到哪写哪,不一定准确

1.最初的想法

书的链接 本来是说先获取所有书的链接,再取每本书具体内容的。分析一下上面的源代码,可以看出不是写在HTML里面的。 这样一来,就分析一下具体的书。比如说 新刻出像點板時尚崑腔雜出醉怡情 : 8卷 / 菰蘆釣叟點次.[China] : 古吳致和堂, 清初, [i.e. between 1644 and 1735] 8 册. 分析一下链接,你是不是发现了什么。 首先是头部都随意,但是drs后面就是书的编号,然后1是书的页码,是不是就很明确了。

接下来就很好办了,我就打算写代码了。

但是

去看一下json文件,找到default.jpg你会发现编号基本上都是一样的,json文件感谢哈佛大学提供在右上角那个i的图标处,点开即可。 这样就直接IDM批量下载,*作为通配符写一下就行。

然而,你觉得事情有这么简单?

的确没有,挂着代理下载,然后确认页数,一本一本的下载,最后合成PDF。

最后

如果要的人直接拿吧。 https://tmzncty.cn/post/174/

About

爬取哈佛大学图书馆的齐如山书。


Languages

Language:Python 100.0%