woshihoujinxin / pythonCollection

python代码集合(文件下载器、pdf合并、极客时间专栏下载、掘金小册下载、新浪微博爬虫等)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

json2mysql

这次更新了将一个json文件中的数据导入到mysql的脚本。 是用nodejs写的。

对应的文件是tomysql.js 有兴趣的同志可以研究下。


pythonCollection(python代码集合)

本项目目前仅在python2.7下实验,其他版本暂不维护,请灵活使用

  • 文件下载器
  • pdf合并工具
  • 极客专栏文章下载
  • 掘金小册下载
  • 新浪微博爬虫

文件下载器(downloader.py)

从数据库或者文件中读取文件url地址,并且下载到本地

依赖库:

  • requests
  • progressbar
  • MySQLdb(如果不从数据库读取数据则不需要)

pdf合并工具(pdfmerger.py)

合并pdf文件

代码正在整理中..

极客专栏文章下载(geeksplider.py)

将你购买的极客专栏,下载为json文件

2019-5-30 更新

近期geek网站加了一个限流的限制,以及请求时间戳的一些验证。

对应的python文件就没更新。加完代理池什么的应该就可以用了。

这次采用了一个新的套路:在浏览器控制台里执行js脚本,发送请求,再将数据存为json文件进行下载。

对应的js文件是geek.js 有兴趣的同学可以研究一下哈,个人感觉还是挺有意思的。

--end

依赖库:

  • requests

文件格式为:

{
    "article_title": "", 
    "audio_time": "", 
    "ctime": 1521993600, 
    "audio_size": 4375851, 
    "pid": 76, 
    "audio_url": "", 
    "mdhtml": "", 
    "audio_download_url": "", 
    "id": 4969, 
    "article_cover": ""
}

可以根据自己的需求灵活改动代码进行使用.

掘金小册下载(juejinxiaoce.py)

将你购买的掘金小册,下载为json格式

依赖库:

  • requests

文件格式为:

{
    "article_title": "", 
    "pid": "", 
    "mdhtml": "", 
    "mdtext": "", 
    "id": "", 
    "createdAt": ""
}

新浪微博爬虫(weibosplider.py)

爬取某个人的新浪微博数据

依赖库:

  • requests
  • MySQLdb(如果不保存到数据库则不需要)
  • logging

本脚本将数据直接存储到数据库,你也可以修改部分逻辑,存储到其他地方。

灵活使用,代码仅供参考

issue

使用中遇到问题,可以在该项目下提issue issues入口

PR

如果你也有好用的小工具要分享,请new pull request

About

python代码集合(文件下载器、pdf合并、极客时间专栏下载、掘金小册下载、新浪微博爬虫等)

License:MIT License


Languages

Language:Python 74.8%Language:JavaScript 25.2%