jluzhuzi / python-rmrb

抓取人民日报时评文章

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

为什么写这个?

我是一名教师,原华图公基、申论、面试讲师。

做我们这行的,经常引入人民日报评论员文章作为学生练习的训练素材。

为了快速抓取文章,做成文集,我就写了这个小脚本。

我本硕都是学哲学的,自学只为解决生活中的问题,所以代码写的不好,请大神们不要喷。

联系我:liulizhucn#qq.com

微信:zhuzicn

功能

抓取人民日报时评文章,生成带文章标题和正文的docx文件。

其中docx文件中,文章标题为H1样式。

因为人民日报只显示最新的200篇,所以本程序只能抓取最多200篇。。。。。

使用方法

请安装Python3环境,并安装bs4、python-docx这两个库

然后在本文件所在目录中打开终端,输入命令python3 rmrb.py ,等待一段时间,它会自动下载并拼接为docx文件。

不完美

生成的docx文件没有目录,部分文章字体不一定正常,可能需要重设字体。我在Mac下写的代码,不清楚win下会怎么样,估计应该能用。

About

抓取人民日报时评文章

License:GNU General Public License v3.0


Languages

Language:Python 100.0%