Yezh1i / For-Newspaper

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

For-Newspaper

​ 实现对其当前模板网站(http://paper.people.com.cn/)新闻文章的下载。可以输入要爬取的

日期以及结束日期,将这些日期内的文章全部爬取下来,以日期为名自动生成一个主存储目

录,爬取到的文章保存写入 txt 文件中,每个文本的存储名字以日期加序号存储。

本程序需要在 python 下,并且需要下载程序依赖的包才能运行。本程序需要用到的包主 要有:requests、bs4、os、datetime。 程序总体结构设计 ​ 该爬虫程序设计用户界面,基于 python 环境,使用流程为:输入需要爬取的开始日期,结束日期、回车后等待爬取即可,爬取完成后会有提 示。工作流程为:根据输入的日期拼接 URL,获取当天报纸的各版面的链接列表,再获取报 纸版面的文章链接列表,然后解析 HTML 网页,获取新闻的文章内容,获取到文章标题和正 文信息后写入到对用的文件中,最后程序结束运行并提示已经爬取完成。

About


Languages

Language:Python 100.0%