博物馆新闻采集分析子系统

通过程序能从主要的新闻网站上爬取博物馆相关的新闻信息，进行加工处理。主要包括以下功能：

两个子项目

数据获取、数据加工、数据分析功能，合并到了一个Scrapy项目中，即museum_news_spider项目中
api中封装了数据定制api/group2/get_new_info.js文件，使用node.js架构，通过后端接口向前端返回json格式的数据，以完成数据定制服务。

新闻表-new

序号	字段	类型	默认值	PK	FK	描述
1	id	int(11)		是	是	新闻id
2	title	varchar(255)		否	否	新闻标题
3	author	varchar(255)		否	否	新闻作者
4	time	datetime		否	否	新闻时间
5	content	longtext		否	否	新闻摘要
6	url	longtext		否	否	新闻url
7	tag	int(11)	1	否	否	新闻正负

新闻与博物馆关系表-museum_has_new

序号	字段	类型	默认值	是否NULL	PK	FK	描述
1	new_id	int(11)		否	是	是	新闻id
2	museum_id	int(11)		否	是	是	博物馆id

该爬虫用来从网页爬取新闻
本地运行：
- scrapy crawl newspider :默认输入爬取的是 博物馆 新闻在所有时间范围内
- scrapy crawl newspider -a startTime=2020-05-17 -a endTime=2020-05-18：爬取的是 博物馆 在指定时间内的新闻
- scrapy crawl newspider -a museum=故宫博物馆：爬取的是 故宫博物馆 在所有时间范围的新闻
- scrapy crawl newspider -a museum=故宫博物馆 -a startTime=2020-05-17 -a endTime=2020-05-18: 爬取的是 故宫博物馆 在指定时间范围内的新闻
服务器运行
- curl http://192.144.239.176:6800/schedule.json -d project=museum_news_spider -d spider=newspider :默认输入爬取的是 博物馆 新闻在所有时间范围内
- curl http://192.144.239.176:6800/schedule.json -d project=museum_news_spider -d spider=newspider -d startTime=2020-05-17 -d endTime=2020-05-18：爬取的是 博物馆 在指定时间内的新闻
- curl http://192.144.239.176:6800/schedule.json -d project=museum_news_spider -d spider=newspider -d museum=故宫博物馆：爬取的是 故宫博物馆 在所有时间范围的新闻
- curl http://192.144.239.176:6800/schedule.json -d project=museum_news_spider -d spider=newspider -d museum=故宫博物馆 -d startTime=2020-05-17 -d endTime=2020-05-18: 爬取的是 故宫博物馆 在指定时间范围内的新闻

运行时参数为 museum startTime endTime不要写错，博物馆名称不用加引号，时间格式为：%Y-%m-%d

startTime和endTime可以指定其中一个，也可以全部指定

该爬虫用来提取新闻原文，从中筛选出与该新闻有关的博物馆，同时进行新闻文本分析
本地运行：
- scrapy crawl NewsTest: 从数据库中取出新闻原文，并进行文本分析
- scrapy crawl -o output.json: 从数据库中取出新闻原文进行文本分析，将结果输出到output.json文件中
服务器运行
- curl http://192.144.239.176:6800/schedule.json -d project=museum_news_spider -d spider=NewsTest: 从数据库中取出新闻原文，并进行文本分析

curl http://192.144.239.176:6800/listjobs.json?project=museum_news_spider: 获取服务器上museum_news_spider项目中正在运行的爬虫信息
curl http://192.144.239.176:6800/cancel.json -d project=museum_news_spider -d job=8c9f5d769b8711eaab2a5254000fd2ba: 停止服务器中museum_news_spider项目中id为8c9f5d769b8711eaab2a5254000fd2ba的爬虫
curl http://192.144.239.176:6800/listspiders.json?project=museum_news_spider: 获取服务器上museum_news_spider中的所有爬虫项目名称
curl http://192.144.239.176:6800/delete.json -d project=MuseumNews: 删除服务器上名字为museum_news_spider中的爬虫项目