新浪新闻挖掘分析

环境

本项目主要包含三个部分，即scrapy爬虫框架、reload.py聚类文本分析、UI.py聚类效果可视化。

在项目目录打开控制台输入scrapy crawl spider_name，即可运行scrapy爬虫，自动采集数据集。

效果如下图所示

在当前目录控制台输入python reload.py，即可自动读取爬好的数据进行分析工作。这部分处理的思路是先将文章的文本分词，随后读取常用停用词表去停用词。根据处理好的此表生成词向量并计算TF-IDF值评估各个词向量，并采用Kmeans聚类分析效果（3类），每个聚类提取十个主题词效果如下图

最终采用PCA将高维数据降到两位，并保存生成的图片。

采用TKinter库显示聚类效果以及打印部分爬取得新闻信息，效果如下图

scrapy爬取C114、通信新闻、飞象网的新闻信息，按照运营、技术、云计算三个主题爬取并聚类分析

Language:Python 97.6%Language:TSQL 2.4%