YuleZhang / NLP_Analysis_JDcomment

多线程爬取电商评论数据,进行情感分析并通过web页面展示效果

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

使用说明

数据集部分

数据集在data目录下,里面包含了测试集数据tmp_test_data.csv,大约有5000条评论数据,共11款手机,便于演示。同时也包含了完整的数据集JDComment_data,大约2,包含进60款手机的评论数据。test_result.csv 是采用完整数据集计算出的各个手机的评论得分,可以用做功能演示。

评论数据采集

除了已经采集好的数据集,也可以通过脚本SpiderScript重新爬取

在安装好Python,以及配置好pip或conda环境之后,在当前位置打开cmd控制台(windows)或者在终端输入(Linux)以下语句执行脚本

python SpiderScript.py

正常执行界面如下图所示,采集完成之后保存到路径data/JDComment_data中

spiderEffect

注意!:保存的JDComment_data文件格式为utf-8-sig,需要打开后重新保存一下,转换成utf-8就可以正常操作了

评论数据情感分析并计算得分

tmp.py和comment_analysis_process都是计算情感分析的python源码,区别只是在于文件格式不同而已,可以根据不同的环境采用不同的脚本。

tmp.py运行方式为在控制台输入python tmp.py

同时也可以使用python tmp.py -h查看并修改默认参数,示例如下(指定密码为1)

comment_analysis_process可以用jupyter notebook或其他ipython IDE打开执行,内容同tmp.py一样

执行之后会将相同手机的评论整合到同一个TXT文件中,以手机名称命名,在input目录下。同时也能自动读取这些文件对其处理求评论得分,包含评论得分的完整手机信息默认存储在data/result.cscv目录下。

关于数据库存储

在配置好本地机器Mysql环境之后,在控制台进行测试,详见mysql配置环境变量(win 10) 。tmp.py脚本执行后,会自动保存到数据库jd_comment中(存储result.csv表)

页面测试

双击打开目录下的index.html,上传data目录下的result数据集进行测试即可,只能在本地演示。演示效果如下图

版本控制

为了便于管理和维护,我已将项目提交到https://github.com/YuleZhang/NLP_Analysis_JDcomment,可以自行下载查阅。

部分参考

python实现多线程爬虫

MySQL的python连接

用python实现文本情感分析

optparse模块

About

多线程爬取电商评论数据,进行情感分析并通过web页面展示效果


Languages

Language:Python 93.5%Language:JavaScript 6.5%