zhongwf / PhotoKeywordCluster

图片描述聚类的简单例子

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

PhotoKeywordCluster

图片描述聚类的简单例子

前段时间加了个微信好友,发现这位研发工程师的动态很好玩。一般人在朋友圈里写评论也就对一篇内容发表看法。他比较特别,评价的内容经常对成百上千份内容。比如评论上百首民谣歌词(链接)、分析《人民的名义》的六万多份用户的影评(链接)。

这些评论明显是用自然语言处理程序分析出来的,机器学习听了那么多,总算见到一个身边的实例了。受到这位工程师的启发,我准备用机器学习来做个实际应用,分析摄影师通常在什么环境会拍照片?

经过一番搜索、尝试,终于写完程序,得到处理结果如下图示。运行结果出乎意料的好,不仔细看很难发觉是机器自动处理的结果!关键字被聚成了7类:1是拍摄地点,2是环境,4是时机 ,5是表达主题,6是拍摄的技术动作,7是人物,3是其余的内容。

处理过程如下:

1.把中文语料数据(2016年搜狐新闻,2G)用分词工具(Jieba)分词后,再用Word2Vec分析出词组向量。程序运行了10个小时!

2.从摄影网站把摄影作品描述数据扒下来(Scrapy),分词后筛出前200个高频词组,然后再用第一步的词组向量聚类成七类(KMeans)。

参考:

About

图片描述聚类的简单例子

License:MIT License


Languages

Language:Python 100.0%