WangWuBinG / analysis-of-JD-review-texts

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

根据提供的评论数据 (online_reviews_texts.txt ,见资源 /data ,一行一条评论,因
此一行可以视为一个文档,行 号可以作为文档编号),读入所有文档并分词,统计词频,找
到高频词,确实特征集,为每一条评论生成向量表示,计算一下不同评论之间的距离(自定
义,如欧氏或余弦),能不能找到所有评论的“重心”或者所有评论中的代表性评论并输出
原文?除了词云外,针对多文档数据还有别的可视化方式没有?

About


Languages

Language:Python 100.0%