根据提供的评论数据 (online_reviews_texts.txt ,见资源 /data ,一行一条评论,因 此一行可以视为一个文档,行 号可以作为文档编号),读入所有文档并分词,统计词频,找 到高频词,确实特征集,为每一条评论生成向量表示,计算一下不同评论之间的距离(自定 义,如欧氏或余弦),能不能找到所有评论的“重心”或者所有评论中的代表性评论并输出 原文?除了词云外,针对多文档数据还有别的可视化方式没有?
根据提供的评论数据 (online_reviews_texts.txt ,见资源 /data ,一行一条评论,因 此一行可以视为一个文档,行 号可以作为文档编号),读入所有文档并分词,统计词频,找 到高频词,确实特征集,为每一条评论生成向量表示,计算一下不同评论之间的距离(自定 义,如欧氏或余弦),能不能找到所有评论的“重心”或者所有评论中的代表性评论并输出 原文?除了词云外,针对多文档数据还有别的可视化方式没有?