AimeeLee77 / keyword_extraction

利用Python实现中文文本关键词抽取,分别采用TF-IDF、TextRank、Word2Vec词聚类三种方法。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

关于乱码问题

mikiihuang opened this issue · comments

大佬您吼~~我按照您word2vec+聚类的代码跑了一遍,但是输出的csv文件的关键词一直存在着编码的问题,key那一列对应的是b"b'\xe8\x8d\xaf\xe7\x89\xa9' b'\xe5\x..这种格式,不知道您有没有好的建议可以修改?

哈哈哈哈哈 我改好啦~~~谢谢大佬的代码啦~~(#^.^#)

可以分享一下解决方法吗?

哈哈哈哈哈 我改好啦~~~谢谢大佬的代码啦~~(#^.^#)

我也一样遇到这个问题了,请问怎么解决的?

哈哈哈哈哈 我改好啦~~~谢谢大佬的代码啦~~(#^.^#)

我也一样遇到这个问题了,请问怎么解决的?

具体改的哪里我记不清了,还是中文编码的问题,看一下那个读取的csv文件是什么编码方式,然后找代码里哪里读入的,你可以在读入的时候打印一下是不是这个时候就变成乱码了,然后一点一点的改。

把里面的encode都给去了就好了,楼主的是2.7的版本

name.append(word.encode('utf8'))把这种encode去掉就行了

image
name.append(word.encode('utf8'))把这种encode(‘utf8’)去掉就okok