AimeeLee77 / keyword_extraction

利用Python实现中文文本关键词抽取,分别采用TF-IDF、TextRank、Word2Vec词聚类三种方法。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

关于TF-IDF导出乱码问题

ShawWang1991 opened this issue · comments

用的是Python3,但在导出CSV时,关键词是'b'\xe7\x94\等,想问一下如何转换成汉字?

commented

找了半天解决方法,亲测有效~getKeywords_tfidf函数中改为:keys.append(word_split)

keys.append(word_split)

NB 在控制台显示是正常了 但是现在又写不进去csv里了 我再研究看看

为啥在控制台是正常的简体字 一写进csv就乱码了呢

commented

是不是写入csv文件时没声明编码格式呢?
我是这样保存的:
result.to_csv("keys_TFIDF.csv", header=1, index=0, encoding='utf_8_sig')

是不是写入csv文件时没声明编码格式呢?
我是这样保存的:
result.to_csv("keys_TFIDF.csv", header=1, index=0, encoding='utf_8_sig')

我的是python2 好像不支持 我直接去csv里改编码了
谢谢回复

name.append(word.encode('utf8'))把这种encode去掉就行了