利用Python实现中文文本关键词抽取,分别采用TF-IDF、TextRank、Word2Vec词聚类三种方法。
Geek Repo:Geek Repo
Github PK Tool:Github PK Tool
gekelly opened this issue 5 years ago · comments
我数据集情况,三类标签,每个类别1W条以上数据。我需要每个标签提取20-50个关键词。
由于数据集多大,jieba分词速度慢,占内存大外,用于训练tf-idf时候出现很多负例(无效关键词),影响模型效果。现在自己做法是限制词频。但想问数据集是否过大需要调整么?该怎么做?