AimeeLee77 / keyword_extraction

利用Python实现中文文本关键词抽取,分别采用TF-IDF、TextRank、Word2Vec词聚类三种方法。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

关于tf-idf模型候选数据集过大,是否越大越好?

gekelly opened this issue · comments

commented

我数据集情况,三类标签,每个类别1W条以上数据。我需要每个标签提取20-50个关键词。

由于数据集多大,jieba分词速度慢,占内存大外,用于训练tf-idf时候出现很多负例(无效关键词),影响模型效果。现在自己做法是限制词频。但想问数据集是否过大需要调整么?该怎么做?