关于tf-idf模型候选数据集过大，是否越大越好？

Question

gekelly opened this issue 5 years ago · comments

我数据集情况，三类标签，每个类别1W条以上数据。我需要每个标签提取20-50个关键词。

由于数据集多大，jieba分词速度慢，占内存大外，用于训练tf-idf时候出现很多负例（无效关键词），影响模型效果。现在自己做法是限制词频。但想问数据集是否过大需要调整么？该怎么做？