新词发现数据量的选择

Question

shenxuhui opened this issue 4 years ago · comments

感谢建议！无监督的新词发现方法，在小数据量上也很难有好的效果。我们选择这个方法也是希望能够根据不同的文本及文本量决定需要过滤的词，减少新词发现结果的标注成本。我们会在代码中添加相关注释~

Originally posted by @Yvette-Wang in #32 (comment)

您好，小数据量很难有好的效果。请问新词发现功能推荐在多大的数据量会比较合适（或者至少多大的语料），也好针对性的权衡时间和效果。

Yvette-Wang · Answer 1 · Tue Feb 18 2020 15:03:33 GMT+0800 (China Standard Time)

SmoothNLP/tutorials有给出一些语料以及对应的数据量示例，36kr新闻的话建议10万条以上。如果倾向于避免好词误删，可以将threshold再调大，如threshold=int(len(target_ngrams)*0.005)。