新词发现数据量的选择
shenxuhui opened this issue · comments
感谢建议!无监督的新词发现方法,在小数据量上也很难有好的效果。我们选择这个方法也是希望能够根据不同的 文本及文本量 决定需要过滤的词,减少新词发现结果的标注成本。我们会在代码中添加相关注释~
Originally posted by @Yvette-Wang in #32 (comment)
您好,小数据量很难有好的效果。请问新词发现功能推荐在多大的数据量会比较合适(或者至少多大的语料),也好针对性的权衡时间和效果。
SmoothNLP/tutorials有给出一些语料以及对应的数据量示例,36kr新闻的话建议10万条以上。如果倾向于避免好词误删,可以将threshold再调大,如threshold=int(len(target_ngrams)*0.005)。