smoothnlp / SmoothNLP

专注于可解释的NLP技术 An NLP Toolset With A Focus on Explainable Inference

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

新词发现数据量的选择

shenxuhui opened this issue · comments

感谢建议!无监督的新词发现方法,在小数据量上也很难有好的效果。我们选择这个方法也是希望能够根据不同的 文本及文本量 决定需要过滤的词,减少新词发现结果的标注成本。我们会在代码中添加相关注释~

Originally posted by @Yvette-Wang in #32 (comment)

您好,小数据量很难有好的效果。请问新词发现功能推荐在多大的数据量会比较合适(或者至少多大的语料),也好针对性的权衡时间和效果。

SmoothNLP/tutorials有给出一些语料以及对应的数据量示例,36kr新闻的话建议10万条以上。如果倾向于避免好词误删,可以将threshold再调大,如threshold=int(len(target_ngrams)*0.005)。