smoothnlp / SmoothNLP

专注于可解释的NLP技术 An NLP Toolset With A Focus on Explainable Inference

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

新词发现问题

niutyut opened this issue · comments

这个包在分词时候是否采取了满足条件后,扩展边界的方式找到符合条件的词汇呢?比如“马克思派的帝国主义”这是要找的词,设定min_n=4,max_n=10,那么"马克思派"先找出来?然后再扩展右边界?找到“马克思派的”?不太清楚这个包的机制。希望能指点一下。

并没有采取扩展边界的方式,在计算过程中,“马克思派的帝国主义”与"马克思派"的score是同时计算并比较的。但是“马克思派的帝国主义”词长太长,就算文本量很大的情况下,出现次数可能也不多,也就很难出现在比较丰富的语境下,这使得该词语score不会太高。这个包目前的实验选择的最大ngram范围是min_n=2,max_n=5。