新词发现问题

Question

新词发现问题

niutyut opened this issue 4 years ago · comments

这个包在分词时候是否采取了满足条件后，扩展边界的方式找到符合条件的词汇呢？比如“马克思派的帝国主义”这是要找的词，设定min_n=4，max_n=10，那么"马克思派"先找出来？然后再扩展右边界？找到“马克思派的”？不太清楚这个包的机制。希望能指点一下。

Yvette-Wang · Answer 1 · Thu Mar 26 2020 11:22:47 GMT+0800 (China Standard Time)

并没有采取扩展边界的方式，在计算过程中，“马克思派的帝国主义”与"马克思派"的score是同时计算并比较的。但是“马克思派的帝国主义”词长太长，就算文本量很大的情况下，出现次数可能也不多，也就很难出现在比较丰富的语境下，这使得该词语score不会太高。这个包目前的实验选择的最大ngram范围是min_n=2,max_n=5。