左右熵的问题

Question

左右熵的问题

niutyut opened this issue 4 years ago · comments

这个包处理的左右熵不是在实际语境中候选词的左右熵，是用ngram组合后的词的左右熵。例如选择一个ngram的范围为2-4.如果一个句子是abcd，那么组合出来的词汇是ab，bc，cd，abc，bcd，abcd。假设要考虑bc是不是一个独立词汇，它的左熵变成了ab，右熵变成了cd。我觉得这是不合理的。因为这不是一个具体的文字的语境。所以导致算出来的结果不正确。因为到了abcd这个词的时候没有了右熵，而且abcd到底是不是一个正确的词也不清楚。因此希望技术人员能够从算法原理上给予一点解释。

Yvette-Wang · Answer 1 · Tue Mar 24 2020 16:37:05 GMT+0800 (China Standard Time)

如果选择ngram的范围为2-4，计算过程中会生成1-5的ngram。假设要考虑bc是不是一个独立词汇，将会统计bc在所有文本中的前后字符。如果bc是一个独立词汇，bc在所有文本中可能以{bcd，bcf，bca...}等多种形式出现，基于这些全局的统计结果计算右熵，在文本量足够大的情况下，我们可以认为统计结果已经接近具体的文字的语境，同理可以基于bc左边字符的出现情况{abc，xbc，lbc，hbc...}计算左熵。假设要考虑abcd是不是一个独立词汇，由于计算过程生成了5gram，所以可得到包含abcd的所有长度为5的字符串，如{abcde，abcdf，abcdk...}，由此可计算右熵。

niutyut · Answer 2 · Wed Mar 25 2020 19:28:08 GMT+0800 (China Standard Time)

还有个问题是，提取出的字符串中包含它的子串。例如“abaacdef”，“baacdem”，“daacfp”，其中人工能够判断aac是需要找到的一个关键词。但是因为n-gram在计算中取2-4的范围的话，首先符合条件的是2-gram的aa，ac，但是其实aa，ac不是要要的内容。那只有到了3-gram的时候才出现aac。这个怎么保证剔除呢? 在 2020-03-24 16:37:20，"Yvette-Wang" <notifications@github.com> 写道：如果选择ngram的范围为2-4，计算过程中会生成1-5的ngram。假设要考虑bc是不是一个独立词汇，将会统计bc在所有文本中的前后字符。如果bc是一个独立词汇，bc在所有文本中可能以{bcd，bcf，bca...}等多种形式出现，基于这些全局的统计结果计算右熵，在文本量足够大的情况下，我们可以认为统计结果已经接近具体的文字的语境，同理可以基于bc左边字符的出现情况{abc，xbc，lbc，hbc...}计算左熵。假设要考虑abcd是不是一个独立词汇，由于计算过程生成了5gram，所以可得到包含abcd的所有长度为5的字符串，如{abcde，abcdf，abcdk...}，由此可计算右熵。 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

Yvette-Wang · Answer 3 · Wed Mar 25 2020 19:52:12 GMT+0800 (China Standard Time)

我举一个实际的例子，看能否解决您的疑问。
通过大量财经新闻文本的统计结果，算得“二维码”一词的左熵和右熵分别为 6.457、6.913。“二维”是“二维码”的一个子串，它的左熵和右熵分别为 6.453 、 0.015。可以看出，虽然“二维”也是一个合法的中文词汇，但是由于在财经领域的文本中，这个词通常是以“二维码”的子串的形式出现在文本中，也就是说，在大量财经领域文本中“二维”一词右边的字符较为单一，经常是“码”这个字，所以它的右熵很小。同理，“维码”这一子串也会有很小的左熵。生成所有候选词后，计算候选词得分并比较，保留得分最高的top K。所以最终抽取的新词，会是合法的中文词汇，并且具有领域的特点(同样合法的词语“二维码”和“二维”，“二维码“这一形式在财经领域更常见，最终得分更高)。

niutyut · Answer 4 · Thu Mar 26 2020 09:10:12 GMT+0800 (China Standard Time)

我看了一些程序的思路，不知道自己是否看懂，希望指点一下啊。在计算过程中，某个关键词，比如“二维码”的左熵和右熵，按照我理解你所在的程序里是指向了它前面对应的另一个3-gram产生出来的词，比如“算二维”，后面的的“维码好”，当然这个是我杜撰出来的两个词。就是感觉程序不是指向“二维码”前后的单个字，而是生成出来的其他的3-gram词。不知道我理解的是不是对啊。就是这个程序的左右熵的哪些词是什么词？它们的产生机制是什么？如果是别的3-gram的话，那么就不符合语句本身的语境。希望指正啊在 2020-03-25 19:52:25，"Yvette-Wang" <notifications@github.com> 写道：我举一个实际的例子，看能否解决您的疑问。通过大量财经新闻文本的统计结果，算得“二维码”一词的左熵和右熵分别为 6.457、6.913。“二维”是“二维码”的一个子串，它的左熵和右熵分别为 6.453 、 0.015。可以看出，虽然“二维”也是一个合法的中文词汇，但是由于在财经领域的文本中，这个词通常是以“二维码”的子串的形式出现在文本中，也就是说，在大量财经领域文本中“二维”一词右边的字符较为单一，经常是“码”这个字，所以它的右熵很小。同理，“维码”这一子串也会有很小的左熵。生成所有候选词后，计算候选词得分并比较，保留得分最高的top K。所以最终抽取的新词，会是合法的中文词汇，并且具有领域的特点(同样合法的词语“二维码”和“二维”，“二维码“这一形式在财经领域更常见，最终得分更高)。 — You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

Yvette-Wang · Answer 5 · Thu Mar 26 2020 11:10:32 GMT+0800 (China Standard Time)

用于计算3gram左右熵的是所有的4gram。“二维码”的左熵，是通过 { “ 是二维码 ”，“ 算二维码 ”，“ 的二维码 ”，...} 这样的4gram计算。这也是ngram的范围为2-4，计算过程却需要生成1-5的ngram的原因。

niutyut · Answer 6 · Thu Mar 26 2020 11:35:19 GMT+0800 (China Standard Time)

left_neighbors = Trie() right_neighbors = Trie() target_ngrams = ngram_keys[n] parent_candidates = ngram_keys[n+1] 这个代码中target_ngrams 是“二维码”吧。那么parent_candidates就是{是二维码，说二维码，算二维码，。。。。，二维码好，二维码差，二维码不，。。。。} for parent_candidate in parent_candidates: right_neighbors[parent_candidate] = ngram_freq[parent_candidate]，这个部分指的是什么？为什么不是通过目标词target_ngrams 找左边的词？而是用parent_candidates 找？因为按照Trie()来说，它能够找到某个词的前面的词和后面的词的。 left_neighbors[parent_candidate[1:]+parent_candidate[0]] = ngram_freq[parent_candidate]，这个部分指的是什么？代码不是太清楚啊。

Yvette-Wang · Answer 7 · Thu Mar 26 2020 17:11:25 GMT+0800 (China Standard Time)

1.这个代码中target_ngrams 是所有3gram，parent_candidates是所有4gram。
2.ngram_freq[parent_candidate]是parent_candidate这个词在所有文本中出现的频数，for parent_candidate in parent_candidates以及下面两行是建Trie的过程。
3.left_neighbors一行中的“parent_candidate[1:]+parent_candidate[0]]”，是因为使用pygtrie建Trie要求left/right neighbor位于尾部。
4.代码中140-141行，145-146行，在所有4gram中找到”二维码“的左/右相邻字符 {是二维码，说二维码，算二维码，二维码好，二维码差，二维码不}的词频，并计算二维码的左右熵.