radical 部首 embed

Question

radical 部首 embed

Crescentz opened this issue 4 years ago · comments

Learning入门 commented 4 years ago

radical embed 的链接没有是灰色的
另外请问推荐那篇论文的方式，得到汉字部首的emb

Shen Li · Answer 1 · Sat Nov 14 2020 21:14:22 GMT+0800 (China Standard Time)

radical embedding目前还没有训练，被拖延了。。。
就是把偏旁部首当作context的一部分来训练就可以了。也就是在SGNS中用当前的词来预测每个汉字的偏旁部首以及周围的词。

Learning入门 · Answer 2 · Sun Nov 15 2020 10:35:38 GMT+0800 (China Standard Time)

谢谢，

在SG的时候，正常单词的loss组成是 pos_v和neg_v(都是单词)，那么加入偏旁部首的话，pos_radical是自己的，neg_radical是单词或者偏旁都可以么，还是压根不要neg_radical.
如果要的话，词语和radical的词表混合还是单独。

Shen Li · Answer 3 · Sun Nov 15 2020 11:02:54 GMT+0800 (China Standard Time)

如果用SGNS（skip-gram with negative sampling），那么最先考虑的就是哪些是中心词（target）哪些是上下文（context）显然为了得到radical向量可以把radical放在target中，也可以放到context中，或者两个都放进去。放在target中并不需要考虑pos和neg的问题，所以这里只讨论当 radical出现在context中的时候。由于SGNS的目标就是让中心词接近正确的上下文（pos），远离随机的上下文（neg），这种简化的目标也就是类比于softmax中分子和分母的关系，即反向传播的时候尽可能让正确label的概率变大。所以可以看到，当radical出现在context中的时候没有理由不出现在neg中。因此，context词表既要包含词语也要包含radical。当然，context词表可以做成两个也没问题，word一个radical一个，两个词表分别计算pos和neg，相当于multi-task的两个softmax。

Learning入门 · Answer 4 · Sun Nov 15 2020 11:05:23 GMT+0800 (China Standard Time)

谢谢！！！！！！

Learning入门 · Answer 5 · Sun Nov 15 2020 11:46:38 GMT+0800 (China Standard Time)

请问您训练的时候去除标点符号和停用词么

Shen Li · Answer 6 · Sun Nov 15 2020 13:16:25 GMT+0800 (China Standard Time)

没有去除，因为有sub-sampling保证了高频词不会带来过分的影响。