Embedding / Chinese-Word-Vectors

100+ Chinese Word Vectors 上百种预训练中文词向量

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

radical 部首 embed

Crescentz opened this issue · comments

  1. radical embed 的链接没有是灰色的
  2. 另外请问推荐那篇论文的方式 ,得到 汉字部首 的emb
  1. radical embedding目前还没有训练,被拖延了。。。

  2. 就是把偏旁部首当作context的一部分来训练就可以了。也就是在SGNS中用当前的词来预测每个汉字的偏旁部首以及周围的词。

谢谢,

  1. 在SG的时候,正常单词的loss组成是 pos_v和neg_v(都是单词), 那么加入偏旁部首的话,pos_radical是自己的,neg_radical是单词或者偏旁都可以么,还是压根不要neg_radical.
  2. 如果要的话,词语和radical的词表混合还是单独。

如果用SGNS(skip-gram with negative sampling),那么最先考虑的就是哪些是中心词(target)哪些是上下文(context)显然为了得到radical向量可以把radical放在target中,也可以放到context中,或者两个都放进去。放在target中并不需要考虑pos和neg的问题,所以这里只讨论当 radical出现在context中的时候。由于SGNS的目标就是让中心词接近正确的上下文(pos),远离随机的上下文(neg),这种简化的目标也就是类比于softmax中分子和分母的关系,即反向传播的时候尽可能让正确label的概率变大。所以可以看到,当radical出现在context中的时候没有理由不出现在neg中。因此,context词表既要包含词语也要包含radical。当然,context词表可以做成两个也没问题,word一个radical一个,两个词表分别计算pos和neg,相当于multi-task的两个softmax。

谢谢!!!!!!

请问您训练的时候去除 标点符号 和 停用词么

没有去除,因为有sub-sampling保证了高频词不会带来过分的影响。