Embedding / Chinese-Word-Vectors

100+ Chinese Word Vectors 上百种预训练中文词向量

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Various Co-occurrence Information 训练方式

wawltor opened this issue · comments

Co-occurrence Type 中有涉及 Word → Character (1-4) ,Word → Word (left/right), Word → Word (distance) 协同的训练方式,具体的含义是什么了,能不能大概介绍一下上面列出那几种训练的方式? 谢谢!!

这个可以参见ngram2vec项目。ngram2vec的target和context分开的模式,使得更容易修改context,比如增加更多的context类型。

简单来说,Word → Character (1-4)是用Word来预测Character ngram,Word → Word (left/right)是Word预测Word同时也预测这个Word是左边的还是右边的,Word → Word (distance)是在预测词的时候预测距离。