Embedding / Chinese-Word-Vectors

100+ Chinese Word Vectors 上百种预训练中文词向量

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

不同语料库训练的词向量是否可以通用?

Xiaqiannbu opened this issue · comments

如果可以通用,则这个词向量语料库没有的可以去别的词向量语料库找。不过不可以通用则不行。

稀疏词向量应该不可以,密集词向量不知道可不可以?

以及同一语料库的词、词+ n-gram、词+字等等是否可以通用?

同一个文件里面的向量是同一次训练的结果,不同文件是不同的训练结果,因此不同文件不建议混合使用,最好单独使用。

在训练的时候一开始需要对向量随机初始化,这样会导致不同的训练开始的位置不一样。相同语料下每次训练后的结果可以看作是同构的,但是数字肯定不一样,所以没法合起来用。对于不同语料下的训练,即不开始于同一个起点,同时也不同构,所以更没法一起用。

我现在想用您的词向量来求两个句子的相似度,计划用gensim加载词向量,然后用gensim内置的WMD的函数wmdistance计算。但是第一步需要加载,我看到有gensim.models.Word2Vec.load函数直接加载,但是不知道应该以怎样的格式把数据喂给它。我用gensim.models.Word2Vec.save保存后打开是乱码。gensim手册(https://radimrehurek.com/gensim/models/word2vec.html )里没有说该以怎样的方式喂数据。我担心无法用gensim加载您训练的词向量,如果怎样就没法使用gensim的功能了。

问一下,同学有找到用gensim加载的方式了吗,同求

我现在想用您的词向量来求两个句子的相似度,计划用gensim加载词向量,然后用gensim内置的WMD的函数wmdistance计算。但是第一步需要加载,我看到有gensim.models.Word2Vec.load函数直接加载,但是不知道应该以怎样的格式把数据喂给它。我用gensim.models.Word2Vec.save保存后打开是乱码。gensim手册(https://radimrehurek.com/gensim/models/word2vec.html )里没有说该以怎样的方式喂数据。我担心无法用gensim加载您训练的词向量,如果怎样就没法使用gensim的功能了。

model = models.KeyedVectors.load_word2vec_format('./sgns.weibo.bigram-char.bz2', );
这样可以加载