skip-gram-Chinese

概要
针对中文语料数据，基于tensorflow的skip-gram算法实现,实验语料使用金庸全集（可替换）
代码
skipgram_chinese.py -- 源码
usage_example.py -- 使用示例（需下载word2vec.txt）
语料与模型
语料 -- 金庸全集（注意：生成通用词向量应使用其他标准语料库，可以参考https://github.com/brightmart/nlp_chinese_corpus
模型 -- word2vec.txt (10万词，100维向量表示)
文件较大，均提供外链下载
效果示例

pd.Series(word2vec_model.most_similar(u'乔峰'))

0 (鸠摩智, 0.5863361358642578)
1 (萧峰, 0.5798118114471436)
2 (任我行, 0.5723351836204529)
3 (慕容复, 0.5638849139213562)
4 (杨康, 0.5621821880340576)
5 (裘千仞, 0.5401000380516052)
6 (岳不群, 0.5394284725189209)
7 (张翠山, 0.5377693176269531)
8 (车尔库, 0.5314956903457642)
9 (令狐冲, 0.5277308821678162)

About

skip-gram for Chinese word2vec base on tensorflow

Languages

Language:Python 100.0%