morningsky / sogou_word2vec

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

搜狗新闻语料下载地址: https://www.sogou.com/labs/resource/ca.php

  • 下载得到的dat文件可用一下命令得到使用结巴分词之后的语料。
python seg_word.py data.dat data_seg.txt
  • 本目录下提供的SogouC.reduced包含部分网友解析得到的txt文件,不够全,可测试使用。
  • 训练好的sogou.model为完整搜狗新闻训练得到的模型文件,可直接使用。

About


Languages

Language:Jupyter Notebook 97.3%Language:Python 2.7%