Macにpyenvでpython2.7環境を作り、動作させています。
easy_install pip
pip install --upgrade gensim
brew install mecab
brew install mecab-ipadic
wikipediaを学習データとして用意する方法について書く。
wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
- 2GB、2時間以上かかるので注意!
このあとのwp2txtを利用するのに必要。
rbenvとかで適当に入れる。
gem install wp2txt
wp2txt --input-file jawiki-latest-pages-articles.xml.bz2
- かなり時間かかるので注意!スペックの高いマシンでやった方がいい。
cat jawiki-latest-pages-articles.xml-* > corpus.txt
mecab -b 100000 -Owakati corpus.txt -o corpus_wakati.txt
- それなりに時間がかかるので注意!
python training.py
たったこれだけのコードでできてしまう。 学習はやはりそれなりに時間がかかる。
python similarity.py
model.similarity(u"ステーキ", u"焼肉")
0.802548346712
model.similarity(u"ステーキ", u"サーロイン")
0.727586288732
model.similarity(u"ステーキ", u"野菜")
0.679391729492
model.similarity(u"ステーキ", u"ガスト")
0.554430442829
model.similarity(u"ステーキ", u"魚")
0.447672316625
model.similarity(u"ステーキ", u"ナイフ")
0.385388946857