NEologdのメタデータ収集

NEologd辞書内の単語の類義語を収集する

neologdの辞書データを解凍し，neologd_data/内に置く．
wikipediaのダンプデータ(jawiki-latest-pages-article.xml.bz2もしくはその軽量版)をwiki_data/内に置く．
python make_neologd_vocab.pyを実行する．第一引数には入力データ(neologdの辞書データ.csv)，第二引数にはmiddle_data/neologd_vocab.csvを指定する．
middle_data/の中にwiki_data_text/を作成．
wp2txt -i jawiki-latest-pages-articles.xml.bz2 -o middle_data/wiki_data_text/ --no-list --no-heading --no-title --no-markerを実行．-iオプションはwikipediaのダンプデータを指定すること．
cat middle_data/wiki_data_text/* > middle_data/wiki_data_text.txtを実行する．
python make_wiki_wakachi.py -i middle_data/wiki_data_text.txt -o middle_data/wiki_wakachi.txtを実行する．
python make_synonym_data.py -i middle_data/wiki_wakachi.txt -o data/synonym_data. tsv -v middle_data/neologd_vocab.csvを実行する．-s, --sizeオプションで単語ベクトルの出力次元を，-m, --min_countで単語を語彙に加える最低限の出現回数を，-w, --windowで周辺分布を見る窓の大きさを指定できる．デフォルトはsize=100, min_count=5, window=5．