mtjuney / collect_synonym

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

NEologdのメタデータ収集

NEologd辞書内の単語の類義語を収集する

  1. neologdの辞書データを解凍し,neologd_data/内に置く.
  2. wikipediaのダンプデータ(jawiki-latest-pages-article.xml.bz2もしくはその軽量版)をwiki_data/内に置く.
  3. python make_neologd_vocab.pyを実行する.第一引数には入力データ(neologdの辞書データ.csv),第二引数にはmiddle_data/neologd_vocab.csvを指定する.
  4. middle_data/の中にwiki_data_text/を作成.
  5. wp2txt -i jawiki-latest-pages-articles.xml.bz2 -o middle_data/wiki_data_text/ --no-list --no-heading --no-title --no-markerを実行.-iオプションはwikipediaのダンプデータを指定すること.
  6. cat middle_data/wiki_data_text/* > middle_data/wiki_data_text.txtを実行する.
  7. python make_wiki_wakachi.py -i middle_data/wiki_data_text.txt -o middle_data/wiki_wakachi.txtを実行する.
  8. python make_synonym_data.py -i middle_data/wiki_wakachi.txt -o data/synonym_data. tsv -v middle_data/neologd_vocab.csvを実行する.-s, --sizeオプションで単語ベクトルの出力次元を,-m, --min_countで単語を語彙に加える最低限の出現回数を,-w, --windowで周辺分布を見る窓の大きさを指定できる.デフォルトはsize=100, min_count=5, window=5

About


Languages

Language:Jupyter Notebook 65.8%Language:Python 34.2%