ragi256 / ElectionTweet

選挙に関するツイートを解析します

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

###関連語の抽出プログラム

#####選挙に関するツイートの抽出,解析を目的としている #####関連語の過去の出現分布を利用して現在のトレンドを解析する


条件付き確率(w:単語,c:クラス) P(c|w) = P(c,w)/P(w) = f(c,w)/f(w) = (f(c,w)/Nc)/(f(w)/N)

1.関連語検出(クエリ集合と関連語との積集合)
クエリを元にクエリ周辺の関連語とその登場回数を調べる(ex.["賛成","反対"])

2.関連語の全体集合における登場回数(関連語集合全体のサイズ)
返ってきた関連語リストの要素それぞれを今あるツイートデータ(Nツイート)の中から
何回出現するか測定(一度にやりたい)→保存

3.選挙近辺での関連語再計測
もう一回別の時点で同クエリを元にNcツイートの中から クエリ周辺の関連語の登場回数を調べる

4.出現確率計算
返ってきた関連語のリストと先ほど保存した辞書データを元に確立を計算する


  • main:
    出現回数をカウントする主プログラム

    • distributer:
      関連語を判断して分配するモジュール(並列処理用に作成)
    • naturalLanguage:
      jsonなどの日本語を扱う関数モジュール
  • divideData:
    分散処理のため、対象データを分割するプログラム

  • countMerge:
    分散処理により出力された結果データを統合するプログラム

  • *_main:
    並列処理用に書いたプログラム(使わないが、今後のために保管)

About

選挙に関するツイートを解析します


Languages

Language:Python 100.0%