###関連語の抽出プログラム
#####選挙に関するツイートの抽出,解析を目的としている #####関連語の過去の出現分布を利用して現在のトレンドを解析する
条件付き確率(w:単語,c:クラス) P(c|w) = P(c,w)/P(w) = f(c,w)/f(w) = (f(c,w)/Nc)/(f(w)/N)
1.関連語検出(クエリ集合と関連語との積集合)
クエリを元にクエリ周辺の関連語とその登場回数を調べる(ex.["賛成","反対"])
2.関連語の全体集合における登場回数(関連語集合全体のサイズ)
返ってきた関連語リストの要素それぞれを今あるツイートデータ(Nツイート)の中から
何回出現するか測定(一度にやりたい)→保存
3.選挙近辺での関連語再計測
もう一回別の時点で同クエリを元にNcツイートの中から
クエリ周辺の関連語の登場回数を調べる
4.出現確率計算
返ってきた関連語のリストと先ほど保存した辞書データを元に確立を計算する
-
main:
出現回数をカウントする主プログラム- distributer:
関連語を判断して分配するモジュール(並列処理用に作成) - naturalLanguage:
jsonなどの日本語を扱う関数モジュール
- distributer:
-
divideData:
分散処理のため、対象データを分割するプログラム -
countMerge:
分散処理により出力された結果データを統合するプログラム -
*_main:
並列処理用に書いたプログラム(使わないが、今後のために保管)