ragi256/ElectionTweet

###関連語の抽出プログラム

#####選挙に関するツイートの抽出,解析を目的としている #####関連語の過去の出現分布を利用して現在のトレンドを解析する

条件付き確率(w:単語,c:クラス) P(c|w) = P(c,w)/P(w) = f(c,w)/f(w) = (f(c,w)/Nc)/(f(w)/N)

1.関連語検出(クエリ集合と関連語との積集合)
クエリを元にクエリ周辺の関連語とその登場回数を調べる(ex.["賛成","反対"])

2.関連語の全体集合における登場回数(関連語集合全体のサイズ)
返ってきた関連語リストの要素それぞれを今あるツイートデータ(Nツイート)の中から
何回出現するか測定(一度にやりたい)→保存

3.選挙近辺での関連語再計測
もう一回別の時点で同クエリを元にNcツイートの中からクエリ周辺の関連語の登場回数を調べる

4.出現確率計算
返ってきた関連語のリストと先ほど保存した辞書データを元に確立を計算する

ragi256 / ElectionTweet