- ニュース文の自動要約を行うシステムです。
- livedoor newsからニュースをスクレイピングして、そのニュースに対して自動要約を行います。
- 従来から用いられているリード法、TF法、TF-IDF法による自動要約を行います。
- また、機械学習で重要文を分類するモデル作成も行いました。
- 評価はF値を用いて行いました。
- 形態解析にはJUMAN++を用いました。JUMAN++
- 機械学習関係はscikit-learnを用いました。scikit-learn
- Python2.7.12
- anaconda-2.4.0
- BeautifulSoup-3.2.1
- scikit-learn-0.18.1
- unicodecsv-0.14.1
- lxml-3.6.4
- requests-2.11.1
- pandas-0.19.2
- numpy-1.11.2
- news_data.csv
要約可能なニュースが格納されているファイル - train_data.csv
モデルの作成に使う訓練データ及びテストデータファイル - train_data_v2.csv
モデルの作成に使う訓練データ及びテストデータファイル(特徴量を5つ追加したバージョン) - big_news_data.csv
要約可能なニュースが格納されているファイル(ニュースデータを大量追加したバージョン) - big_train_data.csv
モデルの作成に使う訓練データ及びテストデータファイル(ニュースデータを大量追加したバージョン)
- csv_editor.py
CSVのデータ取得や加工を行うファイル
- logistic_regression.py
ロジスティック回帰によるモデル作成・評価を行うファイル - random_forest.py
ランダムフォレストによるモデル作成・評価を行うファイル - svm.py
SVMによるモデル作成・評価を行うファイル
- scraping_news.py
livedoor newsの主要ニュースをスクレイピングしてcsvに格納するファイル
- create_train_data.py
訓練データの作成を行うファイル - ecaluate_summarization.py
リード法、TF法、TF-IDF法の評価を行うファイル - feature_value.py
特徴量の算出を行うファイル - lead.py
リード法で重要文抽出を行うファイル - noun.py
TF法で重要文抽出を行うファイル - summarization.py
自動要約で必要な関数群のファイル - tf_idf.py
TF-IDF法で重要文抽出を行うファイル
- .gitignore
git - README.md
README - sample.py
コードを試したい時に使うファイル