toshi-toma / summarization

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

summarization

概要

  • ニュース文の自動要約を行うシステムです。
  • livedoor newsからニュースをスクレイピングして、そのニュースに対して自動要約を行います。
  • 従来から用いられているリード法、TF法、TF-IDF法による自動要約を行います。
  • また、機械学習で重要文を分類するモデル作成も行いました。
  • 評価はF値を用いて行いました。

関連技術

  • 形態解析にはJUMAN++を用いました。JUMAN++
  • 機械学習関係はscikit-learnを用いました。scikit-learn

開発環境

  • Python2.7.12
  • anaconda-2.4.0

ライブラリ

  • BeautifulSoup-3.2.1
  • scikit-learn-0.18.1  
  • unicodecsv-0.14.1
  • lxml-3.6.4
  • requests-2.11.1
  • pandas-0.19.2
  • numpy-1.11.2

フォルダ/ファイル構成

data

  • news_data.csv
    要約可能なニュースが格納されているファイル
  • train_data.csv
    モデルの作成に使う訓練データ及びテストデータファイル
  • train_data_v2.csv
    モデルの作成に使う訓練データ及びテストデータファイル(特徴量を5つ追加したバージョン)
  • big_news_data.csv
    要約可能なニュースが格納されているファイル(ニュースデータを大量追加したバージョン)
  • big_train_data.csv
    モデルの作成に使う訓練データ及びテストデータファイル(ニュースデータを大量追加したバージョン)

edit_csv

  • csv_editor.py
    CSVのデータ取得や加工を行うファイル

model

  • logistic_regression.py
    ロジスティック回帰によるモデル作成・評価を行うファイル
  • random_forest.py
    ランダムフォレストによるモデル作成・評価を行うファイル
  • svm.py
    SVMによるモデル作成・評価を行うファイル

scraping

  • scraping_news.py
    livedoor newsの主要ニュースをスクレイピングしてcsvに格納するファイル

summarization

  • create_train_data.py
    訓練データの作成を行うファイル
  • ecaluate_summarization.py
    リード法、TF法、TF-IDF法の評価を行うファイル
  • feature_value.py
    特徴量の算出を行うファイル
  • lead.py
    リード法で重要文抽出を行うファイル
  • noun.py
    TF法で重要文抽出を行うファイル
  • summarization.py
    自動要約で必要な関数群のファイル
  • tf_idf.py
    TF-IDF法で重要文抽出を行うファイル

その他

  • .gitignore
    git
  • README.md
    README
  • sample.py
    コードを試したい時に使うファイル

About


Languages

Language:Python 100.0%