tsunekawa / pubmed-citation

en: pubmed-citation is scripts that creates citation matrix between pubmed articles from the PubMed DataMining Dataset. ja: pubmed-citation はPubMedのデータセットから引用-被引用行列を作成するためのRubyスクリプトです。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

pubmed-citation

  • 制作者: 常川真央 < tsunekaw@slis.tsukuba.ac.jp >

pubmed-citation はXML形式で公開されているPubMed Centralの論文データセット( www.ncbi.nlm.nih.gov/pmc/tools/ftp/#XML_for_Data_Mining )から引用-被引用の行列を作成するためのスクリプトです。

pubmed-citation is scripts that creates citation matrix between PubMed articles from PMC XML Dataset ( www.ncbi.nlm.nih.gov/pmc/tools/ftp/#XML_for_Data_Mining ).

まだ開発途中のため、結果は不正確です。

要件

  • Ruby1.9.3

  • LibXML

  • SQLite

使用方法

必要なライブラリをインストールします。

$ gem install bundler
$ bundle install

config ディレクトリに config.yml を作成し、データセットのファイルパスを指定します。

(データセットすべてを対象とするのは膨大な時間がかかるため、試しに実行する場合は少数のXMLファイルを指定してください)

# config/config.yml
filepath: "/var/opt/PubMedDataSet/**/*"

データベースのセットアップを行います。

$ rake db:migrate

データセットのXMLファイルからデータベースに情報をインポートします。

$ rake import

引用-被引用関係の行列をCSVファイルとしてエクスポートします。

$ rake export_csv

ライセンス

pubmed-citation はMITライセンスです。

About

en: pubmed-citation is scripts that creates citation matrix between pubmed articles from the PubMed DataMining Dataset. ja: pubmed-citation はPubMedのデータセットから引用-被引用行列を作成するためのRubyスクリプトです。


Languages

Language:Ruby 100.0%