musyoku / unsupervised-pos-tagging

教師なし品詞タグ推定

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Unsupervised POS Tagging

教師なし品詞推定の論文4本の実装を目標にしています。

実装状況

データセット

英語

Penn TreeBank

https://github.com/wojzaremba/lstm/tree/master/dataからPenn TreeBankのテキストデータをダウンロードできます。

text/ptb.txtは上記データのptb.train.txtptb.valid.txtを結合したものになります。

日本語

こころ

http://www.aozora.gr.jp/cards/000148/card773.htmlからダウンロードできます。

text/kokoro.txtは上記データに前処理を施したものになります。

吾輩は猫である

http://www.aozora.gr.jp/cards/000148/card789.htmlからダウンロードできます。

text/neko.txtは上記データに前処理を施したものになります。

About

教師なし品詞タグ推定


Languages

Language:C++ 85.1%Language:Python 13.7%Language:Makefile 0.9%Language:C 0.4%