hiroshi-manabe / nictdict

Japanese dictionaries for CRFSegmenter

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

NICT日本語辞書

概要

CRFSegmenterで使われる日本語の辞書です。

以下のようにファイルが分かれています。

  • nictdict.tsv 一般辞書(普通名詞・用言・機能語などを含む)
  • nictdict_ne.tsv 固有名詞辞書
  • nictdict_declinable.tsv 用言辞書

ライセンス

LICENSE.mdをご参照ください。

形式

辞書の形式はUTF-8エンコードのタブ区切りテキストです。

辞書のフィールド数は6で、各フィールドは左から以下の順になっています。

  • 読み
  • 発音
  • 品詞
  • 活用タイプ(非用言の場合は"*")
  • 表記
  • 代表形(「表記-読み」形式)

読み

単語の読みを片仮名で記述します。「学校」であれば「ガッコウ」のような、一般的なかな書き表記です。

発音

単語の発音を片仮名で記述します。具体的には、「読み」と以下のような場合に違うものになります。

  • 長音(学校:ガッコー)
  • ヂ、ヅ(鼻血:ハナジ)
  • 助詞の「は」「へ」「を」、またそれに由来するもの(それでは:ソレデワ)

品詞

IPADICの品詞体系をベースにしています。

pos_table_ipadic.tsv をご参照ください。

活用タイプ

IPADICの活用型をベースにしています。

pos_table_ipadic.tsv をご参照ください。

活用について

活用についてをご参照ください。

表記

単語の実際の表記を記述します。

代表形

その単語を代表する表記と読みのペアを記述します。

この欄をキーとして使うことにより、表記ゆれ等をまとめることができます。

例としては、以下のようなものがあります。

ウィンドウ	ウィンドー	名詞-一般	*	ウィンドウ	ウィンドウ-ウィンドウ
ウィンドゥ	ウィンドー	名詞-一般	*	ウィンドゥ	ウィンドウ-ウィンドウ
ウィンドー	ウィンドー	名詞-一般	*	ウィンドー	ウィンドウ-ウィンドウ
ウインドウ	ウインドー	名詞-一般	*	ウインドウ	ウィンドウ-ウィンドウ
ウインドー	ウインドー	名詞-一般	*	ウインドー	ウィンドウ-ウィンドウ

ヒナマツリ	ヒナマツリ	名詞-一般	*	ひな祭り	ひな祭り-ヒナマツリ
ヒナマツリ	ヒナマツリ	名詞-一般	*	雛まつり	ひな祭り-ヒナマツリ
ヒナマツリ	ヒナマツリ	名詞-一般	*	雛祭	ひな祭り-ヒナマツリ
ヒナマツリ	ヒナマツリ	名詞-一般	*	雛祭り	ひな祭り-ヒナマツリ
ヒナマツリ	ヒナマツリ	名詞-一般	*	ひなまつり	ひな祭り-ヒナマツリ

About

Japanese dictionaries for CRFSegmenter

License:Other