Wikipediaを用いた日本語の固有表現抽出データセット

Version: 2.0

HuggingFace Hubからも利用可能です：https://huggingface.co/datasets/stockmark/ner-wikipedia-dataset

概要

このデータセットはWikipediaから抜き出した文に対して、固有表現をタグ付けしたものです。固有表現をハイライトしたサンプルはこちらでご覧になれます。全データ数は5343で、各データは一文から構成されています。全体の10%程度が固有表現を含まない負例です。このデータセットでタグ付された固有表現のタイプと、それぞれのタイプごとの固有表現数は以下の表にまとめられます。

タイプ	固有表現数	備考
人名	2980
法人名	2485	法人または法人に類する組織
政治的組織名	1180	政治的組織名、政党名、政府組織名、行政組織名、軍隊名、国際組織名
その他の組織名	1051	競技組織名、公演組織名、その他
地名	2157
施設名	1108
製品名	1215	商品名、番組名、映画名、書籍名、歌名、ブランド名等
イベント名	1009

データ形式

データファイル: ner.json

データファイルはjson形式で、全体としてはデータサンプルのリストとして構成されています。各データは以下のような辞書形式です。

{
    "curid": "473536",
    "text": "イギリスはリーマンショック直後の2008年10月にイングランド銀行のバランスシートを一気に3倍近く増やした後、2008年11月から2009年3月にかけて段階的に縮小させていった。",
    "entities": [
        {
            "name": "イギリス",
            "span": [0,4],
            "type": "地名"
        },
        {
            "name": "リーマンショック",
            "span": [5,13],
            "type": "イベント名"
        },
        {
            "name": "イングランド銀行",
            "span": [25,33],
            "type": "政治的組織名"
        }
    ]
}

curidはデータ元のWikipediaのページID
textはタグ付を行う対象のテキスト
entitiesは固有表現のリスト
- nameは固有表現名
- spanはtextでの位置
- typeは固有表現のタイプ

ライセンス

Wikipedia日本語版と同じCC-BY-SA 3.0のライセンスに従います。（参考：Wikipediaの著作権）

商用利用も可能です。

このデータセットを改変・再配布される方は、Wikipediaのこちらのページを参考にしてください。

参考文献

近江崇宏、「Wikipediaを用いた日本語の固有表現抽出のデータセットの構築」、言語処理学会第27回年次大会（2021）PDF

作成

本データセットはストックマーク株式会社により作成されました。 https://stockmark.co.jp/

stockmarkteam / ner-wikipedia-dataset

Wikipediaを用いた日本語の固有表現抽出データセット

概要

データ形式

ライセンス

参考文献

作成

About