ndl-lab / ocr-ndloneline

パブリックドメインなデジタル化資料から切り出して作成した、1行毎のOCR学習用データセット

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

ocr-ndloneline

パブリックドメイン資料から作成した1行単位の文字切り出し画像と対応テキストデータのデータセットです。

1.概要

国立国会図書館デジタルコレクション(以下「デジコレ」といいます。)https://dl.ndl.go.jp からインターネット公開している著作権保護期間の満了したデジタル資料について、目次コマの画像と目次情報を利用して、1行毎に画像とテキストの対応付けが取れるよう加工することで OCR等の学習用データセットとして整備したものです。 技術検討のため、館内で職員が作成したデータセットとなります。

ファイル名画像正解テキストデータ
1904210_0008_jzRAqe3gqxN.jpg(四)「アスフアルトブロツク」鋪道上に「アスフアルト」層を造ること(四)「アスフアルトブロツク」鋪道上に「アスフアルト」層を造ること
770210_0020_z8onZXpKBn1.jpg大岡越前守と石川近江守の抜擢大岡越前守と石川近江守の抜擢

2.データについて

画像についてはzipで圧縮されており、次のURLから取得可能です。

https://lab.ndl.go.jp/dataset/ocronelinedataset/ocronelinedataset_pdm.zip

2021年9月16日現在、2,339行分の正解データが含まれています。今後追加を行う予定です。

正解テキストデータは本リポジトリのlabeldata_pdm.tsvを参照してください。

正解データの形式について

各行タブ区切りに、左から「ファイル名」「正解テキストデータ」「文字列の向き(tateまたはyoko)」「切り出し画像のURL(フルサイズのIIIF Image API)」の情報が記載されています。

ファイル名 正解テキストデータ 文字列の向き 切り出し画像のURL
1904210_0008_jzRAqe3gqxN.jpg (四)「アスフアルトブロツク」鋪道上に「アスフアルト」層を造ること tate https://www.dl.ndl.go.jp/api/iiif/1904210/R0000008/pct:23.0,20.0,1.1,40.2/full/0/default.jpg

3.画像ファイルのディレクトリ構成について

縦書きの1行画像はoneline_tateディレクトリ、横書きの1行画像はoneline_yokoディレクトリに分かれて配置されています。 必要な解像度と異なる場合には、正解データに含まれるURLを参考に、IIIF Image APIの仕様(https://iiif.io/api/image/2.1/#region )に従って適宜サイズを調整して取得してください。

4.作成元資料の参照方法について

画像の命名規則は、デジコレの永続的識別子(PID)の数字部分を用いて、

(PID)(コマ番号)(ランダムなハッシュ値) .jpg

という形式で記述しています。 例えば1904210_0008_jzRAqe3gqxN.jpg は、 http://dl.ndl.go.jp/info:ndljp/pid/1904210 のコマ番号8を意味します。

PIDと資料名の対応については、以下から提供している書誌データを参考にしてください。

https://www.ndl.go.jp/jp/dlib/standards/opendataset/index.html

本件に関する問い合わせ先

lab@ndl.go.jp

何かお気づきの点がありましたら、お気軽にお問い合わせください。

About

パブリックドメインなデジタル化資料から切り出して作成した、1行毎のOCR学習用データセット

License:Other