yuta1984 / honkoku-data

歴史資料の市民参加型翻刻プラットフォーム「みんなで翻刻」のテキストデータ置き場です。 / Transcription texts created on Minna de Honkoku (https://honkoku.org), a crowdsourced transcription platform for historical Japanese documents.

Home Page:https://honkoku.org/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

みんなで翻刻データ

歴史資料の市民参加型翻刻プラットフォームみんなで翻刻上で翻刻されたテキストデータです。

データについて

v1: 2017年に公開された旧バージョンのみんなで翻刻上で翻刻された約500万文字のテキストデータです(記号類含む)。主に東京大学地震研究所図書室の所蔵資料を主な翻刻の対象としています。翻刻テキストの他、掲載資料の書誌情報のリストを含みます。

v2: 2019年7月に公開された新バージョンのみんなで翻刻上で翻刻されたテキストデータです。プロジェクトID > 資料ID > ページ番号.txt という階層構造で保存されています。各プロジェクトおよび各資料についてのメタデータが info.csv というファイルに保存されています。

翻刻の品質について

公開されている翻刻文は専門家によるチェックを経ておらず、必ずしも正確な翻刻とは限らないことをご留意ください。博士号を有する日本史研究者に依頼し、翻刻文10万文字を検証した結果では、100文字あたり1.5文字の割合で誤刻や表記の揺れが含まれていることが明らかになっています(論文)。

特殊記法について

振り仮名、割書、虫損箇所などを明示するために、みんなで翻刻は「青空文庫記法」に類似した表記体系を採用しています。詳しくは凡例をご覧ください。

ライセンス

CC BY-SA 4.0

About

歴史資料の市民参加型翻刻プラットフォーム「みんなで翻刻」のテキストデータ置き場です。 / Transcription texts created on Minna de Honkoku (https://honkoku.org), a crowdsourced transcription platform for historical Japanese documents.

https://honkoku.org/