hi-ut / hiragana

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

文字画像データセット(平仮名版)

画像形式はJPGで、計3万画像あります。

こちらからダウンロードできます(どの形式でも内容は同じです)。

内訳は次のとおりです。

(計)27,743

文字 ディレクトリ 画像数 文字 ディレクトリ 画像数 文字 ディレクトリ 画像数 文字 ディレクトリ 画像数
U3042 372 U305B 280 U306F 299 U3088 616
U3044 758 U305D 293 U3072 258 U3089 489
U3046 840 U305F 1,054 U3075 328 U308A 919
U3048 86 U3061 389 U3078 1,345 U308B 554
U304A 314 U3064 809 U307B 199 U308C 310
U304B 1,322 U3066 1,512 U307E 581 U308D 239
U304D 724 U3068 1,357 U307F 93 U308F 391
U304F 922 U306A 630 U3080 101 U3091 194
U3051 284 U306B 1,017 U3081 226 U3092 671
U3053 380 U306C 93 U3082 1,007 U3093 739
U3055 616 U306D 143 U3084 518
U3057 1,497 U306E 1,726 U3086 248

データセットの活用例として、機械学習による自動分類プログラムを試作しました。オープンソースの深層学習フレームワークChainerのサンプルプログラムを改変したものです。Chainerの実行環境の他、Pillowパッケージが必要です。

https://colab.research.google.com/drive/1n6roqxdqSxVWErOUK2p9icb0kX39wOVB?usp=sharing

About


Languages

Language:Python 100.0%