EvernightAurora / EeveeNet

store the dataset of EeveeNet

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

EeveeNet

这里存放着EeveeNet的代码和训练集,这里只有EeveeNet的核心——训练集

samp

数据集使用说明

  • ImageSource文件夹内有3个压缩文件 train_data00.zip, train_data01.zip, test_data.zip分别是第一期的训练集、第二期的训练集以及测试集。 Sample文件夹内是几张有标签的图片的样品。使用git clone需要安装git lfs 不然无法下载诺大的zip

  • 压缩包内根目录的Path_List**.txt记录各文件夹的相对地址,数据为这些目录内后缀为.png的图片文件,大小均为224*224。test_data测试集图片大小不是224*224,是未调整大小的较大图片,请使用例如cv2.resize进行拉伸后再使用(千万不要双线性插值,cv2.resize请设置interpolation=cv2.INTER_AREA)

train_data01内有两个Path List,分别是包括数据增强PathList_Manga_Enhanced.txt和不包括数据增强PathList_Manga.txt,选择一个即可

对于数据,文件名为aaa-****.png,最前面三个数字aaa即是它的标签(python可以通过int(filename.split('-')[0])获得)。

数字是按照每种伊布是否存在,将它们的正交二进制表示按位或起来得到的。例如

samp1

的文件名为130-0-01873-2.png,130 = 128 or 2,其中按照下表,128代表月伊布,2代表日伊布,则该图片为明显可辨识出月伊布和日伊布。具体各个伊布的二进制表示和数据量见下表

train_data00以及train_data01样本量(不包括数据增强)

  • 截至目前共8k张带标签的数据,各类分布如下,数量表示含有该伊布的数据量,一张图可含有多种伊布(但是数量相对较少,大部分数据还是单类伊布的)
种类 伊布 月伊布 火伊布 水伊布 叶伊布 雷伊布 冰伊布 日伊布 仙子伊布
二进制表示 256 128 64 32 16 8 4 2 1
数量 1590 1391 810 831 864 902 1079 1242 1687

关于数据和数据增强

  • 数据来源包括手工从PixivDeviantArt上搜寻得来,不会用于商业用途,未得到所有图片的原作者的同意。这部分数据集质量较高,形态多,分辨率高,形态清晰,适合做数据增强的对象。

  • 另有一部分从Pokemon动画视频中截取,这些数据相对质量较低,并且会有多张形态相似的图片,可以认为已经自带数据增强了。

  • Manga文件夹内的数据我也觉得质量不是很高...

  • 标签我检查了两遍以上,应该没有分类错误的数据。如有欢迎联系斧正,本人联系方式见最后。

Contract Me:

QQ: 2465542858
mail: 2465542858@qq.com

About

store the dataset of EeveeNet