WenmuZhou / PytorchOCR

基于Pytorch的OCR工具库,支持常用的文字检测和识别算法

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

文字识别模型的训练数据来源

fourierer opened this issue · comments

大佬您好,感谢您的工作,请问文字识别模型ch_rec_server_crnn_res34.pth是用什么样的数据训练的呢,我自己加载您的开源模型然后在我自己场景数据上finetune分类层,得到的模型在特定场景比较好,但是同时失去了原先的通用文字识别能力,请问原版模型是用什么样子的数据训练的呢

公开数据集加生成数据集,具体参考paddleocr

公开数据集加生成数据集,具体参考paddleocr

感谢~,想再请教下具体的数据比例和训练方式,请问公开数据集是指360w开源数据集么,合成数据的量大概是多少呢,最后就是训练方式是混在一起train的,还是说先在合成数据上train然后在360w开源数据finetune什么的,我发现您的模型训练的效果很好,我这边总是复现不出来

我也记不得了,你翻一下paddleocr的issue