这是去年根据chineseocr微调的吗？

Question

这是去年根据chineseocr微调的吗？

guanfaqian opened this issue 4 years ago · comments

guanfaqian commented 4 years ago

我看评论说这个识别的区域只有5个？

你是微调做的吗？微调数据量检测和ocr两部分分别是多少？

ps：居然遇到了一个也是姓管的，哈哈哈

John · Answer 1 · Tue Sep 08 2020 12:17:34 GMT+0800 (China Standard Time)

我看评论说这个识别的区域只有5个？

你是微调做的吗？微调数据量检测和ocr两部分分别是多少？

ps：居然遇到了一个也是姓管的，哈哈哈

根据chineseocr微调的，只微调了检测的模型的五个文字区域，训练的发票数据增强后大概是300多张，这个demo只是提供了一个思路，后期会开放一个基于psenet分割类的检测模型，识别提取的发票要素区域会更多，更加精准，模型的size会更小，推理时间会更块，具体的开源时间得看我tiaocao的时间了

guanfaqian · Answer 2 · Tue Sep 08 2020 14:08:54 GMT+0800 (China Standard Time)

哈哈哈。那看来还需要挺久。方便留个联系方式交流一波？

guanfaqian · Answer 3 · Tue Dec 22 2020 11:26:07 GMT+0800 (China Standard Time)

哥，你PSENET发票检测出来，每个box位置是怎么放进去对应位置的？特别是中间钱那一块?能提供个思路嘛？

John · Answer 4 · Tue Dec 22 2020 12:05:18 GMT+0800 (China Standard Time)

哥，你PSENET发票检测出来，每个box位置是怎么放进去对应位置的？特别是中间钱那一块?能提供个思路嘛？

一般两个思路，1.正则，如果达到业务预期精度指标可落地，效果一般，处理速度极快；2.多模态，KIA任务作为下游任务，将box, 原图，text等模态融合进一个网络，提前定义好key，将问题转化为text去推理key，最后获得结构化的关系，数据体量大的情况下，精度高，噪声状态下鲁棒性好
ps：如果你数据体量大的话，可不用这么麻烦，可考虑多目标检测的方案，Cascade R-CNN，yolo都可以操作，优势是单个模型即可处理完所有问题，不用后处理，劣势是只能应用于发票场景，模型需要场景的变迁重新作迁移学习