guanshuicheng / invoice

Collaboration with wangxupeng(https://github.com/wangxupeng)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

这是去年根据chineseocr微调的吗?

guanfaqian opened this issue · comments

我看评论说这个识别的区域只有5个?

你是微调做的吗?微调数据量检测和ocr两部分分别是多少?

ps:居然遇到了一个也是姓管的,哈哈哈

commented

我看评论说这个识别的区域只有5个?

你是微调做的吗?微调数据量检测和ocr两部分分别是多少?

ps:居然遇到了一个也是姓管的,哈哈哈

根据chineseocr微调的,只微调了检测的模型的五个文字区域,训练的发票数据增强后大概是300多张,这个demo只是提供了一个思路,后期会开放一个基于psenet分割类的检测模型,识别提取的发票要素区域会更多,更加精准,模型的size会更小,推理时间会更块,具体的开源时间得看我tiaocao的时间了

哈哈哈。那看来还需要挺久。方便留个联系方式交流一波?

哥,你PSENET发票检测出来,每个box位置是怎么放进去对应位置的?特别是中间钱那一块?能提供个思路嘛?

commented

哥,你PSENET发票检测出来,每个box位置是怎么放进去对应位置的?特别是中间钱那一块?能提供个思路嘛?

一般两个思路,1.正则,如果达到业务预期精度指标可落地,效果一般,处理速度极快;2.多模态,KIA任务作为下游任务,将box, 原图,text等模态融合进一个网络,提前定义好key,将问题转化为text去推理key,最后获得结构化的关系,数据体量大的情况下,精度高,噪声状态下鲁棒性好
ps:如果你数据体量大的话,可不用这么麻烦,可考虑多目标检测的方案,Cascade R-CNN,yolo都可以操作,优势是单个模型即可处理完所有问题,不用后处理,劣势是只能应用于发票场景,模型需要场景的变迁重新作迁移学习