breezedeus / CnOCR

CnOCR: Awesome Chinese/English OCR Python toolkits based on PyTorch. It comes with 20+ well-trained models for different application scenarios and can be used directly after installation. 【基于 PyTorch/MXNet 的中文/英文 OCR Python 包。】

Home Page:https://www.breezedeus.com/article/cnocr

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

同一高度下的多个有序文本块,会因为较大的高度差导致输出错误的排列顺序

skci opened this issue · comments

描述:
项目没有直接提供对行高敏感性调整的选项,识别时经常会遇到,有序的几个文本块在同一高度下,个别文本块略高而被率先输出,导致原本有序的文本变的混乱。

示例:
image
期望输出:['X0', 'X0', 'X0', 'X204', 'X59']
实际输出:['X204', 'X0', 'X0', 'X0', 'X59']

结果中给出了每段文字的位置,自己按照需要排个序就好了。

对,我目前就是这样解决的,但如果项目自身带有一个可调节的敏感度参数就更好了😘