hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。

Repository from Github https://github.comhiroi-sora/Umi-OCRRepository from Github https://github.comhiroi-sora/Umi-OCR

建议新增可以多开实例、或者多开识别引擎来进行识别并对比(同类型的识别任务的不同引擎的并发)

ckx000 opened this issue · comments

Issues

  • I have browsed through the Issues. 我已浏览过Issues,确定没有重复的建议。

Expected behavior 预期的功能

软件非常赞,感谢作者。

主要用于识别日文
发现引擎识别率差那么一点,可能是因为日文的模型数据集太小了。
然而我交叉使用发现PaddleOCR和微信的能互相互补,微信的总体识别率还行,
但是会和中文字搞混 ,还会错在片假名的ーユ 这类文字上。总被识别成 -ュ
HGN(JK2{MJ~E9J2Z01_YU7Y

PaddleOCR的识别片假名上问题不太大 但是有些字体会识别错误
%6~02T1G8ZOERQHBV}@_VVX

目前我是先切换引擎识别后 再在软件里更改引擎 再识别一次,然后吧文本复制进对比软件中(例如beyondCompare)进行对比来排查不对的地方并手动修改
之前尝试多开2个不同的程序,想分别用不同的引擎来识别,发现umi无法多开。

希望能增加一个功能 就是针对同一个任务 能分别用不同的引擎跑一次识别,然后进行对比,标识出不同的地方可人工筛查修改
比如类似这样?

或者能设定一下可以多开不同的程序出来分别使用不同的引擎,(好像会有问题?毕竟软件要在后台并可调用截图)

另外,因为日文识别的困难,尝试了其他2个提取文字的方法,发现效果好的出奇,就是无法批量使用,不知道umi有接入的可能嘛?
1就是chrome的智能镜头,直接用chrome打开本地图片 右键选智能镜头,就可以直接复制文字出来,而且100%正确,除了没有换行格式外。。据说这个功能好像是使用的googlelens?不知道可否以后增加调用googlelens的功能?或者像微信识图那样用插件来调用chrome来ocr?
2.就是win11的截图工具,那个工具竟然也能直接提取文字出来,也是100%正确,同时还能保留文字段落格式。挺厉害的。。只是这个只能在win11上使用。win10上的截图工具没有这个功能

Approximate reference (optional) 近似的参考(可选)

无标题

无奈自己不会py,斗胆画了一个我个人感觉可行的添加功能的设计
作者如果以后考虑添加类似功能的话,希望多少能帮助到作者实现功能。

感谢建议。

  • 关于多开:其实将程序文件,复制一份放在不同目录下,就可以多开了。设置不同的截图快捷键就可以分开控制截图等功能。
  • 一次任务使用多个引擎来执行:未来开发图片翻译的时候,会考虑下这类功能。不过这涉及底层任务流程控制及前端UI的大幅度修改,需要一定工作量。
  • Win11截图:理论上第三方程序通过 Win API 能调用同款识别模型。不过以前它的准确度并不好,所以我没有采纳过它。可能win11最近版本中优化了模型。未来考虑下添加Win API 作为识别插件。