建议新增可以多开实例、或者多开识别引擎来进行识别并对比（同类型的识别任务的不同引擎的并发）

Question

建议新增可以多开实例、或者多开识别引擎来进行识别并对比（同类型的识别任务的不同引擎的并发）

ckx000 opened this issue 2 months ago · comments

旋子 commented 2 months ago

Issues

I have browsed through the Issues. 我已浏览过Issues，确定没有重复的建议。

Expected behavior 预期的功能

软件非常赞，感谢作者。

主要用于识别日文
发现引擎识别率差那么一点，可能是因为日文的模型数据集太小了。
然而我交叉使用发现PaddleOCR和微信的能互相互补，微信的总体识别率还行，
但是会和中文字搞混，还会错在片假名的ーユ这类文字上。总被识别成 -ュ
$HGN(JK2{MJ~E9J2Z01_YU7Y$

PaddleOCR的识别片假名上问题不太大但是有些字体会识别错误

目前我是先切换引擎识别后再在软件里更改引擎再识别一次，然后吧文本复制进对比软件中（例如beyondCompare）进行对比来排查不对的地方并手动修改
之前尝试多开2个不同的程序，想分别用不同的引擎来识别，发现umi无法多开。

希望能增加一个功能就是针对同一个任务能分别用不同的引擎跑一次识别，然后进行对比，标识出不同的地方可人工筛查修改
比如类似这样？

或者能设定一下可以多开不同的程序出来分别使用不同的引擎，（好像会有问题？毕竟软件要在后台并可调用截图）

另外，因为日文识别的困难，尝试了其他2个提取文字的方法，发现效果好的出奇，就是无法批量使用，不知道umi有接入的可能嘛？
1就是chrome的智能镜头，直接用chrome打开本地图片右键选智能镜头，就可以直接复制文字出来，而且100%正确，除了没有换行格式外。。据说这个功能好像是使用的googlelens？不知道可否以后增加调用googlelens的功能？或者像微信识图那样用插件来调用chrome来ocr？
2.就是win11的截图工具，那个工具竟然也能直接提取文字出来，也是100%正确，同时还能保留文字段落格式。挺厉害的。。只是这个只能在win11上使用。win10上的截图工具没有这个功能

Approximate reference (optional) 近似的参考（可选）

无奈自己不会py，斗胆画了一个我个人感觉可行的添加功能的设计
作者如果以后考虑添加类似功能的话，希望多少能帮助到作者实现功能。

hiroi-sora · Answer 1 · Tue Jan 14 2025 21:09:51 GMT+0800 (China Standard Time)

感谢建议。

关于多开：其实将程序文件，复制一份放在不同目录下，就可以多开了。设置不同的截图快捷键就可以分开控制截图等功能。
一次任务使用多个引擎来执行：未来开发图片翻译的时候，会考虑下这类功能。不过这涉及底层任务流程控制及前端UI的大幅度修改，需要一定工作量。
Win11截图：理论上第三方程序通过 Win API 能调用同款识别模型。不过以前它的准确度并不好，所以我没有采纳过它。可能win11最近版本中优化了模型。未来考虑下添加Win API 作为识别插件。