图片请求识别接口,参数携带的是返回 text,实际返回的是 Unicode编码
LiRongming321 opened this issue · comments
LiRongming321 commented
Issues
- I have browsed through the Issues. 我已浏览过Issues,确定没有重复提问。
Umi-OCR version 程序版本
2.1.3
Windows version 系统版本
win10
OCR plugins Used 使用的OCR插件
PaddleOCR
Reproduction steps 复现步骤
接口:http://127.0.0.1:1224/api/ocr
"options": {
"ocr.language": "models/config_chinese.txt",
"ocr.cls": false,
"ocr.limit_side_len": 960,
"tbpu.parser": "multi_para",
"data.format": "text"
}
}
如果识别文本中有数字,返回的是数字,返回值中既有Umicode,也有数字,不是存文本
Problem screenshots or related files (optional) 问题截图或相关文件(可选)
No response
hiroi-sora commented
你好,可能你的理解稍有误差。
"data.format"
控制返回值的 数据类型 。如果为 dict ,那么返回值中 ["data"]
是字典。如果为 text ,那么 ["data"]
是字符串。
不管数据类型是text还是dict,它们都是 json中的一个元素 。而 json 本身是用 Unicode 编码的,即text或者dict中的文本都是Unicode编码。
实际上,文本编码对于你应该是透明的。只要你用任何编程语言中的json解析器去导入json,解析器都会自动将unicode转换为人类可读的编码。除非你直接阅读原始json结果,或者用自己开发的json解析器,才会见到unicode。