我正在使用 Google Vision API,主要是为了提取文本。我工作得很好,但对于我需要 API 扫描输入行的特定情况,在移动到下一行之前吐出文本。然而,该 API 似乎正在使用某种逻辑,使其从左侧从上到下扫描,然后移动到右侧并进行从上到下扫描。我希望 API 能够从左到右读取、向下移动等等。
例如,考虑图像:
API 返回如下文本:
“ Name DOB Gender: Lives In John Doe 01-Jan-1970 LA ”
然而,我本来期望这样的事情:
“ Name: John Doe DOB: 01-Jan-1970 Gender: M Lives In: LA ”
我想有一种方法可以定义块大小或边距设置(?)来逐行读取图像/扫描?
感谢您的帮助。
亚历克斯
这可能是一个迟到的答案,但添加它以供将来参考。
您可以向 JSON 请求添加功能提示以获得所需的结果。
{
"requests": [
{
"image": {
"source": {
"imageUri": "https://i.stack.imgur.com/TRTXo.png"
}
},
"features": [
{
"type": "DOCUMENT_TEXT_DETECTION"
}
]
}
]
}
对于相距很远的文本,DOCUMENT_TEXT_DETECTION 也无法提供正确的行分段。
下列code根据角色多边形坐标进行简单的线分割。
https://github.com/sshniro/line-segmentation-algorithm-to-gcp-vision
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)