我试图让谷歌视觉 OCR 正则表达式可搜索。我已经完成了它,并且当文档仅包含英文字符时效果很好。但当有其他语言的文本时,它就会失败。
发生这种情况是因为我在谷歌视觉单词组件中只有英文字符,如下所示。
VISION_API_WORD_COUNTERS = "([a-zA-Z0-9]+)|([^a-zA-Z0-9 ])";
VISION_API_WORD_COMPONENTS = "[a-zA-Z0-9]";
VISION_API_NOT_WORD_COMPONENTS = "[^a-zA-Z0-9]";
由于我无法包含所有语言的字符,因此我正在考虑包含上述相反的字符。就像是
VISION_API_WORD_COMPONENTS = "[^*ALL THE SPECIAL CHARACTERS WHICH ARE IDENTIFIED AS WORD BY GOOGLE VISION*]"
例如[^!@#$%^&*()_+=]
.
那么我在哪里可以找到GOOGLE VISION 识别为单独单词的所有特殊字符?
反复试验,不断添加特殊字符,我发现这是一个选择。但这将是我的最后一个选择。
None
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)