用于屏幕文本的 OCR(光学字符识别)

2024-04-21

我正在尝试创建一个软件,通过捕获屏幕截图来自动化 PC,然后使用 OCR(光学字符识别)来查找要单击的特定按钮(例如)。我已经有了鼠标和键盘控制部分,但现在,我需要 OCR 来处理屏幕截图。我发现 Tesseract OCR 似乎不能很好地处理屏幕上的文本。文本太小,或者某些文本似乎是相连的,例如 K 和 X。我应该如何处理?

p/s:这是一个自动化测试程序。


我不确定这是否真的适合您,但我在自动化中看到的一些更好的 OCR 是由 Tevron 完成的西特拉测试 http://www.tevron.com/default.asp。它包含一个字体库,如果不存在字体集,他们将根据您提交的内容创建一个新字体。该工具的负面因素是成本以及与可变屏幕分辨率相关的常见问题。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

用于屏幕文本的 OCR(光学字符识别) 的相关文章

随机推荐

  • MySQL - 超类型/子类型设计

    我需要创建以下数据库 对于半卡车 我不需要额外的子类型 而对于汽车 我只需要这 3 个子类型 对于轿车 我需要四个子类型 对于 SELECT 我将使用 JOIN 规范化数据库 但我需要找到一种简单的方法来进行 INSERT 车辆表存储常用信
  • 如何使用 jq 提取所有(也嵌套)键名称

    如何提取所有键名称 即使是在带有 jq 的嵌套对象中 例如 我有 json a 1 b c 2 我想获得列表 a b b c 我知道对于顶级密钥我可以通过以下方式获得 to entries key 但是嵌套对象中的键又如何呢 Short j
  • 为什么前/后增量运算符表现错误?

    为什么 PHP 中变量的值在以下代码中没有一致的行为 问题是为什么最后一个例子中的第一个输出等于 11 而不是上面
  • 在 GKE 上运行的 Ruby 的 Stackdriver 错误报告

    从 GKE 上运行的 Rails 应用收集错误需要执行哪些步骤 我已将 stackdriver gem 添加到我的 Rails 应用程序中 并使用以下命令创建了一个自定义角色errorreporting errorEvents create
  • 如何在SqlCE中使用存储过程

    我刚刚安装了SQL Server 精简版 令我惊讶的是 我们不能在 sql server CE 中使用存储过程 我有 Sql Server CE 中存储过程的替代方案吗 我对存储过程非常着迷 我无法想象没有存储过程的应用程序 请帮忙 提前致
  • 如何关闭MIPS-GCC自动指令重排序?

    继这个问题之后 使用跳转 和链接 指令的奇怪 MIPS 汇编器行为 https stackoverflow com questions 3807480 weird mips assembler behavior with jump and
  • 使用 jQuery 在 AngularJS 元素指令上绑定事件

    我在 AngularJS 中有一个指令 module angular module demoApp null module directive sample function return restrict E transclude tru
  • 吃豆人:眼睛是如何找到回到怪物洞的路的?

    我在 吃豆人 中发现了很多关于鬼魂人工智能的参考 但没有提到在鬼魂被吃豆人吃掉后 眼睛如何找到回到中央鬼洞的路 在我的实现中 我实现了一个简单但糟糕的解决方案 我只是在每个角落都硬编码了应该采取的方向 有更好 或最好的解决方案吗 也许是一个
  • C#/.NET 分析器应具有哪些功能?

    这可能是一则边缘广告 更不用说主观了 但这个问题是诚实的 在过去的两个月里 我一直在为 NET 开发一个新的开源分析器 称为 SlimTune Profiler http code google com p slimtune http co
  • SwiftUI 是否可以调用该函数并从其他页面更改视图?

    这是我的代码 struct FirstPage View var body some View VStack NavigationView VStack Text First Page bold NavigationLink destina
  • Node.js 异步等待 - 错误 regeneratorRuntime

    我学习了如何在浏览器中使用 Promise 但是当我想在 Node js 中使用它时 它会抛出错误 var ref asyncToGenerator PURE regeneratorRuntime mark function callee
  • 将 CVPixelBuffer 渲染到 NSView (macOS)

    我有一个CVPixelBuffer我正在尝试在屏幕上有效地绘制 转变为低效率的方式NSImage可以工作 但速度非常慢 丢掉了大约 40 的帧数 因此 我尝试使用将其渲染在屏幕上CIContext s drawImage inRect fr
  • 使用 SharedSizeGroup 测量/排列网格

    两个包含以某种方式指定的元素的网格和 SharedSizeGroup 似乎存在一些问题 这个问题是为了回答先前的问题 https stackoverflow com questions 3865033 grid height not adj
  • Visual Studio 调试器在混合调试模式下停止命中断点

    我在 MSVC2013 中混合调试时遇到严重问题 从本机 C DLL 调用 COM 方法后 调试器不再在断点处停止 代码结构 上图展示了代码的整体结构 我有一个解决方案 其中包含大约 10 个 C 项目 大约 50 个 C 本机项目和一个
  • Android Studio、OpenCV、C++、jni、NDK - 无法配置?

    我正在尝试使用 jni 和 Android Studio NDK 在 Android Studio 中进行 OpenCV C 调用 这些是我一直在工作的参考资料 https github com opencv opencv tree mas
  • Kubernetes 应用服务但端点没有

    当我尝试将服务应用于 pod 时 端点始终为 none 有人可以知道任何根本原因吗 我还检查选择器是否与deployment yaml 中定义的内容匹配 下面是我使用的部署 服务文件 我还附上了服务描述 部署 yaml apiVersion
  • 如何避免在 git-add 时指定绝对文件路径

    Using git add一旦文件路径变得很长 命令就会变得乏味 例如git add src test com abc product server datasource manager aats DSManger java是否可以绕过指定
  • 将参数从 .aspx.cs 传递到 .ashx

    我想将字符串传递到 ashx 页面 通常我会通过在 aspx 页面中设置参数来完成此操作 例如 Loader TreeLoader ashx passedVariable hello 但我想在 aspx cs 端以编程方式执行此操作 因为该
  • 引导程序中导航和巨型屏幕之间的差距

    对于我的一生 我无法确定我的导航和大屏幕之间的空白来自哪里 我已经玩过很多变量 但无法让它消失 我在这里做了一个cssdeckhttp cssdeck com labs u6ws0ozl http cssdeck com labs u6ws
  • 用于屏幕文本的 OCR(光学字符识别)

    我正在尝试创建一个软件 通过捕获屏幕截图来自动化 PC 然后使用 OCR 光学字符识别 来查找要单击的特定按钮 例如 我已经有了鼠标和键盘控制部分 但现在 我需要 OCR 来处理屏幕截图 我发现 Tesseract OCR 似乎不能很好地处