用于屏幕文本的 OCR（光学字符识别）

2024-04-21

我正在尝试创建一个软件，通过捕获屏幕截图来自动化 PC，然后使用 OCR（光学字符识别）来查找要单击的特定按钮（例如）。我已经有了鼠标和键盘控制部分，但现在，我需要 OCR 来处理屏幕截图。我发现 Tesseract OCR 似乎不能很好地处理屏幕上的文本。文本太小，或者某些文本似乎是相连的，例如 K 和 X。我应该如何处理？

p/s：这是一个自动化测试程序。

我不确定这是否真的适合您，但我在自动化中看到的一些更好的 OCR 是由 Tevron 完成的西特拉测试 http://www.tevron.com/default.asp。它包含一个字体库，如果不存在字体集，他们将根据您提交的内容创建一个新字体。该工具的负面因素是成本以及与可变屏幕分辨率相关的常见问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

用于屏幕文本的 OCR（光学字符识别）的相关文章

为什么存在 async 关键字

浏览 msdn 9 频道视频时我发现以下未答复的评论希望有人能解释一下我不明白 async 关键字的意义为什么不直接允许任何时候方法返回任务时都会使用await关键字就像迭代器一样可以在任何返回 IEnumerable 的方法
通过增加索引之和来生成排序组合的有效方法

对于启发式算法我需要一个接一个地评估特定集合的组合直到达到停止标准由于它们很多目前我正在使用以下内存高效迭代器块生成它们受到 python 的启发 itertools combinations http docs python o
System.IO.IOException：由于意外>数据包格式，握手失败？

有谁知道这意味着什么 System Net WebException 底层连接已关闭发送时发生意外错误 gt System IO IOException 由于意外握手失败数据包格式在 System Net Security SslS
在 C++ 中将成对向量转换为两个独立向量的最快方法

假设我有一个vector of pair
将字符串中的“奇怪”字符转换为罗马字符

我需要能够将用户输入仅转换为 a z 罗马字符不区分大小写所以我感兴趣的角色只有26个然而用户可以输入他们想要的任何形式的字符西班牙语 n 法语 e 和德语 u 都可以包含用户输入中的重音符号这些重音符号会被程序删除我已
选择列表逻辑应位于 ASP.NET MVC、视图、模型或控制器中的什么位置？

我觉得我的问题与这个问题很接近但我想对这样的代码应该放在哪里进行更一般的讨论 Asp Net MVC SelectList 重构问题 https stackoverflow com questions 2149855 asp net mv
SFINAE 如何使用省略号？

过去当使用 SFINAE 选择构造函数重载时我通常使用以下内容 template
如何生成 appsettings..json 文件？

我有一个 ASP NET Core 2 WebAPI 它将部署在以下环境中 INT QA STAGE 生产环境基于上述我需要有appsettings
如何将带有自定义分配器的 std::vector 传递给需要带有 std::allocator 的函数？

我正在使用外部库 pcl 因此我需要一个不会更改现有函数原型的解决方案我正在使用的一个函数生成一个std vector
C# 委托责任链

为了我的理解目的我实现了责任链模式 Abstract Base Type public abstract class CustomerServiceDesk protected CustomerServiceDesk nextHandle
默认析构函数做了多少事情

C 类中的默认析构函数是否会自动删除代码中未显式分配的成员例如 class C public C int arr 100 int main void C myC new C delete myC return 0 删除 myC 会自动释放
分配器感知容器和propagate_on_container_swap

The std allocator traits模板定义了一些常量例如propagate on container copy move assign让其他容器知道它们是否应该在复制或移动操作期间复制第二个容器的分配器我们还有propag
如何随着分辨率的变化自动调整大小和调整表单控件

我注意到某些应用程序会更改控件的位置以尽可能适应当前的分辨率例如如果窗口最大化则控件的设置方式应使整个 GUI 看起来平衡是否可以使用 C 在 Visual studio 2010 中制作或实现此功能 Use Dock http m
.NET 客户端中 Google 表格中的条件格式请求

我知道如何在 Google Sheets API 中对值和其他格式进行批量电子表格更新请求但条件格式似乎有所不同我已正确设置请求 AddConditionalFormatRuleRequest formatRequest new Add
DataTable：通过 LINQ 或 LAMBDA 进行动态 Group By 表达式

我有一个数据表我想在其中对未指定数量的字段进行分组发生这种情况的原因是用户可以选择他想要分组的字段所以实际上我将选择推入列表中在这个选择上我必须对我的数据表进行分组想象一下这段代码 VB 或 C 都一样 public voi
从 Delphi 调用 C# dll

我用单一方法编写了 Net 3 5 dll 由Delphi exe调用不幸的是它不起作用步骤 1 使用以下代码创建 C 3 5 dll public class MyDllClass public static int MyDllMet
在 C++17 中使用成员的链接错误

我在 Ubuntu 16 04 上使用 gcc 7 2 并且需要使用 C 17 中的新文件系统库尽管确实有一个名为experimental filesystem的库但我无法使用它的任何成员例如当我尝试编译此文件时 include
OSError: [WinError 193] %1 不是有效的 Win32 应用程序，同时使用 CTypes 在 python 中读取自定义 DLL

我正在尝试编写用 python 封装 C 库的代码我计划使用 CTypes 来完成此操作并使用 Visual Studio 来编译我的 DLL 我从一个简单的函数开始在 Visual Studio 内的标头中添加了以下内容然后将其构
C#中为线程指定特殊的cpu

我有 2 个线程我想告诉其中一个在第一个 cpu 上运行第二个在第二个 cpu 上运行例如在具有两个 cpu 的机器中我怎样才能做到这一点这是我的代码 UCI UCIMain new UCI Thread UCIThread ne
如何使用 C# 以低分辨率形式提供高分辨率图像

尝试使用 300dpi tif 图像在网络上显示目前当用户上传图像时我正在动态创建缩略图如果创建的页面引用宽度为 500x500px 的高分辨率图像我可以使用相同的功能即时转换为 gif jpg 吗将创建的 jpg 的即将分辨率

随机推荐

MySQL - 超类型/子类型设计

我需要创建以下数据库对于半卡车我不需要额外的子类型而对于汽车我只需要这 3 个子类型对于轿车我需要四个子类型对于 SELECT 我将使用 JOIN 规范化数据库但我需要找到一种简单的方法来进行 INSERT 车辆表存储常用信
如何使用 jq 提取所有（也嵌套）键名称

如何提取所有键名称即使是在带有 jq 的嵌套对象中例如我有 json a 1 b c 2 我想获得列表 a b b c 我知道对于顶级密钥我可以通过以下方式获得 to entries key 但是嵌套对象中的键又如何呢 Short j
为什么前/后增量运算符表现错误？

为什么 PHP 中变量的值在以下代码中没有一致的行为问题是为什么最后一个例子中的第一个输出等于 11 而不是上面
在 GKE 上运行的 Ruby 的 Stackdriver 错误报告

从 GKE 上运行的 Rails 应用收集错误需要执行哪些步骤我已将 stackdriver gem 添加到我的 Rails 应用程序中并使用以下命令创建了一个自定义角色errorreporting errorEvents create
如何在SqlCE中使用存储过程

我刚刚安装了SQL Server 精简版令我惊讶的是我们不能在 sql server CE 中使用存储过程我有 Sql Server CE 中存储过程的替代方案吗我对存储过程非常着迷我无法想象没有存储过程的应用程序请帮忙提前致
如何关闭MIPS-GCC自动指令重排序？

继这个问题之后使用跳转和链接指令的奇怪 MIPS 汇编器行为 https stackoverflow com questions 3807480 weird mips assembler behavior with jump and
使用 jQuery 在 AngularJS 元素指令上绑定事件

我在 AngularJS 中有一个指令 module angular module demoApp null module directive sample function return restrict E transclude tru
吃豆人：眼睛是如何找到回到怪物洞的路的？

我在吃豆人中发现了很多关于鬼魂人工智能的参考但没有提到在鬼魂被吃豆人吃掉后眼睛如何找到回到中央鬼洞的路在我的实现中我实现了一个简单但糟糕的解决方案我只是在每个角落都硬编码了应该采取的方向有更好或最好的解决方案吗也许是一个
C#/.NET 分析器应具有哪些功能？

这可能是一则边缘广告更不用说主观了但这个问题是诚实的在过去的两个月里我一直在为 NET 开发一个新的开源分析器称为 SlimTune Profiler http code google com p slimtune http co
SwiftUI 是否可以调用该函数并从其他页面更改视图？

这是我的代码 struct FirstPage View var body some View VStack NavigationView VStack Text First Page bold NavigationLink destina
Node.js 异步等待 - 错误 regeneratorRuntime

我学习了如何在浏览器中使用 Promise 但是当我想在 Node js 中使用它时它会抛出错误 var ref asyncToGenerator PURE regeneratorRuntime mark function callee
将 CVPixelBuffer 渲染到 NSView (macOS)

我有一个CVPixelBuffer我正在尝试在屏幕上有效地绘制转变为低效率的方式NSImage可以工作但速度非常慢丢掉了大约 40 的帧数因此我尝试使用将其渲染在屏幕上CIContext s drawImage inRect fr
使用 SharedSizeGroup 测量/排列网格

两个包含以某种方式指定的元素的网格和 SharedSizeGroup 似乎存在一些问题这个问题是为了回答先前的问题 https stackoverflow com questions 3865033 grid height not adj
Visual Studio 调试器在混合调试模式下停止命中断点

我在 MSVC2013 中混合调试时遇到严重问题从本机 C DLL 调用 COM 方法后调试器不再在断点处停止代码结构上图展示了代码的整体结构我有一个解决方案其中包含大约 10 个 C 项目大约 50 个 C 本机项目和一个
Android Studio、OpenCV、C++、jni、NDK - 无法配置？

我正在尝试使用 jni 和 Android Studio NDK 在 Android Studio 中进行 OpenCV C 调用这些是我一直在工作的参考资料 https github com opencv opencv tree mas
Kubernetes 应用服务但端点没有

当我尝试将服务应用于 pod 时端点始终为 none 有人可以知道任何根本原因吗我还检查选择器是否与deployment yaml 中定义的内容匹配下面是我使用的部署服务文件我还附上了服务描述部署 yaml apiVersion
如何避免在 git-add 时指定绝对文件路径

Using git add一旦文件路径变得很长命令就会变得乏味例如git add src test com abc product server datasource manager aats DSManger java是否可以绕过指定
将参数从 .aspx.cs 传递到 .ashx

我想将字符串传递到 ashx 页面通常我会通过在 aspx 页面中设置参数来完成此操作例如 Loader TreeLoader ashx passedVariable hello 但我想在 aspx cs 端以编程方式执行此操作因为该
引导程序中导航和巨型屏幕之间的差距

对于我的一生我无法确定我的导航和大屏幕之间的空白来自哪里我已经玩过很多变量但无法让它消失我在这里做了一个cssdeckhttp cssdeck com labs u6ws0ozl http cssdeck com labs u6ws
用于屏幕文本的 OCR（光学字符识别）

我正在尝试创建一个软件通过捕获屏幕截图来自动化 PC 然后使用 OCR 光学字符识别来查找要单击的特定按钮例如我已经有了鼠标和键盘控制部分但现在我需要 OCR 来处理屏幕截图我发现 Tesseract OCR 似乎不能很好地处

用于屏幕文本的 OCR（光学字符识别）

用于屏幕文本的 OCR（光学字符识别） 的相关文章

随机推荐

热门标签

用于屏幕文本的 OCR（光学字符识别）的相关文章