扫描仪扫描文档(TIFF 和 PDF)的最佳设置[关闭]

2023-12-15

扫描仪的最佳设置是什么,以便扫描文档(白色和黑色文本)并将其用于 OCR 转换(以获得最佳结果)以及 PDF 和 TIFF 格式的标准设置和规范是什么?


对于 OCR,最佳扫描设置是:

  • 常规文本分辨率为 300 dpi,特别小的字体(细则打印)分辨率为 400 dpi
  • 文本为黑白,小字体为灰度,图片为彩色
  • TIFF 格式。 Group4 用于黑白(文件大小非常小)。如果需要颜色,请使用未压缩(文件大小非常大)。

某些 OCR 技术可能有特殊的偏好,这可能会略有帮助,但通常很小。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

扫描仪扫描文档(TIFF 和 PDF)的最佳设置[关闭] 的相关文章

  • java中pdf解析为文本

    我有一个阿拉伯语 PDF 我想使用 Java 将其解析为文本文档 我已经尝试了很多次 英语单词解析成功 但阿拉伯语单词解析失败 谁能推荐一个可以正确转换阿拉伯语单词的解决方案 我想到了几个图书馆 阿帕奇蒂卡 http tika apache
  • OCR 处理前的图像预处理

    我当前的项目涉及将 pdf 中的文本转录为文本文件 我首先尝试将图像文件直接放入 OCR 程序 tesseract 中 但效果不佳 原始图像文件基本上是旧报纸 并且有一些背景噪音 我确信 tesseract 存在问题 因此 我尝试在将图像输
  • Matlab只打开多页tiff堆栈的第一帧

    我已经在 ImageJ 中使用宏创建了多页 tiff 文件 现在我尝试使用 matlab 打开它 但我只能访问第一帧 这是 imfinfo filename 的结果 因此 我得到 length imfinfo filename 1 File
  • 如何将 Xamarin.Forms XAML UI 页面转换为 PDF 文件?

    在Xamarin Forms中 我想将我的xaml页面UI 有时我的页面在有更多内容时是可滚动的 转换为PDF 我已经尝试过PDFSharp https github com akgulebubekir PDFSharp Xamarin F
  • 使用Python从具有两列或三列数据的图像中使用OCR读取图像中的文本

    在示例图像中 仅作为参考 我的图像将具有相同的图案 一个页面具有完整的水平文本 其他页面具有两个水平文本列 如何在python中自动检测文档的模式并逐一读取另一列数据 我将 Tesseract OCR 与 Psm 6 一起使用 它是水平读取
  • 将 16 位 tiff 文件转换为可在线查看的文件?

    我需要获取 16 位 tiff 文件并使其可以在我的网站上查看 为了查看 tiff 文件 许多浏览器都需要插件 我找到了一个可以将它们转换为 jpg 文件的软件 但我想知道是否有一种方法可以独立完成此操作 我正在使用 Ruby on Rai
  • PDF 到 Excel 转换将每个 pdf 页面放在不同的工作表中

    我正在尝试将 pdf 文件 有 16 页 转换为 Excel 文件 以便运行我在 Excel 中已有的程序 我已经有一个将 pdf 转换为 excel 的代码 但我希望宏将 pdf 文件的每个单独页面放入我的 excel 文件中的不同工作表
  • 图像中的文本检测

    I am using below sample code for text detection in images not handwritten using coreml and vision https github com DrNeu
  • 让 tesseract 只识别数字

    我正在尝试改进我制作的 OCR 程序来读取我正在使用的某个图像的布局 现在 我希望我的 OCR 程序只能识别数字 0 9 我尝试遵循问题的解决方案 限制 tesseract 正在寻找的字符 https stackoverflow com q
  • Google Vision API 文本识别器无法正常工作

    我使用 Google Vision API 来读取报纸等任何物体上的文本或墙上的文本 我已经尝试过来自 Google 开发者网站的相同示例 但我的文本识别器总是返回 falseIsOperational功能 我在 Blackberry ke
  • MATLAB 写入多页 tiff 指数慢

    我正在尝试编写一个多页 tiff 文件 该文件是 128 像素 x 128 像素 x 122000 帧的 16 位无符号整数 ImageJ 或简短的 Python 脚本可以在快速机器上在一分钟内完成此操作 在同一台机器上 无论使用我尝试过的
  • 将 pdf 文件转换为 tiff 文件的最佳方法 [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • 是否有用于将“任何文件类型”转换为 TIFF 图像的编程工具包?

    我已经编写了程序的几种变体 该程序的目的是将 任何文件类型 转换为该文件的 TIFF 图像表示形式 就像使用打印机打印一样 我当前正在使用向其发送文件的第三方打印机驱动程序 它会输出 TIFF 图像 这很好 但它要求我使用 Office I
  • 在 C# 中快速加载/读取 TIFF 文件

    我正在编写一个处理 TIFF 图像的 C 应用程序 主要是显示文件 重新排序页面 删除页面 分割多页图像 将单个图像合并为一个多页图像等 我们处理的大多数图像都较小 无论是文件大小还是页码 但也有一些较大的图像 显示图像时 我们需要将多页
  • 如何提取图像中的表格

    我想从图像中提取表格 这个 python 模块https pypi org project ExtractTable https pypi org project ExtractTable 与他们的网站https www extractta
  • 加快写入多个图像 TIFF 的速度?

    我正在尝试将图像堆栈写入 TIFF 文件 图像大小为 256 256 像素 每个堆栈包含 1000 张图像 编写其中一个文件大约需要 4 分钟 所以我的代码很可能有问题 这就是我正在做的 void Tiff WriterSplit floa
  • 在 google Vision OCR 中被识别为单个单词的特殊字符?

    我试图让谷歌视觉 OCR 正则表达式可搜索 我已经完成了它 并且当文档仅包含英文字符时效果很好 但当有其他语言的文本时 它就会失败 发生这种情况是因为我在谷歌视觉单词组件中只有英文字符 如下所示 VISION API WORD COUNTE
  • 提高 pytesseract 从图像中正确识别文本的能力

    我正在尝试使用读取验证码pytesseract模块 大多数时候它都能提供准确的文本 但并非总是如此 这是读取图像 操作图像以及从图像中提取文本的代码 import cv2 import numpy as np import pytesser
  • 如何在 python 中读取 32 位 TIFF 图像?

    我想用 python 读取 32 位浮点图像文件来进行一些图像分析 我努力了 import matplotlib pyplot as plt im plt imread path to file tif 但是 这仅将数据读取为 8 位整数值
  • 在Python中读取tiff标签

    我正在尝试用 Python 读取 tiff 文件的标签 该文件是 RGB 的uint16每个通道的值 我目前正在使用tifffile import tifffile img tifffile imread file tif 然而 img是一

随机推荐

  • OpenMPI:简单的 2 节点设置

    我在仅使用两个节点运行 OpenMPI 程序时遇到问题 其中一个节点与正在执行的机器是同一台机器 mpiexec命令和另一个节点是一台单独的机器 我将调用正在运行 mpiexec 的机器 master 以及另一个节点slave On bot
  • 使用 data.table [R] 查找组中众数出现的次数

    我一直在使用这里的优秀答案查找具有数据表的组的众数 但是 我还想查找每组变量 y 的 x 模态值出现的次数 我怎样才能做到这一点 编辑 有一种比上面链接的答案更快的方法来查找模式 我找不到从中得到的答案 如果有 请编辑并链接 但它使用此功能
  • React-router重定向到index.html并从.htaccess中的url中删除www

    我正在 ReactJS 中构建一个小型应用程序 因此所有页面都需要提供index html 并且 JS 处理 url 这很好用 但我还想让 htaccess 从网址中删除 www 如果存在 我正在阅读 mod rewrite 文档 但我不太
  • 如何在 Windows 7 中将 URL 参数从 Java 传递到本地 HTML 文件?

    我迫切需要您的专业知识来解决 Windows 7 问题 设想 我有一个基于框架的帮助包 它是为上下文相关的帮助调用而设置的 Java 应用程序能够通过将表示所需 HTML 的名为 anchor 的标记传递到名为 pophelp 的 HTML
  • 从输入文件读取实际值时出现浮点异常

    我尝试从输入文件中读取浮点值Fortran 为此 我使用以下代码 INTEGER nf REAL re OPEN newunit nf file toto txt READ unit nf fmt re 与 toto txt 包含我的真实值
  • Octave / MATLAB 中的 deal() 函数有什么意义?

    一些参考代码使用了该函数deal 简单地说 就像 a b c deal 1 2 3 如文档中所述 对于八度 and 对于MATLAB 该函数只是将输入复制到输出 Why use deal 在这种情况下 甚至在一般情况下 我正在尝试学习 更正
  • Django:从模板内访问会话变量?

    如果我在 Django 中设置一个会话变量 例如 request session name name 有没有办法可以从模板中访问它 或者我是否必须从视图中检索它 然后将其传递给模板 之所以这么问 是因为我想在模板中访问大约 10 个小会话变
  • 在 Angular 5 中迭代复杂的 JSON 结构

    如何在 Angular 5 中迭代 JSON 已经搜索了很多 得到了一个管道概念 但它不适用于复杂的 json 如下所示 我需要使用以下类型的数据创建可扩展表 我一直在阅读这个 json data Items Key 9009 type f
  • 如何使用 javascript 阻止因空字段而提交表单?

    如何在 javascript 中编写脚本来输出错误并防止表单中存在空字段时提交表单 假设表单名称为 form 输入名称为 name 我在 PHP 中遇到了一些麻烦 并不总是正确处理空字段 所以我想将其作为备份 如有任何帮助 我们将不胜感激
  • Sparklyr 更改所有列名称 Spark DataFrame

    我打算更改所有列名称 目前的重命名或选择操作太费力了 不知道有没有人有更好的解决方案 示例如下 df lt data frame oldname1 LETTERS oldname2 1 oldname200 APPLE df tbl lt
  • F5浏览器刷新和回发有区别吗?(asp.NET)

    我正在 asp NET 中现有数据网格的不同行中动态创建拖网格 我生成的数据网格有一列是 TemplateColumn 复选框列 在我的父数据网格中 我有一个带有复选框的模板列 当我选中或取消选中复选框的值时 会调用 check chang
  • Flutter:如何使用变量将参数传递给 Widget?

    这是一些伪代码 显示了我想要实现的目标 Text txt text subtitle false final params subtitle textAlign TextAlign center style TextStyle color
  • 如何检查 css box-shadow 是否受支持(jQuery)?

    我正在创建一个完整的 css 布局 但是 某些浏览器 例如IE6 不支持box shadow 和 webkit box shadow或 moz box shadow 我想检查一下是否不支持 然后添加其他样式 这在 jQuery 中怎么可能呢
  • 在 Heroku 上结合使用 Resque、Puma 和 Scheduler

    在查看了大量指南后 我想确认我的设置 现在我的procfile好像 web bundle exec puma C config puma rb config ru resque TERM CHILD 1 RESQUE TERM TIMEOU
  • 如何恢复用 jQuery 删除的元素?

    如果使用删除元素 notification remove 我们如何将其创建回来 你无法得到那个特定的例子后退 使用 remove 将其从 DOM 中删除 不过 您可以创建它的克隆 在 DOM 中移动它 隐藏它等等 根据您的项目需求 您可能还
  • 读取行时,awk $line

    我有一个包含数字列表的文件 我有第二个文件 每个文件包含各种条目和多个字段 我想要做的是获取第 12 个字段等于第一个数字的所有行 并将它们放入一个新文件中 然后放入第二个数字 依此类推 我写了一句很有道理的俏皮话 但我不明白为什么它行不通
  • Spring 4 静态内容(如 css/js)带来错误 405 不支持请求方法“GET”

    我已经检查过这个问题 但是经过 4 个小时的尝试 没有任何结果对我有用 尝试访问我的 css 文件时收到 405 错误 这是我的 Config java package com myapp config import org springf
  • 如何确保我的 makefile 检测到头文件和 cpp 文件中的更改?

    目前 每当我这样做时make我的 makefile 告诉我 make some obj file o 是最新的 无论我是否编辑了生成该目标文件所涉及的任何文件 我如何让它检测变化 这是一个重现该问题的简单 makefile SHELL bi
  • C# 中的二维数组切片

    我正在寻找在 C 中切片二维数组 我有 double 2 2 价格 想要检索该数组的第二行 我尝试过价格 1 但我有一种感觉 可能是别的东西 提前致谢 没有直接的 切片 操作 但您可以定义如下扩展方法 public static IEnum
  • 扫描仪扫描文档(TIFF 和 PDF)的最佳设置[关闭]

    Closed 这个问题不符合堆栈溢出指南 目前不接受答案 扫描仪的最佳设置是什么 以便扫描文档 白色和黑色文本 并将其用于 OCR 转换 以获得最佳结果 以及 PDF 和 TIFF 格式的标准设置和规范是什么 对于 OCR 最佳扫描设置是