C# 获取图片,Pdf中的文字

2023-05-16

识别图片中的文字

首先把下载好的tessdata放在自己项目的bin\Debug\tessdata文件夹中。

附一个tessdata的下载地址:https://github.com/tesseract-ocr/tessdata

命名空间:

using System.Drawing;
using Tesseract;
using System.IO;

需要NuGet的包:Tesseract

初始化tesseractEngine(注释的是白名单(能识别到的)和黑名单(不识别的))

private TesseractEngine tesseractEngine;
baseDirectory = Path.GetDirectoryName(Assembly.GetExecutingAssembly().Location);
            datapath = Path.Combine(baseDirectory, "tessdata");
            tesseractEngine = new TesseractEngine(datapath, "eng", EngineMode.Default);

            //tesseractEngine.SetVariable("tessedit_char_whitelist", "0123456789");
            //tesseractEngine.SetVariable("tessedit_char_blacklist", "!?@#$%&*()<>_-+=/:;'\"");

获取文字

confidence是识别率

//Bitmap bitmap = new Bitmap(fileName);

public string GetText(Bitmap bitmap, out float confidence)
        {
            var page = tesseractEngine.Process(bitmap);
            var text = page.GetText();
            confidence = page.GetMeanConfidence();
            page.Dispose();
            return text;
        }

从Pdf中获取文字

命名空间:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

需要NeGet的包:iTextSharp

public string ReadPdfContent(string filePath)
        {
                PdfReader pdfReader = new PdfReader(filePath);
                string text = string.Empty;

                for (int i = 1; i <= pdfReader.NumberOfPages; i++)
                {
                    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                    var temp = PdfTextExtractor.GetTextFromPage(pdfReader, i, strategy);
                    text += temp;
                }
                pdfReader.Close();

                return text;
        }

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

C# 获取图片,Pdf中的文字 的相关文章

  • 如何从 pdf C# 中获取具有特定颜色的文本

    我必须将 pdf 文件中的数据放入特定的数据库结构中 这要求我能够从 pdf 文件中获取某些数据 由于 pdf 没有任何标签等 我想知道是否可以根据颜色获取文本 比如说我想要所有的红色文本 或者我想要文档中的所有斜体文本 这在 C 中可能吗
  • 如何在启用嵌入时间戳和 LTV 的情况下签署 PDF?

    我正在尝试签署启用了时间戳和 LTV 的 pdf 以便它在 Adob e Reader 中显示如下 在英语中 这意味着 签名包含嵌入的时间戳 和 签名启用了 LTV 这是我正在使用的代码 PrivateKey pk get pk from
  • 在chrome中将pdf渲染为iframe

    我正在尝试将 pdf 托管在隐藏的 iframe 中 但在 Chrome 中呈现较小的问题时遇到问题 我必须刷新页面才能正确加载 JSfiddle 在这里https jsfiddle net 464xo40f https jsfiddle
  • PDF 附件 NodeMailer

    预先感谢您的回复 我编写了一些使用nodemailer 0 7 1的代码 它发送电子邮件并将pdf附加到电子邮件中 但是 pdf 附件在编码时会自行损坏或截断或发生其他情况 我之所以说这是附件之前的文件 即我本地的文件 是512kb 而电子
  • Swift UIImage 转换为 PDF

    在我的应用程序中 必须从 iPad Gallery 出售 UIImage 并将其转换为 PDF 并保存在服务器端 我可以选择图像并将其发送到服务器端 但后端说 pdf 为空 空数据 我还在控制台中看到警告 错误 发现扩展时遇到 发现 错误
  • 当我使用 Mime 从 Python 发送时,Outlook 和 Thunderbird 未收到附件

    我试图在 python 中使用 MimeBase 发送一封带有附件的电子邮件 当我不使用 Thunderbird 或 Outlook 时 我什至可以发送电子邮件并接收 pdf 附件 并在浏览器中打开邮箱 mensagem MIMEMulti
  • 使用 PDFSharp 打印 PDF

    我有以下代码 using System using System Diagnostics using System IO using PdfSharp Pdf Printing namespace PrintPdfFile class Pr
  • Chrome 和 Firefox 不会在 iframe 中显示大多数 PDF 文档

    我运行的是 Windows 7 64 位 我最近更新了操作系统以安装最新更新 从那时起 大多数 PDF 文档已停止在我的程序中呈现 我的程序想要在单独的 iFrame 中显示 PDF 文档 我通过获取 PDF 文档的 URL 并设置来做到这
  • TCPDF 为一个文档中的不同页面设置不同的页眉

    有没有办法使文档中第一页的页眉徽标和第二页的页眉徽标不同 我认为在添加页面之间更改标题数据可能会解决问题 但在我的测试中 添加第一页后设置标题似乎没有效果 other stuff pdf gt setHeaderFont array PDF
  • 报告实验室性能低下

    我在用着报告实验室将一些大型图书馆 俄语纯文本 转换为 pdf 格式 当原始文件足够小 例如 大约 10 50 kB 时 它可以正常工作 但是 如果我尝试转换大文本 超过 500kB 则需要花费大量时间来进行报告实验室 有谁知道可能是什么问
  • 在 iPhone 上搜索 PDF

    经过两天尝试使用 Quartz 从 PDF 中读取注释后 我成功做到了并且发布我的代码 https stackoverflow com questions 4080373 get pdf hyperlinks on ios with qua
  • 带有嵌入 Flash 视频的 PDF 示例?

    有谁知道我在哪里可以查看嵌入 Flash 视频的 PDF 示例 我知道问这个问题很愚蠢 因为你会认为任何面向技术的用户都应该能够使用谷歌找到一个 但我真的找不到 我的另一个问题是 使用 C 中的 API 将 Flash 视频嵌入 PDF 文
  • 将元数据添加到 PDF

    我需要将元数据添加到我正在创建的 PDF 中prawn http rubygems org gems prawn 该元数据稍后可能会被提取 pdf阅读器 http rubygems org gems pdf reader 该元数据将包含内部
  • PDF:在现有 PDF 文件中插入一行文本

    我有一个 PDF 文件 我希望在所有页面 前两页除外 的页脚上添加一行纯文本 不是徽标或类似内容 有谁有一个如何做到这一点的例子 用任何语言 Update 原始 PDF 是用 Scribus 制作的 我可以完全控制它 因此 如果更容易进行查
  • 我可以使用 iTextSharp 从现有 PDF 中删除文本对象并输出到新 PDF 吗?

    这个问题是我的旧问题的另一个版本 我想使用 iTextSharp 从 PDF 获取除文本对象之外的所有对象作为图像 https stackoverflow com questions 54003886 i want to get all o
  • 使用 JavaScript 填写 PDF 表单

    这就是我所拥有的 用户填写很长的 html 表单 用户获取下载不同 pdf 的链接 这是可填写的表格 链接是使用 javascript 生成的 用户单击链接 生成 url 使用用户之前提交的数据 在表单中处理数据并完成字段 这是在表单内使用
  • 以编程方式更改 PDF 文件中黑框的颜色?

    我有一个由 Microsoft Word 生成的 PDF 文件 用户指定了黑色的 突出显示 颜色 使文本看起来像一个黑框 并使文本看起来像是经过编辑的 我想将黑框更改为黄色 以便突出显示文本 理想情况下 我想用 Python 来完成此操作
  • 为什么 Internet Explorer 无法使用 NodeJS 和 Express 下载 PDF?

    我正在使用 NodeJS 构建一个网站 需要提供一些 PDF 以及其他文件 由于我无法确定的原因 Internet Explorer 8 第一次无法在 Acrobat Viewer 中完全下载 PDF 有时此后多次 直接保存文件效果很好 但
  • 如何打开PDF并阅读?

    我如何打开 PDF 文件并使用 Python 读取其中的一些内容 这种语言是首选 但是 Ruby Perl 或 PHP 也可以 以防它被识别 不仅仅是图像 或报告说如果没有它就不可能光学字符识别 TIA 更新 感谢您的解决方案 我确信其中一
  • 使用 /CCITTFaxDecode 过滤器从 PDF 中提取图像

    我有一个通过扫描软件生成的 pdf 文件 该 pdf 每页有 1 个 TIFF 图像 我想从每个页面中提取 TIFF 图像 我正在使用 iTextSharp 我已经成功找到了图像 并且可以从PdfReader GetStreamBytesR

随机推荐

  • JAVA json 三种格式

    json三种格式 span class token class name JSONObject span jsonParam span class token operator 61 span span class token keywor
  • java.lang.NumberFormatException: For input string: ""解决方案

    引起异常的主要原因如下 xff1a 1 传参字段和映射字段不一致2 传参类型和映射类型不一致3 时间类型转换时间戳长度不一致4 参数长度和数据库不一致 Service 层代码 span class token keyword public
  • 个性化命令提示符CMD,不止简单地美化,Dos命令让你的命令提示符cmd花里胡哨

    自重温了下注册表知道了autorun子项后 我把cmd重新设计了一遍 先上图 win10系统 cmd版本为10 0 17763 1 原理 添加注册表命令行的自启动项 使启动cmd时会自动运行项的命令值 打开注册表 win R 输入reged
  • Pandas入门第二章之数据的读取

    本节主要介绍pandas经常读取的两种数据格式 xff0c 其分别是CSV和JSON本节使用两个数据集分别是2019腾讯算法大赛和中国AI创新创业大赛的数据集 没有标签的原始数据的格式 带标题的数据格式 本节在介绍pandas读取CSV文件
  • 使用Javascript 创建枚举类型(enum)

    使用Javascript 创建枚举类型 xff08 enum xff09 1 枚举类型的定义 是指将变量的值一一列出来 变量的值只限于列举出来的值的范围内 2 typescript中的枚举类型 span class token keywor
  • 一个七年Java女程序员的年终总结,写给过去一年的自己

    简单先说一下 xff0c 坐标杭州 xff0c 14届本科毕业 xff0c 算上年前在阿里巴巴B2B事业部的面试 xff0c 一共有面试了有6家公司 xff08 因为不想请假 xff0c 因此只是每个晚上去其他公司面试 xff0c 所以面试
  • HTML初识

    文章目录 思维导图HTML标签浏览器内核Web标准骨架标签VScode的使用网页开发工具解释标签图像标签注意点路径视频格式 xff08 后续会补充 xff09 链接 思维导图HTML标签 xff08 表示后面有相应解释 xff09 浏览器内
  • 建造者模式

    建造者模式 建造者模式也属于创建型模式 xff0c 它提供了一种创建对象的最佳方式 定义 将一个复杂对象的构建与它的表示分离 xff0c 使得同样的构建过程可以创建不同的表示 主要作用 在用户不知道对象的建造过程和细节的情况下就可以直接创建
  • 作为一名Web前端开发人员和设计师,2018告诉你如何正确的学习前端

    第一步 掌握HTML CSS 这是你最初必须 掌握的是网站的构建元素没得选 随着你前端的学习进程 熟练掌握HTML CSS简单易学这里还是要推荐下小编的web前端学习群 606加721加798 xff0c 不管你是小白还是大牛 xff0c
  • R语言对正交实验结果(含交互作用)进行极差分析与方差分析实例

    题目 某工厂为了提高某产品的收率 xff0c 根据经验和分析 xff0c 认为反应温度A 反应时间B 碱用量C和催化剂种类D可能对产品的收率造成较大的影响 并考虑交互作用AB xff0c AC 用正交表L8 27 安排试验 xff0c 试验
  • git突然pull push不了 一直fetching

    4 14 今天改完代码之后在idea中push的时候一直fetching xff0c 提交不了代码 改用命令push被拒绝 xff0c pull可以 xff0c 但是特别慢 首先考虑是公司要求定期更改密码 xff0c 但是排除 因为已经改了
  • 配置VNC图形界面服务

    第一步 xff1a 安装Gnome图形化界面 要能远程访问图形化界面 xff0c 首先服务器自身要安装图形化界面 xff0c 在此我们还要安装中文支持套件 yum groupinstall 34 X window System 34 34
  • Activity四种启动模式及onNewIntent()方法

    1 Standard xff1a 是活动默认的启动模式 xff0c 在不进行显式指定的情况下 xff0c 所有活动都会自动使用这种启动模式 系统不在乎这个活动是否已经在返回栈中存在 xff0c 每次启动都会创建该活动的一个新的实例 2 Si
  • Lnuix中查看pytorch和python安装版本和路径

    Lnuix中查看pytorch和python安装版本和路径 1 查看pytorch安装版本和路径 conda activate pytorch环境名称输入python查看版本号 span class token function impor
  • Python之FileNotFoundError: [Errno 2] No such file or directory问题处理

    错误信息 xff1a FileNotFoundError Errno 2 No such file or directory 39 AutoFrame temp report xlsx 39 相对于当前文件夹的路径 xff0c 其实就是你写
  • 基于centos7学习总结 -- shell脚本

    shell 脚本必须要以 34 bin bash 34 开头 脚本建议内容 xff1a 脚本的功能脚本的版本信息脚本的作者与联系方式脚本的版权声明方式脚本的History脚本内特殊的命令 xff0c 使用 绝对路径 的方式来执行脚本运行时需
  • 关于java里的Collections工具类的max和min以及Arrays工具的二分查找。

    标题和沙雕 xff0c 很乱 xff1a 本文主要介绍两个在Java util里的工具类里的一小部分小小的方法 xff1a Collections类的max 和min Arrays类的asList 和二分查找 数组和集合的转换 一 Coll
  • js基本输入输出,变量,数据类型,案例。

    文章目录 1 计算机编程基础 xff1a 2 JS3 变量4 数据类型a 5种简单数据类型 xff1a 案例 b typeof获取变量类型 xff1a c 转化为数值型的放法 xff1a d 转化为字符型的方法 案例 xff1a 5 扩展阅
  • Android 7.0Settings加载主界面流程

    新人一枚 xff0c 没有整机环境 xff0c 有什么写的不对欢迎批评指正 xff0c 万分感谢 xff01 Settings主界面加载时序图 xff08 这里很多判断逻辑我省略掉了 更多的是想把加载主界面流程跑通 xff09 这张流程图将
  • C# 获取图片,Pdf中的文字

    识别图片中的文字 首先把下载好的tessdata放在自己项目的bin Debug tessdata文件夹中 附一个tessdata的下载地址 xff1a https github com tesseract ocr tessdata 命名空