C# 获取图片，Pdf中的文字

2023-05-16

识别图片中的文字

首先把下载好的tessdata放在自己项目的bin\Debug\tessdata文件夹中。

附一个tessdata的下载地址：https://github.com/tesseract-ocr/tessdata

命名空间：

using System.Drawing;
using Tesseract;
using System.IO;

需要NuGet的包：Tesseract

初始化tesseractEngine（注释的是白名单（能识别到的）和黑名单（不识别的））

private TesseractEngine tesseractEngine;
baseDirectory = Path.GetDirectoryName(Assembly.GetExecutingAssembly().Location);
            datapath = Path.Combine(baseDirectory, "tessdata");
            tesseractEngine = new TesseractEngine(datapath, "eng", EngineMode.Default);

            //tesseractEngine.SetVariable("tessedit_char_whitelist", "0123456789");
            //tesseractEngine.SetVariable("tessedit_char_blacklist", "!?@#$%&*()<>_-+=/:;'\"");

获取文字

confidence是识别率

//Bitmap bitmap = new Bitmap(fileName);

public string GetText(Bitmap bitmap, out float confidence)
        {
            var page = tesseractEngine.Process(bitmap);
            var text = page.GetText();
            confidence = page.GetMeanConfidence();
            page.Dispose();
            return text;
        }

从Pdf中获取文字

命名空间：

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

需要NeGet的包：iTextSharp

public string ReadPdfContent(string filePath)
        {
                PdfReader pdfReader = new PdfReader(filePath);
                string text = string.Empty;

                for (int i = 1; i <= pdfReader.NumberOfPages; i++)
                {
                    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                    var temp = PdfTextExtractor.GetTextFromPage(pdfReader, i, strategy);
                    text += temp;
                }
                pdfReader.Close();

                return text;
        }

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pdf

获取图片

中的文字

C# 获取图片，Pdf中的文字的相关文章

如何从 pdf C# 中获取具有特定颜色的文本

我必须将 pdf 文件中的数据放入特定的数据库结构中这要求我能够从 pdf 文件中获取某些数据由于 pdf 没有任何标签等我想知道是否可以根据颜色获取文本比如说我想要所有的红色文本或者我想要文档中的所有斜体文本这在 C 中可能吗
如何在启用嵌入时间戳和 LTV 的情况下签署 PDF？

我正在尝试签署启用了时间戳和 LTV 的 pdf 以便它在 Adob e Reader 中显示如下在英语中这意味着签名包含嵌入的时间戳和签名启用了 LTV 这是我正在使用的代码 PrivateKey pk get pk from
在chrome中将pdf渲染为iframe

我正在尝试将 pdf 托管在隐藏的 iframe 中但在 Chrome 中呈现较小的问题时遇到问题我必须刷新页面才能正确加载 JSfiddle 在这里https jsfiddle net 464xo40f https jsfiddle
PDF 附件 NodeMailer

预先感谢您的回复我编写了一些使用nodemailer 0 7 1的代码它发送电子邮件并将pdf附加到电子邮件中但是 pdf 附件在编码时会自行损坏或截断或发生其他情况我之所以说这是附件之前的文件即我本地的文件是512kb 而电子
Swift UIImage 转换为 PDF

在我的应用程序中必须从 iPad Gallery 出售 UIImage 并将其转换为 PDF 并保存在服务器端我可以选择图像并将其发送到服务器端但后端说 pdf 为空空数据我还在控制台中看到警告错误发现扩展时遇到发现错误
当我使用 Mime 从 Python 发送时，Outlook 和 Thunderbird 未收到附件

我试图在 python 中使用 MimeBase 发送一封带有附件的电子邮件当我不使用 Thunderbird 或 Outlook 时我什至可以发送电子邮件并接收 pdf 附件并在浏览器中打开邮箱 mensagem MIMEMulti
使用 PDFSharp 打印 PDF

我有以下代码 using System using System Diagnostics using System IO using PdfSharp Pdf Printing namespace PrintPdfFile class Pr
Chrome 和 Firefox 不会在 iframe 中显示大多数 PDF 文档

我运行的是 Windows 7 64 位我最近更新了操作系统以安装最新更新从那时起大多数 PDF 文档已停止在我的程序中呈现我的程序想要在单独的 iFrame 中显示 PDF 文档我通过获取 PDF 文档的 URL 并设置来做到这
TCPDF 为一个文档中的不同页面设置不同的页眉

有没有办法使文档中第一页的页眉徽标和第二页的页眉徽标不同我认为在添加页面之间更改标题数据可能会解决问题但在我的测试中添加第一页后设置标题似乎没有效果 other stuff pdf gt setHeaderFont array PDF
报告实验室性能低下

我在用着报告实验室将一些大型图书馆俄语纯文本转换为 pdf 格式当原始文件足够小例如大约 10 50 kB 时它可以正常工作但是如果我尝试转换大文本超过 500kB 则需要花费大量时间来进行报告实验室有谁知道可能是什么问
在 iPhone 上搜索 PDF

经过两天尝试使用 Quartz 从 PDF 中读取注释后我成功做到了并且发布我的代码 https stackoverflow com questions 4080373 get pdf hyperlinks on ios with qua
带有嵌入 Flash 视频的 PDF 示例？

有谁知道我在哪里可以查看嵌入 Flash 视频的 PDF 示例我知道问这个问题很愚蠢因为你会认为任何面向技术的用户都应该能够使用谷歌找到一个但我真的找不到我的另一个问题是使用 C 中的 API 将 Flash 视频嵌入 PDF 文
将元数据添加到 PDF

我需要将元数据添加到我正在创建的 PDF 中prawn http rubygems org gems prawn 该元数据稍后可能会被提取 pdf阅读器 http rubygems org gems pdf reader 该元数据将包含内部
PDF：在现有 PDF 文件中插入一行文本

我有一个 PDF 文件我希望在所有页面前两页除外的页脚上添加一行纯文本不是徽标或类似内容有谁有一个如何做到这一点的例子用任何语言 Update 原始 PDF 是用 Scribus 制作的我可以完全控制它因此如果更容易进行查
我可以使用 iTextSharp 从现有 PDF 中删除文本对象并输出到新 PDF 吗？

这个问题是我的旧问题的另一个版本我想使用 iTextSharp 从 PDF 获取除文本对象之外的所有对象作为图像 https stackoverflow com questions 54003886 i want to get all o
使用 JavaScript 填写 PDF 表单

这就是我所拥有的用户填写很长的 html 表单用户获取下载不同 pdf 的链接这是可填写的表格链接是使用 javascript 生成的用户单击链接生成 url 使用用户之前提交的数据在表单中处理数据并完成字段这是在表单内使用
以编程方式更改 PDF 文件中黑框的颜色？

我有一个由 Microsoft Word 生成的 PDF 文件用户指定了黑色的突出显示颜色使文本看起来像一个黑框并使文本看起来像是经过编辑的我想将黑框更改为黄色以便突出显示文本理想情况下我想用 Python 来完成此操作
为什么 Internet Explorer 无法使用 NodeJS 和 Express 下载 PDF？

我正在使用 NodeJS 构建一个网站需要提供一些 PDF 以及其他文件由于我无法确定的原因 Internet Explorer 8 第一次无法在 Acrobat Viewer 中完全下载 PDF 有时此后多次直接保存文件效果很好但
如何打开PDF并阅读？

我如何打开 PDF 文件并使用 Python 读取其中的一些内容这种语言是首选但是 Ruby Perl 或 PHP 也可以以防它被识别不仅仅是图像或报告说如果没有它就不可能光学字符识别 TIA 更新感谢您的解决方案我确信其中一
使用 /CCITTFaxDecode 过滤器从 PDF 中提取图像

我有一个通过扫描软件生成的 pdf 文件该 pdf 每页有 1 个 TIFF 图像我想从每个页面中提取 TIFF 图像我正在使用 iTextSharp 我已经成功找到了图像并且可以从PdfReader GetStreamBytesR

随机推荐

JAVA json 三种格式

json三种格式 span class token class name JSONObject span jsonParam span class token operator 61 span span class token keywor
java.lang.NumberFormatException: For input string: ""解决方案

引起异常的主要原因如下 xff1a 1 传参字段和映射字段不一致2 传参类型和映射类型不一致3 时间类型转换时间戳长度不一致4 参数长度和数据库不一致 Service 层代码 span class token keyword public
个性化命令提示符CMD，不止简单地美化，Dos命令让你的命令提示符cmd花里胡哨

自重温了下注册表知道了autorun子项后我把cmd重新设计了一遍先上图 win10系统 cmd版本为10 0 17763 1 原理添加注册表命令行的自启动项使启动cmd时会自动运行项的命令值打开注册表 win R 输入reged
Pandas入门第二章之数据的读取

本节主要介绍pandas经常读取的两种数据格式 xff0c 其分别是CSV和JSON本节使用两个数据集分别是2019腾讯算法大赛和中国AI创新创业大赛的数据集没有标签的原始数据的格式带标题的数据格式本节在介绍pandas读取CSV文件
使用Javascript 创建枚举类型（enum）

使用Javascript 创建枚举类型 xff08 enum xff09 1 枚举类型的定义是指将变量的值一一列出来变量的值只限于列举出来的值的范围内 2 typescript中的枚举类型 span class token keywor
一个七年Java女程序员的年终总结，写给过去一年的自己

简单先说一下 xff0c 坐标杭州 xff0c 14届本科毕业 xff0c 算上年前在阿里巴巴B2B事业部的面试 xff0c 一共有面试了有6家公司 xff08 因为不想请假 xff0c 因此只是每个晚上去其他公司面试 xff0c 所以面试
HTML初识

文章目录思维导图HTML标签浏览器内核Web标准骨架标签VScode的使用网页开发工具解释标签图像标签注意点路径视频格式 xff08 后续会补充 xff09 链接思维导图HTML标签 xff08 表示后面有相应解释 xff09 浏览器内
建造者模式

建造者模式建造者模式也属于创建型模式 xff0c 它提供了一种创建对象的最佳方式定义将一个复杂对象的构建与它的表示分离 xff0c 使得同样的构建过程可以创建不同的表示主要作用在用户不知道对象的建造过程和细节的情况下就可以直接创建
作为一名Web前端开发人员和设计师，2018告诉你如何正确的学习前端

第一步掌握HTML CSS 这是你最初必须掌握的是网站的构建元素没得选随着你前端的学习进程熟练掌握HTML CSS简单易学这里还是要推荐下小编的web前端学习群 606加721加798 xff0c 不管你是小白还是大牛 xff0c
R语言对正交实验结果（含交互作用）进行极差分析与方差分析实例

题目某工厂为了提高某产品的收率 xff0c 根据经验和分析 xff0c 认为反应温度A 反应时间B 碱用量C和催化剂种类D可能对产品的收率造成较大的影响并考虑交互作用AB xff0c AC 用正交表L8 27 安排试验 xff0c 试验
git突然pull push不了一直fetching

4 14 今天改完代码之后在idea中push的时候一直fetching xff0c 提交不了代码改用命令push被拒绝 xff0c pull可以 xff0c 但是特别慢首先考虑是公司要求定期更改密码 xff0c 但是排除因为已经改了
配置VNC图形界面服务

第一步 xff1a 安装Gnome图形化界面要能远程访问图形化界面 xff0c 首先服务器自身要安装图形化界面 xff0c 在此我们还要安装中文支持套件 yum groupinstall 34 X window System 34 34
Activity四种启动模式及onNewIntent()方法

1 Standard xff1a 是活动默认的启动模式 xff0c 在不进行显式指定的情况下 xff0c 所有活动都会自动使用这种启动模式系统不在乎这个活动是否已经在返回栈中存在 xff0c 每次启动都会创建该活动的一个新的实例 2 Si
Lnuix中查看pytorch和python安装版本和路径

Lnuix中查看pytorch和python安装版本和路径 1 查看pytorch安装版本和路径 conda activate pytorch环境名称输入python查看版本号 span class token function impor
Python之FileNotFoundError: [Errno 2] No such file or directory问题处理

错误信息 xff1a FileNotFoundError Errno 2 No such file or directory 39 AutoFrame temp report xlsx 39 相对于当前文件夹的路径 xff0c 其实就是你写
基于centos7学习总结 -- shell脚本

shell 脚本必须要以 34 bin bash 34 开头脚本建议内容 xff1a 脚本的功能脚本的版本信息脚本的作者与联系方式脚本的版权声明方式脚本的History脚本内特殊的命令 xff0c 使用绝对路径的方式来执行脚本运行时需
关于java里的Collections工具类的max和min以及Arrays工具的二分查找。

标题和沙雕 xff0c 很乱 xff1a 本文主要介绍两个在Java util里的工具类里的一小部分小小的方法 xff1a Collections类的max 和min Arrays类的asList 和二分查找数组和集合的转换一 Coll
js基本输入输出，变量，数据类型，案例。

文章目录 1 计算机编程基础 xff1a 2 JS3 变量4 数据类型a 5种简单数据类型 xff1a 案例 b typeof获取变量类型 xff1a c 转化为数值型的放法 xff1a d 转化为字符型的方法案例 xff1a 5 扩展阅
Android 7.0Settings加载主界面流程

新人一枚 xff0c 没有整机环境 xff0c 有什么写的不对欢迎批评指正 xff0c 万分感谢 xff01 Settings主界面加载时序图 xff08 这里很多判断逻辑我省略掉了更多的是想把加载主界面流程跑通 xff09 这张流程图将
C# 获取图片，Pdf中的文字

识别图片中的文字首先把下载好的tessdata放在自己项目的bin Debug tessdata文件夹中附一个tessdata的下载地址 xff1a https github com tesseract ocr tessdata 命名空

C# 获取图片，Pdf中的文字

C# 获取图片，Pdf中的文字 的相关文章

随机推荐

热门标签

C# 获取图片，Pdf中的文字的相关文章