从 mht 文件中提取图像和文本

2023-12-30

我有一个包含图像和一些文本的 mht 文件。当我用记事本++打开它时,我看到 xml,然后看到难以辨认的文本,我认为这些文本是图像。 有人能告诉我如何使用 java 程序从 mht 文件中提取图像和文本吗? 谢谢。


它有点旧,但在 Internet Explorer 中打开它,然后另存为 HTML 也可以完成这项工作

Update:

如果您在 IE 中打开 .mht 文件,然后保存它,并将“保存类型”设置为“网页,完整(.htm;.html)”,那么它将创建 'filename.htm' 文件,以及 'filename_files 目录。该目录中会有很多 .tmp 文件。对于 MS“问题步骤记录器”的输出,其中将包括一堆名称中带有“(1)”的文件(例如可能有一个“mhtD3B8.tmp' 文件以及 'mhtD3B8(1).tmp' 文件)。 “(1)”文件是 .jpg 格式的图像,仅带有 .tmp 扩展名。从该文件夹中搜索名称中包含“(1)”的所有文件,并将它们复制到其他目录。

进入新目录后,打开指向该目录的 cmd 窗口。要一次更改所有扩展名,请键入“重命名 *.tmp *.jpg"(不带引号)并按 Enter 键。瞧 - 所有图像文件都已提取。

至于访问文本 - 由于该文件现在保存为 .htm 文件,您应该能够在 Notepad++ 中打开该文件并在那里正确解析/读取它。

希望这可以帮助!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

从 mht 文件中提取图像和文本 的相关文章

  • 如何对 NSArray 中的数字进行排序?

    我无法拼凑出如何做到这一点 我从 plist 中获取数组 该数组充满了数字 如 plist 中设置的那样 现在我需要做的就是对它们进行排序 使它们下降 但我无法解决 试试这个代码 NSArray array loaded from file
  • 在 shell 脚本中缩进多行输出

    我正在尝试更改 Ubuntu Amazon EC2 盒子上的每日消息 MOTD 以便在我通过 SSH 登录时它会显示我的某个目录的 git 状态 所有默认 MOTD 文件的输出在每行开头都有两个空格 因此看起来缩进很好 但因为我的git s
  • 多个 XSD 架构文件到 C# 类

    从多个 XSD 架构文件生成 C 类的最佳方法是什么 某些 XSD 架构文件可能相互依赖 我试图避免生成重复的 C 类 使用XSD EXE程序 但通过all在同一命令行上将模式添加到程序中 例如 gt xsd c qbxmltypes130
  • 运行 Spring Batch 作业的多个实例时出现死锁[重复]

    这个问题在这里已经有答案了 我有一个 spring 批处理作业 它在基于块的步骤中从数据库读取并在进行一些处理后写入文件 我的要求是同时并行运行该作业的近 16 个实例 只需具有不同的作业参数 但我在这样做的时候一直面临着几个问题 1 无法
  • dvcs 部分合并(git、hg 合并跟踪)

    我有一个关于一般 DVCS 的问题 包括 Git 和 Hg 在 Git 和 Hg 中 合并跟踪都是在 提交 级别而不是 文件 目录 级别完成的 副作用 之一是你不能轻易地进行 部分合并 您已修改分支 feature branch x 中的
  • Patsy 中的 One-hot 编码

    对于回归 我通常使用 sklearn 对分类变量进行编码OneHotEncoder http scikit learn org stable modules generated sklearn preprocessing OneHotEnc
  • java.awt.FontFormatException: bad table, tag=1196445523 表示什么?

    我已关注这个链接 http www dynamicreports org documentation fonts向我的 jasper 报告项目添加字体 但在尝试构建报告时出现此异常 此异常意味着什么 我找不到任何关于如何解决它的解决方案 请
  • alt 和标题未显示为 svg 路径的工具提示

    我有一些 svg 路径
  • 启动tomcat时jre_home环境变量未正确定义

    当我尝试使用运行 tomcat 时startup bat我收到以下错误 The JRE HOME environment variable is not defined correctly This environment variable
  • K 运行时的明显“配置文件”之间有什么区别?

    设置完后KRuntime https github com aspnet Home wiki runtime 版本管理器 https github com aspnet Home wiki Version Manager并闲逛kvm命令 很
  • 撤销 JWT Oauth2 刷新令牌

    我正在尝试找到一种使用普通 Spring 实现和 JwtTokenStore 撤销 Oauth2 JWT 刷新令牌的方法 第一 有人可以确认没有类似于 oauth token 的 API 允许我撤销刷新令牌吗 我想添加一个自定义 API 该

随机推荐

  • JMeter - 响应时间与延迟具有相同的值

    我正在使用 JMeter 和 Blazemeter 报告执行性能测试 但响应时间值与延迟时间值相同 有人可以解释一下吗 我附上图表结果 延迟时间图 响应时间图 这只是意味着响应很小 空 值为 TTLB 和 TTFB 请参见关于差异的解释 h
  • DDD 和 CQRS:从单个命令处理程序使用多个存储库?

    简单电子商店的典型示例 假设用户将一些商品添加到购物篮并单击 结账 发出 创建订单 命令 现在 在实际创建状态为 预计付款 的订单记录以及数据库中相应的订单行之前 我们必须检查用户选择的商品是否仍然可用 也许某些商品在用户将其添加到购物篮时
  • 使用自定义渲染器在网格中进行过滤

    我的管理网格模块中的过滤器出现问题 我的问题是 过滤自定义渲染器不起作用的列 public function prepareColumns this gt addColumn entity id array header gt ID ind
  • 检查多个 PHP 数组键是否全部存在

    我目前正在使用以下内容 a array foo gt bar bar gt foo if isset a foo isset a bar echo all exist 但是 我将拥有比foo and bar我必须检查一下 有没有比添加一个更
  • 如何使用 React 在音频元素上设置 srcObject

    我一直在尝试设置srcReact 中音频标签的属性 但曲目从未播放 playTrack track const stream new MediaStream stream addTrack track this setState gt st
  • 起订量 - 不可覆盖的成员不得在设置/验证表达式中使用

    我是最小起订量的新手 我在嘲笑一个PagingOptions班级 该类如下所示 public class PagingOptions Range 1 99999 ErrorMessage Offset must be greater tha
  • 对新对象使用相同的引用

    在搜索一些松散相关的东西时 我偶然发现了这句话 引用可以比对象更长寿 并可用于引用在同一地址创建的新对象 由此answer https stackoverflow com a 24720107 349594 现在 我一直知道并通过引用进行工
  • 仅在未授予权限时请求 getUserMedia

    我正在创建一个警报 以便在我的网站请求访问用户的麦克风时向用户提供额外的通知 我读过 对于 Chrome 如果该网站通过 HTTPS 提供服务 则不会再次请求用户许可 除非他们删除该权限 但是 我注意到在请求麦克风访问的非 HTTPS 站点
  • 如何打印带有颜色的 R 数据框?

    随着crayon包中 可以创建彩色字符串 library crayon dat lt data frame X c yellow foobar green baz Y cyan qux 这是编码后的dat gt dat X Y 1 033
  • Catalina 中的 NSButton 没有选中状态

    我在 Catalina 上将 NSButton 设置为复选框 并使用以下代码 莫哈韦沙漠没问题 let checkbox NSButton frame NSRect x 0 y 0 width 200 height 32 checkbox
  • 如何通过has_and_belongs_to_many迁移到has_many?

    两个模型之间有一个简单的 has and belongs to many 关系 我们想向该模型添加一些参数 因此我们需要将其更改为 has many through 之类的模型 据我所知 我们需要添加一个 id 列 以及我们想要的任何列 但
  • 我应该使用 eclipse rcp 或 eclipse scout 做什么?

    我计划使用 java 代码开发桌面应用程序 并希望使用任何现成的制作了框架 然后我了解了 eclipse RCP eclipse scout 但我不确定我应该使用哪个框架日食 RCP http wiki eclipse org index
  • Bitbucket 管道不使用缓存进行捆绑安装

    我尝试了命名缓存的各种变体 但似乎没有任何效果 正如我在构建设置中看到的那样 我的缓存正在正确下载 Cache bundler Downloading Cache bundler Downloaded 25 2 MiB in 1 secon
  • ViewModel 中的依赖属性注册

    我发现很多关于 ViewModel 及其属性的讨论 比较了两种方法 INotifyPropertyChanged或通过实施依赖属性 虽然我做了很多 INotifyPropertyChanged 并且它正在工作 但我在实现 DP 方法时遇到了
  • 如何在 Elm 中获取 window.location.href?

    我有一个index html其中包含我的 Elm 应用程序 Elm 应用程序使用各种GETs 到由同一服务器提供服务的 APIindex html 而不是在我的 Elm 代码中硬编码 URLGETs e g url http localho
  • WordPress - 我无法登录 - wp_users 表出现问题

    我无法登录管理仪表板 当我转到 localhost nutri wp admin 时 它会自动将我重定向到 http localhost nutri wp login php redirect to http 3A 2F 2Flocalho
  • 二维点集的包裹

    我有一个二维点列表 例如 x c 4 3 3 5 6 6 4 and y c 5 3 1 0 1 3 5 这些二维点的图是 我想绘制这个点集的包装 如下所示 请注意 边界 包装器 与最近点之间的垂直距离为 2 个单位 注意 我有很多像上面的
  • 在 d3.js 中设置 axis 的 css

    有没有办法在 d3 js 中执行 axis path fill none 我已经在 call d3 svg axis 上尝试过 attr 和 style 但无济于事 我只是在这里做错了什么 我用来创建轴的完整代码如下 create Axis
  • 猫鼬群体和计数

    下面是我的 mongodb 结构 id 111 items productId 123 id 222 items productId 123 productId 456 id 333 items productId 123 productI
  • 从 mht 文件中提取图像和文本

    我有一个包含图像和一些文本的 mht 文件 当我用记事本 打开它时 我看到 xml 然后看到难以辨认的文本 我认为这些文本是图像 有人能告诉我如何使用 java 程序从 mht 文件中提取图像和文本吗 谢谢 它有点旧 但在 Internet