我有一个包含图像和一些文本的 mht 文件。当我用记事本++打开它时,我看到 xml,然后看到难以辨认的文本,我认为这些文本是图像。
有人能告诉我如何使用 java 程序从 mht 文件中提取图像和文本吗?
谢谢。
它有点旧,但在 Internet Explorer 中打开它,然后另存为 HTML 也可以完成这项工作
Update:
如果您在 IE 中打开 .mht 文件,然后保存它,并将“保存类型”设置为“网页,完整(.htm;.html)”,那么它将创建 'filename.htm' 文件,以及 'filename_files 目录。该目录中会有很多 .tmp 文件。对于 MS“问题步骤记录器”的输出,其中将包括一堆名称中带有“(1)”的文件(例如可能有一个“mhtD3B8.tmp' 文件以及 'mhtD3B8(1).tmp' 文件)。 “(1)”文件是 .jpg 格式的图像,仅带有 .tmp 扩展名。从该文件夹中搜索名称中包含“(1)”的所有文件,并将它们复制到其他目录。
进入新目录后,打开指向该目录的 cmd 窗口。要一次更改所有扩展名,请键入“重命名 *.tmp *.jpg"(不带引号)并按 Enter 键。瞧 - 所有图像文件都已提取。
至于访问文本 - 由于该文件现在保存为 .htm 文件,您应该能够在 Notepad++ 中打开该文件并在那里正确解析/读取它。
希望这可以帮助!
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)