使用Python从word文档中提取图像

2023-12-11

如何使用 python 从 Word 文档中提取图像/徽标并将其存储在文件夹中。以下代码将 docx 转换为 html，但不会从 html 中提取图像。任何指示/建议都会有很大帮助。

    profile_path = <file path>
    result=mammoth.convert_to_html( profile_path)
    f = open(profile_path, 'rb')
    b = open(profile_html, 'wb')
    document = mammoth.convert_to_html(f)
    b.write(document.value.encode('utf8'))
    f.close()
    b.close()

您可以使用docx2txt库，它将读取您的 .docx 文档并将图像导出到您指定的目录（必须存在）。

!pip install docx2txt
import docx2txt
text = docx2txt.process("/path/your_word_doc.docx", '/home/example/img/')

执行后，您将获得图像/主页/示例/img/和变量text将有文档文本。它们将按出现顺序命名为 image1.png ... imageN.png。

注意：Word 文档必须为 .docx 格式。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

python27

使用Python从word文档中提取图像的相关文章

Python 中的舍入浮点问题

我遇到了 np round np around 的问题它没有正确舍入我无法包含代码因为当我手动设置值而不是使用我的数据时返回有效但这是输出 In 177 a Out 177 0 0099999998 In 178 np rou
使用 kivy textinput 的 'input_type' 属性的问题

您好我在使用 kivy 的文本输入小部件的 input type 属性时遇到问题问题是我制作了两个自定义文本输入其中一个称为 StrText 其中设置了 input type text 然后是第二个文本输入名为 NumText 其
将 python2.7 与 Emacs 24.3 和 python-mode.el 一起使用

我是 Emacs 新手我正在尝试设置我的 python 环境到目前为止我已经了解到在 python 缓冲区中使用 python mode el C c C c将当前缓冲区的内容加载到交互式 python shell 中显然使用了什么
独立滚动矩阵的行

我有一个矩阵准确地说是 2d numpy ndarray A np array 4 0 0 1 2 3 0 0 5 我想滚动每一行A根据另一个数组中的滚动值独立地 r np array 2 0 1 也就是说我想这样做 print np
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
datetime.datetime.now() 返回旧值

我正在通过匹配日期查找 python 中的数据存储条目我想要的是每天选择今天的条目但由于某种原因当我将代码上传到 gae 服务器时它只能工作一天第二天它仍然返回相同的值例如当我上传代码并在 07 01 2014 执行它时它
如何在 Python 中解析和比较 ISO 8601 持续时间？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 Python v2 库它允许我解析和比较 ISO 8601 持续时间may处于不同单
Python beautifulsoup 仅限 1 级文本

我看过其他 beautifulsoup 得到相同级别类型的问题看来我的有点不同这是网站我正试图拿到右边那张桌子请注意表的第一行如何展开为该数据的详细细分我不想要那个数据我只想要最顶层的数据您还可以看到其他行也可以展开但在本例
Python，将函数的输出重定向到文件中

我正在尝试将函数的输出存储到Python中的文件中我想做的是这样的 def test print This is a Test file open Log a file write test file close 但是当我这样做时我收到
如何在不丢失注释和格式的情况下更新 YAML 文件 / Python 中的 YAML 自动重构

我想在 Python 中更新 YAML 文件值而不丢失 Python 中的格式和注释例如我想改造 YAML 文件 value 456 nice value to value 6 nice value 界面类似于 y yaml load
“隐藏”内置类对象、函数、代码等的名称和性质[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我很好奇模块中存在的类builtins无法直接访问的例如 type lambda 0 name function of module
如何使用python在一个文件中写入多行

如果我知道要写多少行我就知道如何将多行写入一个文件但是当我想写多行时问题就出现了但是我不知道它们会是多少我正在开发一个应用程序它从网站上抓取并将结果的链接存储在文本文件中但是我们不知道它会回复多少行我的代码现在如下 r
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
javascript 是否有等效的 __repr__ ？

我最接近Python的东西repr这是 function User name password this name name this password password User prototype toString function r
如何使用原始 SQL 查询实现搜索功能

我正在创建一个由 CS50 的网络系列指导的应用程序这要求我仅使用原始 SQL 查询而不是 ORM 我正在尝试创建一个搜索功能用户可以在其中查找存储在数据库中的书籍列表我希望他们能够查询书籍表中的 ISBN 标题作者列目前它
如何断言 Unittest 上的可迭代对象不为空？

向服务提交查询后我会收到一本字典或一个列表我想确保它不为空我使用Python 2 7 我很惊讶没有任何assertEmpty方法为unittest TestCase类实例现有的替代方案看起来并不正确 self assertTrue
Python ImportError：无法导入名称 __init__.py

我收到此错误 ImportError cannot import name life table from cdc life tables C Users tony OneDrive Documents Retirement retirem
模拟pytest中的异常终止

我的多线程应用程序遇到了一个错误主线程的任何异常终止例如未捕获的异常或某些信号都会导致其他线程之一死锁并阻止进程干净退出我解决了这个问题但我想添加一个测试来防止回归但是我不知道如何在 pytest 中模拟异常终止如果我只
使用随机放置的 NaN 创建示例 numpy 数组

出于测试目的我想创建一个M by Nnumpy 数组与c随机放置的 NaN import numpy as np M 10 N 5 c 15 A np random randn M N A mask np nan 我在创建时遇到问题mas

随机推荐

Redis PubSub 订阅机制是如何工作的？

我想创建一个发布订阅基础设施其中每个订阅者都将收听多个例如 100k 频道我认为使用 Redis PubSub 来实现此目的但我不确定订阅数千个频道是否是最佳实践为了回答这个问题我想知道 Redis 中的订阅机制如何在后台工作
docker-compose - 重启策略 - 不保留图像中的更改

让我们考虑以下示例 version 3 services some service build restart unless stopped This docker compose工作正常但是在重新启动期间它会保留先前运行重新启动之前
如何从排序列表中选择小于给定整数的元素？

我有一系列素数例如0 到 1000 之间的整数 primes 2 3 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 79 83 89 97 101 103 107 109 1
具有 URL 值的 HTML 标记属性的完整列表？

除了以下属性之外是否还有以 URL 作为值的 HTML 标记属性 href标签上的属性 a area src标签上的属性 img a
将字符串转换为日期时间 vb.net

我需要将字符串转换为日期格式要求是如果选择当前月份则日期应为 getdate 如果选择任何其他月份则应选择该月的第一个月输入的数据是 2010 年 1 月 2010 年 2 月等但它应该作为 01 01 10 或 02 01 1
JQuery - on()-方法/动态处理程序

我有一份等候名单和一份参与者名单管理员可以通过单击等待列表中用户名旁边的 div 将用户添加到参与者列表中单击 div 将某人添加到参与者列表后将调用 ajax 请求 gt 该请求会更新数据库中用户的状态并且如果 ajax 请求成
WebPack TypeError：无法读取未定义的属性“请求”

我继承了一个现有的 Angular2 项目当我跑步时NPM start我收到一个很长的错误开头是 Html Webpack 插件类型错误无法读取未定义的属性请求完整的错误输出 http textuploader com d5n2
Android CoreLocation 标题

我目前正在研究一种算法需要准确估计移动设备的航向对于iOS中的开发我不必估计用户标题因为框架已经提供了以下值trueHeading通过 CoreLocation 框架所以我不必实现我自己的融合算法这的美丽trueHeading是
Android 中的 Websocket 和 cookie

我正在开发一个 Android 应用程序我需要一个 Websockets 框架该框架允许我在 Websocket 的第一个连接中发送 cookie 而不是在每条消息中我试过了Autobahn and Java WebSocket但他们
facebook graph api 图片

如何使用 graph api 检索朋友的图片我已经设法使用这个来获取我朋友的个人资料图片 https graph facebook com user id 但是我想获取我朋友发布的照片我能够得到这个数据 link http www f
PHP 从 Javascript 加密流文件

我正在开发一个用于大文件的文件上传器从 HTML 脚本上传并使用 ArrayBuffer 和 Unit8Array 从 Javascript 按字节发送到 PHP PHP 脚本将流式传输文件并将其保存到文件夹中这是我的 Javascri
使用来自多个表的信息来记录交付的通用或特定 DAO？

我正在创建一个 Web 应用程序让用户使用 spring 和 hibernate 通过 GUI 存储和检索数据库中的信息在创建 DAO 和服务层时我陷入了困境我想创建一个可以添加新交付的方法在我的交货表中我有产品编号 and 客户I
Prolific PL2303 串行端口至 250000bps

我需要使用 c 以 250kbps 的速度运行我的 dev ttyUSB0 多产的 pl2303 USB RS232 转换器我到处查看每个人都说最接近的可达到的速度是 230400 bps http lxr linux no linux
通用量化和统一，一个例子

给出运行 monad 的以下签名ST runST forall s ST s a gt a 和功能 newVar a gt ST s MutVar s a readVar MutVar s a gt ST s a 那么Haskell编译器将
Facebook API for Android：如何获取有关用户好友的扩展信息？

我正在开发小型 Android 应用程序试图添加 Facebook 支持主要问题我只能获取有关用户朋友的基本信息 ID 姓名应用程序权限列表 offline access仅用于测试很快就会被删除 String sPermissio
我如何使用 ruby 迭代这个 json 文档？

我有一个ruby代码块如下 require elasticsearch require json search term big data city Hong Kong client Elasticsearch Client new lo
使用 Maven 集成 Activiti Modeler

如何将 Activiti Modeler 集成到自己的 Web 应用程序中并保留 Maven 建议的所有优点问题是Maven中的Activiti Modeler是Activiti Explorer的一部分网上有一些问题来自那些想要开发自
如何在 Array.map 中获得正确的“this”？

我假设有一些应用call or apply在这里但我不确定如何实现它 http codepen io anon pen oXmmzo a foo bar things 1 2 3 showFooForEach function this
如何在图中找到精确长度的路径

我想在无向图中找到固定长度的路径运行程序时给出我正在使用我的图的邻接矩阵我尝试使用一些算法如 DFS 或 A 但它们只返回最短路径节点无法再次访问假设我的图有 9 个节点最短路径是由 4 个节点构建的我想要有额外的变量来告
使用Python从word文档中提取图像

如何使用 python 从 Word 文档中提取图像徽标并将其存储在文件夹中以下代码将 docx 转换为 html 但不会从 html 中提取图像任何指示建议都会有很大帮助 profile path

使用Python从word文档中提取图像

使用Python从word文档中提取图像 的相关文章

随机推荐

热门标签

使用Python从word文档中提取图像的相关文章