使用 python-docx 检索具有文档结构的文档内容

2023-12-10

我必须从中检索表格和上一个/下一个段落docx文件，但无法想象如何获取它python-docx

我可以通过以下方式获取段落列表document.paragraphs

我可以通过以下方式获取表格列表document.tables

如何获得这样的文档元素的有序列表

[
Paragraph1,
Paragraph2,
Table1,
Paragraph3,
Table3,
Paragraph4,
...
]?

python-docx尚无对此的 API 支持；有趣的是，Microsoft Word API 也没有。

但您可以使用以下代码解决此问题。请注意，它有点脆弱，因为它使用了python-docx内部结构可能会发生变化，但我预计它在可预见的未来会很好地工作：

#!/usr/bin/env python
# encoding: utf-8

"""
Testing iter_block_items()
"""

from __future__ import (
    absolute_import, division, print_function, unicode_literals
)

from docx import Document
from docx.document import Document as _Document
from docx.oxml.text.paragraph import CT_P
from docx.oxml.table import CT_Tbl
from docx.table import _Cell, Table
from docx.text.paragraph import Paragraph


def iter_block_items(parent):
    """
    Generate a reference to each paragraph and table child within *parent*,
    in document order. Each returned value is an instance of either Table or
    Paragraph. *parent* would most commonly be a reference to a main
    Document object, but also works for a _Cell object, which itself can
    contain paragraphs and tables.
    """
    if isinstance(parent, _Document):
        parent_elm = parent.element.body
        # print(parent_elm.xml)
    elif isinstance(parent, _Cell):
        parent_elm = parent._tc
    else:
        raise ValueError("something's not right")

    for child in parent_elm.iterchildren():
        if isinstance(child, CT_P):
            yield Paragraph(child, parent)
        elif isinstance(child, CT_Tbl):
            yield Table(child, parent)


document = Document('test.docx')
for block in iter_block_items(document):
    print('found one')
    print(block.text if isinstance(block, Paragraph) else '<table>')

这里还有一些对此的讨论：
https://github.com/python-openxml/python-docx/issues/276

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

docx

pythondocx

使用 python-docx 检索具有文档结构的文档内容的相关文章

为什么 matplotlib 底图没有绘制地图中某些区域的颜色？

下面的代码应该为越南的所有州着色 import pandas as pd import matplotlib pyplot as plt from mpl toolkits basemap import Basemap fig ax plt
检测骰子的上侧

是否可以检测骰子的上面虽然从顶部看这将是一项简单的任务但从许多角度来看可以看到多个侧面 Here is an example of a dice feel free to take your own pictures 您通常想知道自己
Python 3.6 DateTime Strptime 返回错误，而 Python 3.7 运行良好

我刚刚为日期数据创建了一个数据类型它返回一个datetime datetime object 这是代码 import datetime class Date def new cls dateTime args kwargs return
漂亮的地图打印机会抛出类型错误

我已经使用配置了漂亮的打印机http wiki eclipse org CDT User FAQ How can I inspect the contents of STL containers 3F http wiki eclipse o
测试交互式Python程序

我想知道python的哪些测试工具支持交互式程序的测试例如我有一个由以下人员启动的应用程序 python dummy program py gt gt Hi whats your name Joseph 我想要仪器Joseph所以我可以
Visual Studio Code：如何使用参数调试 Python 脚本

我正在使用 Visual Studio Code 来调试 Python 脚本下列的本指南 https code visualstudio com docs python debugging 我在中设置了参数launch json file
如何计算查询集中每个项目的两个字段的总和

假设我有以下模型结构 class SomeModel Model base price DecimalField commision DecimalField 我不想存储total price在我的数据库中为了数据一致性并希望将其计算为ba
Django 说“id 可能不为 NULL”，但为什么会这样呢？

我今天要疯了我只是尝试插入一条新记录但它返回了 post blogpost id 可能不为 NULL 错误这是我的模型 class BlogPost models Model title models CharField max le
如何使用 ipywidgets 创建动态依赖下拉菜单？

我创建了一个带有两个下拉菜单的表单我的目标是使一个下拉列表依赖于另一个下拉列表这张图说明了我的目标和目前的情况 https i stack imgur com o9k5G png 下面的示例代码可以在 Google Colab 或 Ju
如何在python mechanize中设置cookie

向服务器发送请求后 br open http xxxx br select form nr 0 br form MESSAGE 1 2 3 4 5 br submit 我得到了响应标题其中包含 set cookie Set Cookie
Scapy：如何将新层（802.1q）插入现有数据包？

我有一个数据包转储想要将 VLAN 标记 802 1q 标头注入到数据包中怎么做为了找到答案我查看了Scapy 插入新层和记录问题 https stackoverflow com q 17259592 1381638 这确实很有帮
telethon 库：如何通过电话号码添加用户

我正在研究 Telegram 的 Telethon 库它可以使用 Telegram API 充当 Telegram 客户端重要提示这是电报客户端 API https core telegram org telegram api 而不是
使用 os.forkpty() 创建一个伪终端以 ssh 到远程服务器并与其通信

我正在尝试编写一个 python 脚本它可以 ssh 到远程服务器并可以从 python 客户端执行 ls cd 等简单命令但是在成功 ssh 到服务器后我无法读取伪终端的输出任何人都可以在这里帮助我以便我可以在服务器上执行一
如何删除 pip 安装的所有软件包？

如何从当前激活的虚拟环境中卸载 pip 安装的所有软件包我发现这个片段作为替代解决方案与重新创建 virtualenv 相比删除库更加优雅 pip freeze xargs pip uninstall y 如果您通过 VCS 安装了软
如何在自定义 django 命令中抽象出命令代码

我正在我的应用程序下编写自定义 django 命令management commands目录目前我在该目录中有 6 个不同的文件每个文件都有不同的命令来解决独特的需求然而有一些实用程序是它们所共有的抽象出这些公共代码的最佳方法是什
使用 conda 安装额外功能

With pip我们可以使用方括号安装子包例如与阿帕奇气流 https pythonhosted org airflow installation html pip install airflow all 有类似的东西吗conda或者我必
获取 python 模块的 2 个独立实例

我正在与以非 OO 方式编写的 python 2 x API 进行交互它使用模块全局范围来处理一些内部状态驱动的东西在它不再是单例的情况下需要它并且修改原始代码不是我们的不是一个选择如果不使用单独解释器的子进程运行有什么方法可
Django INSTALLED_APPS 的命名约定是如何工作的？

该网站上的教程创建了一个名为 polls 的应用程序它使用 django 1 9 所以在 INSTALLED APPS 中它是 polls apps PollsConfig 我正在观看一个教程他将应用程序命名为新闻通讯并且在 INST
给定一个字符串，如何删除所有重复的连续字母？

如何从字符串中删除两个连续的字母例如 a str hii thherre 应该成为 hi there 我尝试这样做 a str join sorted set a str key a str index 但是我得到 hi ter 是的
重写 PyGObject 中的虚拟方法

我正在尝试实施高宽几何管理 http developer gnome org gtk3 3 2 GtkWidget html geometry management在 GTK 和 Python 中用于我的自定义小部件我的小部件是来自的子类

随机推荐

连接两个 Pandas DataFrame 同时保持索引顺序

基本问题我试图连接两个 DataFrame 生成的 DataFrame 按原始两个的顺序保留索引例如 df pd DataFrame Houses 10 20 30 40 50 Cities 3 4 7 6 1 index 1 2 4
升级到rails 3.1.0后ActionView::Template::Error（参数数量错误（1代表0））与atom_feed

我刚刚将 Rails 应用程序从 3 0 7 版本升级到候选版本 3 1 0 我的 Atom feed 构建器中出现了一个奇怪的错误 ActionView Template Error wrong number of arguments 1
WPF/Metro 风格：使 ListView 只显示完整的项目

在我的 Metro 应用程序中我有一个包含一定数量项目例如 25 个的数据源我有一个显示这些项目的 ListView 我的问题是 ListView 的大小允许它显示 6 5 个项目因此它显示的最后一个项目被切成两半如果分辨率改变
如何在asp.net web应用程序中调用javascript方法

我想在 C 函数中使用 javascript 函数 protected void button1 Click object sender EventArgs e javascript function call ex boolean b t
为什么 JS 允许在数组中使用负索引？

为什么 JS 中数组的负索引不会引发错误看起来它不打算在数组中包含具有负索引的元素 array length不计算具有负索引的元素 array forEach 不会迭代具有负索引的元素 UPD 问题不是为什么它在技术上是可能的而是为
Java 可选映射和 orElse 的链接（if-else-style）

Java 中是否有一种优雅且流式的方式来表示如果该值存在则将此可选值映射到另一个带有计算值的可选值否则返回一个空的可选值我想到了类似的事情 Optional
使用 USING 进行 SQL 连接：<列名称> 不是可识别的表提示选项

我有以下加入 SELECT FROM tableA INNER JOIN tableB USING commonColumn 我收到错误 commonColumn 不是可识别的表提示选项如果是用作表值函数或 CHANGETABLE函数
Cayenne 3.1 - 动态设置数据源

我目前使用 Cayenne 3 1B2 作为某些 Web 服务的持久层服务需要公开多个数据库之一所有数据库都具有相同的架构在调用服务操作时确定数据库使用哪个数据库的决定需要基于调用服务的客户端的身份我将如何定义它并在运行时使用它
暂时/动态禁用 Viewpager 中的单个页面

我有一个扩展的 FragmentPagerAdapter 它为 ViewPager 提供 3 个片段给我 3 个页面我可以在它们之间滑动也可以使用添加到操作栏的选项卡来手动选择页面我想暂时禁止用户使用任一导航类型访问最终页面禁用任
用于设置系统蜂鸣声的批处理/VB 脚本

我想知道使用批处理 vbs 或任何其他内置的 Windows 语言我可以让系统发出蜂鸣声就像启动时按下某个键时发出的蜂鸣声吗我不确定这是否可能但任何帮助都会很棒这非常容易使用ctrl G 出现为 G在命令中只需输入 Echo
将 ImageView 与 EditText 水平对齐

我正在努力寻找一种对齐的方法EditText and an ImageView properly在安卓上我不断得到这个结果 XML 部分非常简单
图像未在循环 Vue.js 中显示[重复]

这个问题在这里已经有答案了我正在尝试使用循环显示 9 个不同的图像v for 但是他们没有表现出来如果我在没有任何循环的情况下显示它它就可以工作我正在提取正确的资源但它仍然不会显示这是我的代码 img class list c
如何在 LazyVGrid 中以编程方式触发 NavigationLink

我有一个LazyVGrid里面一个NavigationView NavigationView ScrollView LazyVGrid columns columns ForEach items item in NavigationLink
倾斜表面辐射的 solaR 时间戳

我正在尝试使用 R 包solaR给定水平面上测量的辐照度计算倾斜面上的辐照度我可以让代码工作但最终输出时间戳没有意义可以找到此代码的数据here 这是德克萨斯州奥斯汀一天的测量辐照度全局水平 ghz 直接法线 dir 漫射水平 d
如何通过类名或id获取元素

我正在尝试通过 angularjs 查找 html 中的元素这是 HTML
Xsl：如何根据总和进行分组和排序？

我有下面的xml
引用/对象的静态/动态转换

不久前我和一群选角操作员一起玩显然我当时并没有真正理解我现在正在查看我的代码我看到了这个 Base Derived p derived m state static cast p derived m state 我想我现在对指针和引用
如何在 PHP 中获取真实的主机名或服务器名

如何在 PHP 中不使用 SERVER SERVER NAME 来获取真实主机名还有其他更可靠的方式获取吗我创建了一个从域路径获取主机名的函数我想避免使用 SERVER SERVER NAME 变量因为它可以通过在 HTTP 请求中
无法从模板获取内容

在 Javascript 中我试图动态创建 HTML
使用 python-docx 检索具有文档结构的文档内容

我必须从中检索表格和上一个下一个段落docx文件但无法想象如何获取它python docx 我可以通过以下方式获取段落列表document paragraphs 我可以通过以下方式获取表格列表document tables 如何获得这样

使用 python-docx 检索具有文档结构的文档内容

使用 python-docx 检索具有文档结构的文档内容 的相关文章

随机推荐

热门标签

使用 python-docx 检索具有文档结构的文档内容的相关文章