从word文档中提取标题文本

2023-11-23

我正在尝试提取text来自 MS Word 文档（.docx 文件）中的（任何级别）标题。目前我正在尝试解决使用python-docx，但不幸的是，读完后我仍然无法弄清楚它是否可行（也许我错了）。

我尝试在网上寻找解决方案，但没有发现任何适合我的任务的解决方案。如果有人能在这里指导我，那就太好了。

根本的挑战是识别标题段落。就读者而言，没有什么可以阻止作者将“常规”段落格式化为看起来（并充当）标题。

然而，作者可靠地使用样式来创建标题的情况并不罕见，因为这样做可以自动将这些标题编译到目录中。

在这种情况下，您可以迭代段落，并挑选出具有其中一种标题样式的段落。

def iter_headings(paragraphs):
    for paragraph in paragraphs:
        if paragraph.style.name.startswith('Heading'):
            yield paragraph

for heading in iter_headings(document.paragraphs):
    print heading.text

如果标题级别保留默认值（例如“标题 1”、“标题 2”等），则可以从完整样式名称中解析标题级别。

如果作者重命名了标题样式，则可能需要调整。

有更复杂的方法更可靠（就独立于样式名称而言），但这些方法没有 API 支持，因此您需要深入研究内部代码并直接与我期望的一些样式 XML 交互。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Parsing

Text

msword

pythondocx

从word文档中提取标题文本的相关文章

按每个元素中出现的数字对字符串列表进行排序[重复]

这个问题在这里已经有答案了我有一个脚本其目的是对不断下载到服务器上的空间数据集文件进行排序和处理我的列表目前大致如下 list file t00Z wrff02 grib2 file t00Z wrff03 grib2 file t0
我可以同时打开两个 Tkinter Windows 吗？

可以同时打开2个窗口吗 import tkinter as Tk import random import math root Tk Tk canvas Tk Canvas root background image Tk PhotoIma
获取字符串模板中所有标识符列表的函数（Python）

对于标准库string template在Python中有没有一个函数可以获取所有标识符的列表例如使用以下 xml 文件
使用 OpenXML 在 Word 中插入换行符

我正在使用 openxml WordProcessingDocument 打开 Word 模板并将占位符 x1 替换为字符串除非我需要字符串包含换行符否则这工作正常如何将 x1 替换为可能包含 word 可以识别的换行符的文本我已经
对法语文本进行词形还原[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一些法语文本需要以某种方式进行处理为此我需要首先将文本标记为单词然后对这些单词进行词形还原以避免多次处理相同的词根据我
如何在Python中手动对数字列表进行排序？

规格 Ubuntu 13 04 Python 3 3 1 背景 Python的初学者遇到了这个手动排序问题我被要求做的事情让用户输入 3 个数值并将它们存储在 3 个不同的变量中不使用列表或排序算法手动将这 3 个数字从小到大
matplotlib vlines 图中未应用 y 轴的最小值

我正在 matplotlib 中绘制 vlines 图数据集中的所有 y 值如下 gt 0 我希望 y 轴最底部的刻度能够读取0 但相反我得到 500 这是代码 usr bin env python import numpy as np
Jquery 检测选项卡导航的相同类和文本

有谁有检测相同文本的经验和班级这是我当前的代码 ul nav li click function ul slideMove li fadeOut slow var sharedata this text ul slideMove li
类变量：“类列表”与“类布尔值”[重复]

这个问题在这里已经有答案了我不明白以下示例的区别一次类的实例可以更改另一个实例的类变量而另一次则不能示例1 class MyClass object mylist def add self self mylist append 1
Pygame：有人可以帮我实现双跳吗？

我知道已经有其他关于此问题的帖子了但我的运动系统与我发现的有点不同所以随后我问这个问题我的运动系统基于一个名为的命名元组Move up left right down 然后就是这个 def update self move block
将 str.contains 映射到 pandas DataFrame

python 初学者我正在寻找创建字符串的字典映射以及关联的值我有一个数据框想要创建一个新列如果字符串匹配则会将该列标记为 x df pd DataFrame comp dell notebook dell notebook S3
如何将 pandas DataFrame 转换为 TimeSeries？

我正在寻找一种将 DataFrame 转换为 TimeSeries 而不拆分索引和值列的方法有任何想法吗谢谢 In 20 import pandas as pd In 21 import numpy as np In 22 dates
在Python中随机交错2个数组

假设我有两个数组 a 1 2 3 4 b 5 6 7 8 9 我想将这两个数组交错为变量 c 注意 a 和 b 不一定具有相同的长度但我不希望它们以确定性的方式交错简而言之仅仅压缩这两个数组是不够的我不想要 c 1 5 2 6 3
解析整数集的字符串并列出间隔

I have 2 5 7 9 12 string 我想从中获取 2 5 7 8 9 12 列表 python中有没有内置的函数 Thanks UPD 我想直接的答案是No 不管怎样谢谢你的片段使用一个建议者斯文马尔纳克 s 2
如何在类型提示中定义元组或列表的大小

有没有办法在参数的类型提示中定义元组或列表的大小目前我正在使用这样的东西 from typing import List Optional Tuple def function name self list1 List Class1 if
如何将Python包从旧版本安装到新版本？

我正在使用 python 3 7 最近在 Linux 中安装了 python 3 8 是否有任何 bash 命令或脚本可以获取 3 7 的所有软件包列表并在 3 8 版本中一一安装我想避免每个包裹都手工完成注意我将它们安装在我的系统中
如何创建简单的梯度下降算法

我正在研究简单的机器学习算法从简单的梯度下降开始但在尝试用 python 实现它时遇到了一些麻烦这是我试图重现的示例我获得了有关房屋的数据居住面积以英尺为单位和卧室数量以及最终的价格居住面积英尺2 2104 卧室 3 价
JSONDecodeError：额外数据：Python [重复]

这个问题在这里已经有答案了我使用以下代码从文件加载 json file file name obj list with open file as f for json obj in f obj list append loads json
如何使用 keras.backend.gradients() 获取梯度值

我试图获得 Keras 模型的输出相对于模型输入 x 而不是权重的导数似乎最简单的方法是使用 keras backend 中的梯度它返回梯度张量 https keras io backend https keras io backe
将二进制数转换为包含每个二进制数的数组

我试图将二进制值转换为每个 1 0 的列表但我得到默认的二进制值而不是列表我有一个字符串我将每个字符转换为二进制它给了我一个列表其中每个字符都有一个字符串现在我试图将每个字符串拆分为值为 0 1 的整数但我什么也得不到 if

随机推荐

使用类型变量进行强制转换

下面的代码不起作用我想知道如何动态地将实例转换为运行时确定的类型 Convert ChangeType 返回一个仍需要转换的对象所有 Invoke GetConstructor 或 Activator CreateInstance 的尝
Pyramid 中可以有多个 ini 配置文件吗？

我想要一个相当于姜戈一真道设置布局一个共享基础文件然后是生产文件和开发文件每个文件都导入共享基础文件 Pyramid 的配置可以实现这一点吗是的这是可能的在我的一个项目中我有一个production base ini文件和所有
使用 Xcode 在 MacOS X 上安装 GMP

我正在尝试在我的 C 和 C 程序中使用 GMP 库我使用 Xcode 编写代码我按照说明在我的计算机上安装了 GMP 最终得到了一个文件夹 usr local gmp 5 0 5 其中包含 gmp h 文件我怎样才能让我的程序看到这
ZXing Barcode Reader：如何在捕获屏幕周围制作自定义边框？

我想在 zxing 捕获屏幕相机屏幕周围放置自定义边框我需要为此进行什么修改我需要更改哪些活动和布局才能达到此效果您根本不需要编辑布局 In ViewfinderView find onDraw方法它是绘制扫描矩形的核心您
Forecast.io API 与 jQuery 的结合使用

我在使用 API 特别是 Forecast io 天气 API 创建完整的应用程序时遇到一些问题为简单起见我将 JS 直接放在 HTML 页面中对于这个基本版本我很高兴能有这样的展示假设我想要当前温度当前 gt 温度另外我不
在 Django 中引用来自 Javascript 的静态图像

所以我正在开发一个 Django 项目并试图找出如何让 Javascript 能够从我的静态目录渲染图像我修改了 settings py 以从 myproject static 加载静态文件图像 js 等并从 myproject t
绑定不匹配错误和java泛型方法

我收到以下错误 Bound mismatch The generic method constructPage WebDriver int Class
RStudio 项目打开时自动运行 R 代码

我编写了一个 R 函数来更新包的版本号另一个问题我经常使用 GitHub 和 RStudio 如果每次我打开某个项目时都会自动运行此函数或者更好的是进行 git commit push 但我认为这更难做到但我不知道该怎么做或者这是否可
401 未找到 JWT 令牌

我提供了两个版本security yaml文件第二个版本根据API平台文档 API平台发送到创建自定义用户提供者对于第二个选项security yaml根据 API 平台文档推荐我需要创建两个额外的文件我没有将它们附加到主题中但如
如何在 Joomla 2.5 中获取用户组名称

我正在编写一个 Joomla 2 5 组件我一直在 Joomla 1 7 中开发该组件我一直在使用这样的代码 user JFactory getUser groups user gt get groups groups 数组将包含一个以
$@ 和“$@”有什么区别吗？ [复制]

这个问题在这里已经有答案了有什么区别吗 and 我知道非特殊字符可能存在差异但是用输入参数签名 Yes cat a sh echo echo 让我们运行一下 a sh 2 3 4 5 2 3 4 5 output for 2 3 4
如何使用透明背景的画布获取 CSS 样式元素的 png 图像？

我想使用 CSS 为网页上的元素设置样式然后将该元素用作静态 png 是否可以在例如上绘制html节点画布并将此类透明图像保存到文件中我想找到一种方法使用 CSS 获取现有的 HTML 并将其渲染为 PNG 文件并保持透明度将 H
clang++ -stdlib=libc++ 导致未定义的引用

为什么在将 clang 与 libc 一起使用时出现以下链接器错误 clang stdlib libc po cxx lpoppler tmp po QqlXGY o In function main po cxx text 0x33 un
仅对 UITableView 中可用的 CellForRow 显示分隔符

我正在将 UITableView 与自定义单元格一起使用它工作正常但问题是当 UITableView 中只有一两个单元格时它还为空电池提供了分隔符是否可以仅为使用自定义单元格加载的单元格显示分隔符您需要添加一个空页脚视图来隐藏表中
如何从多个 template_folder 加载 Flask 蓝图？

我学习了如何创建 Flask 蓝图并且可以为使用 Jinja2 模板的非 Flask 产品创建蓝图并在 Flask 项目中使用它们我做了这样的事情 blueprint code from flask import Blueprint f
如何在没有 jQuery 的情况下切换元素可见性？

我正在为 eBay 编写一个拍卖模板希望 eBay 能够允许显然他们没有因为 jquery 有 string replace 等东西该代码非常基础 document ready function function changeIma
Pandas Dataframe选择多个不连续的列/切片

我有超过 100 列的数据框我正在尝试选择第 0 32 列和 83 列看来 1 slice 与下面的代码配合得很好 df new df df columns 0 32 但它不适用于下面的 2 片代码我该如何解决这个问题 df new
更改 ComboBox 项目的格式

是否可以在 C 中格式化 ComboBox 项例如如何将某个项目设为粗体更改其文本的颜色等尽管这篇文章很老我发现它作为搜索的起点很有用但最终使用所示的方法得到了更好的结果here由保罗这是我用来有条件地使组合框中的项目显示为
如何为 httpclient getasync 方法创建模拟？

我正在使用 Moq 为单元测试创建模拟但是当我必须为 httpclient 的 getasync 方法创建模拟时我陷入了困境以前我使用 SendAsync 方法为此我可以使用以下代码 var mockResponse new Ht
从word文档中提取标题文本

我正在尝试提取text来自 MS Word 文档 docx 文件中的任何级别标题目前我正在尝试解决使用python docx 但不幸的是读完后我仍然无法弄清楚它是否可行也许我错了我尝试在网上寻找解决方案但没有发现任何适合我的

从word文档中提取标题文本

从word文档中提取标题文本 的相关文章

随机推荐

热门标签

从word文档中提取标题文本的相关文章