Python-docx 读写 Word 文档:读取正文、表格文本信息、段落格式、字体格式等

2023-05-16

Python-docx 模块读写 Word 文档基础(三):读取文档文本信息、表格信息、段落格式、字体格式等

        • 前言:
        • 1、获取文档章节信息:
        • 2、获取段落文字信息:
        • 3、获取文字格式信息:
        • 4、获取文档中表格信息:
        • 结尾:
    • 【Python与Office】专栏

前言:

前两篇博客介绍了 Python 的 docx 模块对 Word 文档的写操作,这篇博客将介绍如何用 docx 模块读取已有 Word 文档中的信息。

本篇博客主要内容有:

1、获取文档的章节信息;
2、获取段落文本信息;
3、获取表格内文本信息;
4、获取文档内格式信息。

1、获取文档章节信息:

1、用docx模块获取已有的word文档对象:

from docx import Document

# Document 类,不仅可以新建word文档,也可以打开一个本地文档
doc = Document('test03.docx')  # 想获取的文档文件名,这里是相对路径。

用做示例的 test03.docx 文件截图如下:

在这里插入图片描述
文档中有两个章节共两页(一个章节一页),一个章节的页面为 A3 ,另一个为 A4。

2、获取文档章节信息:

# 获取文档所有章节
sections = doc.sections
"class Sections(Sequence):"
print(sections)
# <docx.section.Sections object at 0x000000000B2E1148>
# 查看章节数量
print(len(sections)) # 2

注意:
章节对象的概念虽然比段落对象大,章节对象可以设置本章节的页面大小页眉页脚等,在该章节的段落对象必须遵守该章节的设置。
但是又并不存在包含关系,也就是说不能通过章节对象获取到段落信息。

3、获取页边距等信息:

# 获取章节对象的页边距等信息
sec0 = sections[0]
"class Section(object):"
'''
官方解释:文档节,提供对节和页面设置的访问。
还提供对页眉和页脚的访问。
'''
print(sec0)
# <docx.section.Section object at 0x000000000B2D5708>
# 获取章节页面信息
# 获取页面边距值:(单位为像素)
print('左边距:',sec0.left_margin)
# 左边距: 914400
print('右边距:',sec0.right_margin)
# 右边距: 914400
print('上边距:',sec0.top_margin)
# 上边距: 1143000
print('下边距:',sec0.bottom_margin)
# 下边距: 1143000
print('页眉边距:',sec0.header_distance)
# 页眉边距: 540385
print('页脚边距:',sec0.footer_distance)
# 页脚边距: 629920
print('页面方向:',sec0.orientation)
# 页面方向: LANDSCAPE (1)
print('页面高度:',sec0.page_height)
# 页面高度: 10657205
print('页面宽度:',sec0.page_width)
# 页面宽度: 15085695

这里获取的是第一个章节的页面信息,也就是 A3 页面的信息。

注:上一篇博客 往Word文档中插入图片、表格,设置表格样式,章节,页眉页脚等,在介绍设置页面信息时,忘记介绍如何设置页面方向了,这里补充一下:

设置页面方向:

# 导入设置页面方向所需模块
from docx.enum.section import WD_ORIENT
# 获取章节对象
section = document.sections[0]
# 设置页面方向
section.orientation = WD_ORIENT.LANDSCAPE # 横向

可设置项有横向( LANDSCAPE ) 和纵向 ( PORTRAIT ):

'''
'PORTRAIT', 0, 'portrait', 'Portrait orientation.' 
'LANDSCAPE', 1, 'landscape', 'Landscape orientation.'
'''

文档截图:

在这里插入图片描述
4、获取文档页眉页脚信息:

head0 = sec0.header # 获取页眉对象
print(head0)
# <docx.section._Header object at 0x000000000B2E1348>
head0_pars = head0.paragraphs # 获取 页眉 paragraphs
# 获取页眉文字信息
# 因存在多个 paragraph 对象的可能所以用循环读取的方式
head0_string = ''
for par in head0_pars:
    head0_string += par.text

print(head0_string)
# 仪征市马集镇总体规划(2017-2030)——说明

# 获取页脚信息,也是类似的方法
foot0 = sec0.footer
print(foot0) # 获取页脚对象
# <docx.section._Footer object at 0x000000000B2E3808>
foot0_pars = foot0.paragraphs
foot0_string = ''
for par in foot0_pars:
    foot0_string += par.text
print(foot0_string)
# 1

2、获取段落文字信息:

1、获取Word文档所有段落对象:

"获取文档所有段落信息:"
# 获取文档所有段落对象
paragraphs = doc.paragraphs

注意:
paragraphs 获取的是文档中所有段落对象的列表,严格来说是word文档中正文部分的段落对象列表。因为通过前文的介绍,许多除正文部分,如 表格,页面页脚等元素也包含 paragraph 对象。
而 doc.paragraphs 获取到的 paragraph 不包含这些段落对象。

2、获取段落对象文字信息:

print(paragraphs)
print(len(paragraphs))  # 打印结果:20

# 获取一个段落对象的文字信息
par0 = paragraphs[0]
print(par0)
par0_string = par0.text
print(par0_string)

# 获取所有段落文字信息
pars_string = [par.text for par in paragraphs]
print(pars_string)

par0_string 打印截图:

在这里插入图片描述
3、获取段落格式信息:

print('段落对齐方式:',par0.paragraph_format.alignment)
# 段落对齐方式: LEFT (0)
print('左缩进:',par0.paragraph_format.left_indent)
# 左缩进: None
print('右缩进:',par0.paragraph_format.right_indent)
# 右缩进: None
print('首行缩进:',par0.paragraph_format.first_line_indent)
# 首行缩进: 304800
print('行间距:',par0.paragraph_format.line_spacing)
# 行间距: 1.5
print('段前间距:',par0.paragraph_format.space_before)
# 段前间距: 198120
print('段后间距:',par0.paragraph_format.space_after)
# 段后间距: 198120

3、获取文字格式信息:

paragraph 对象 里还有更小的 run 对象,run 对象才包含了段落对象的文字信息。
paragraph.text 方法也是通过 run 对象的方法获取到文字信息的:

paragraph.text 方法源码:

def text(self):
     text = ''
        for run in self.runs:
            text += run.text
        return text

文字的字体、大小、下划线等信息都包含在 run 对象中(不清楚的看前面的博客):

# 获取段落的 run 对象列表
runs = par0.runs
print(runs)
# 获取 run 对象
run_0 = runs[0]
print(run_0.text) # 获取 run 对象文字信息
# 打印结果:
# 坚持因地制宜,差异化打造特色小镇,

文档 段落 和 run 对象示意:

在这里插入图片描述
获取文字格式信息:

# 获取文字格式信息
print('字体名称:',run_0.font.name)
# 字体名称: 宋体
print('字体大小:',run_0.font.size)
# 字体大小: 152400
print('是否加粗:',run_0.font.bold)
# 是否加粗: None
print('是否斜体:',run_0.font.italic)
# 是否斜体: True
print('字体颜色:',run_0.font.color.rgb)
# 字体颜色: FF0000
print('字体高亮:',run_0.font.highlight_color)
# 字体高亮: YELLOW (7)
print('下划线:',run_0.font.underline)
# 下划线: True
print('删除线:',run_0.font.strike)
# 删除线: None
print('双删除线:',run_0.font.double_strike)
# 双删除线: None
print('下标:',run_0.font.subscript)
# 下标: None
print('上标:',run_0.font.superscript)
# 上标: None

注:前面的博客好像也没介绍文字背景颜色的设置…

背景颜色设置方法: (与字体颜色设置方法有区别)

# 设置背景颜色
from  docx.enum.text import WD_COLOR_INDEX
run_2.font.highlight_color = WD_COLOR_INDEX.YELLOW

背景颜色可选值有:

'''
'AUTO', 0, 'default'
'BLACK', 1, 'black'
'BLUE', 2, 'blue'
'BRIGHT_GREEN', 4, 'green',
'DARK_BLUE', 9, 'darkBlue',
'DARK_RED', 13, 'darkRed'
'DARK_YELLOW', 14, 'darkYellow'
'GRAY_25', 16, 'lightGray'
'GRAY_50', 15, 'darkGray'
'GREEN', 11, 'darkGreen'
'PINK', 5, 'magenta'
'RED', 6, 'red'
'TEAL', 10, 'darkCyan'
'TURQUOISE', 3, 'cyan'
'VIOLET', 12, 'darkMagenta'
'WHITE', 8, 'white'
'YELLOW', 7, 'yellow'
'''

4、获取文档中表格信息:

示例文档中表格截图:
在这里插入图片描述
1、获取表格样式、单元格对象及文字信息:

# 获取文档中表格信息
tables = doc.tables # 获取文档中所有表格对象的列表
print(tables)
# [<docx.table.Table object at 0x000001957059CD48>]
print(len(tables)) # 查看文档中表格数量
# 1
table0 = tables[0]  # 获取表格对象

# 获取表格的样式信息
print(table0.style)
# _TableStyle('Normal Table') id: 190621384

# 获取一个表格的所有单元格
cells = table0._cells
print(len(cells)) # 表格中单元格数量
# 15

# 获取单元格内所有文字信息
cells_string = [cell.text for cell in cells]
print(cells_string)

cells_string 打印截图:

在这里插入图片描述
从截图中可以看出来,用 tableobj._cells 获取到的单元格对象列表是按行排列的。

2、获取表格的行列对象:

# 获取表格对象行数量、列数量
col_num = len(table0.columns)
print(col_num) # 3
# 行数量
row_num = len(table0.rows)
print(row_num) # 5

# 获取行对象
row0 = table0.rows[0]
# 获取列对象
col0 = table0.columns[0]

# 获取行对象文字信息
'要用 row0.cells 获取行对象的 cell 才能获取其文字信息'
row0_string = [cell.text for cell in row0.cells]
print(row0_string)

# 获取列对象文字信息
col0_string = [cell.text for cell in col0.cells]
print(col0_string)

注:在介绍单元格格式信息时,说过单元格内文字信息也是通过 run 对象设置,故获取文字信息也和前面获取段落文字信息类似,就不重复讲了。

结尾:

以上就是本篇博客的全部内容了,后面将会用两个实例来将前面三篇博客的知识点串联起来,感谢阅读。

【Python与Office】专栏

该专栏会对 Python 的第三方模块,如:xlwt,xlrd,python-docx等,操作 Office 办公软件(Word Excel PPT)的方法进行详细讲解。同时也会搭配一些实例演练,一方面强化知识点的理解与运用,另一方面也希望能起到,引导读者进行思考:如何用 python 提高 offic 办公软件办公效率的作用。

感兴趣的朋友,可以点个 关注收藏 。如在博客中遇到任何问题或有一些想法、需求,可留言或私信。

创作不易,你的支持是我最大的动力,感谢 !

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python-docx 读写 Word 文档:读取正文、表格文本信息、段落格式、字体格式等 的相关文章

  • python:类实例化

    什么是类实例化 类对象就像是一个用来创建对象的工厂 创建一个新对象的过程叫做实例化 instantiation 这个新对象叫做这个类的一个实例 instance 举个例子 定义好了Student类 xff0c 就可以根据Student类创建
  • Ubuntu: AppImage格式安装、卸载

    我们在linux ubuntu 上最常见到的一种软件包就是deb xff0c 我们可以使用linux的包管理器来进行安装 卸载 xff0c 这个过程提供了很好的GUI界面 xff0c 所以很轻松 但是 xff0c 有时候我们会遇到AppIm
  • VSCode:使用CMakeLists.txt构建C++项目

    vscode配置 插件 xff1a CMake插件主要功能是CMake语法高亮 自动补全CMake Tools的功能主要是结合VSCode IDE使用CMake这个工具 xff0c 比如生成CMake项目 构建CMake项目等CMake T
  • SQL:如何插入JSON数据与返回JSON数据

    什么是JSON JSON xff08 JavaScript Object Notation xff09 是一种轻量级的数据交换语言 xff0c 并且是独立于语言的文本格式 一些NoSQL数据库选择JSON作为其数据存储格式 xff0c 比如
  • python3用Selenium驱动火狐浏览器GeckoDriver安装教程

    前面讲到了谷歌浏览器ChromeDriver的安装 xff0c 今天我们来讲讲火狐浏览器GeckoDviver的安装 xff0c 那么对于 Firefox 来说 xff0c 也可以使用同样的方式完成 Sclenium的对接 xff0c 这时
  • Android Sqlite 读取数据99999.99变为100000.00,出现科学计数法

    问题描述 xff1a 将99999 99 存入Sqlite数据库 xff0c 类型为DECIMAL 6 3 通过cursor getString 变为100000 00 且存储亿位数据时 xff1a cursor getString 会出现
  • iOS OC的基本视图创建-UIView

    1 一般UIView 创建 UIView cellView 61 UIView alloc init superView addSubview cellView cellView layer cornerRadius 61 25 ViewW
  • realvnc免费版,细数4款超好用的realvnc免费版

    RealVNC是VNC xff08 Virtual Network Computing xff09 众多操作平台版本中的一员 xff0c 是互联网上比较流行的远程控制软件 它包括vnc4server和vnc4viewer两个部分 xff0c
  • linux系统实现路由功能

    概述 xff1a 1 在完成4台设备ip配置后默认路由有 路由器Rocky02上默认有 xff1a 192 168 10 0 172 20 0 0 路由器Rocky03上默认有 xff1a 192 168 10 0 10 0 0 0 主机R
  • TT 的旅行日记(Dijkstra)

    问题描述 xff1a 众所周知 xff0c TT 有一只魔法猫 今天他在 B 站上开启了一次旅行直播 xff0c 记录他与魔法猫在喵星旅游时的奇遇 TT 从家里出发 xff0c 准备乘坐猫猫快线前往喵星机场 猫猫快线分为经济线和商业线两种
  • 猫猫向前冲(拓扑排序)

    问题描述 xff1a 有一天 xff0c TT 在 B 站上观看猫猫的比赛 一共有 N 只猫猫 xff0c 编号依次为1 xff0c 2 xff0c 3 xff0c xff0c N进行比赛 比赛结束后 xff0c Up 主会为所有的猫猫从前
  • HRZ的序列

    问题描述 xff1a 相较于咕咕东 xff0c 瑞神是个起早贪黑的好孩子 xff0c 今天早上瑞神起得很早 xff0c 刷B站时看到了一个序列a xff0c 他对这个序列产生了浓厚的兴趣 xff0c 他好奇是否存在一个数K xff0c 使得
  • 东东学打牌

    问题描述 xff1a 最近 xff0c 东东沉迷于打牌 所以他找到 HRZ ZJM 等人和他一起打牌 由于人数众多 xff0c 东东稍微修改了亿下游戏规则 xff1a 所有扑克牌只按数字来算大小 xff0c 忽略花色 每张扑克牌的大小由一个
  • 咕咕东的目录管理器

    文章目录 问题描述样例输入样例输出 解题思路代码 问题描述 咕咕东的雪梨电脑的操作系统在上个月受到宇宙射线的影响 xff0c 时不时发生故障 xff0c 他受不了了 xff0c 想要写一个高效易用零bug的操作系统 这工程量太大了 xff0
  • 针对CSP-T1,T2的练习

    文章目录 题目1问题描述样例输入样例输出 解题思路代码 题目2问题描述样例输入样例输出 解题思路代码 题目1 问题描述 给出n个数 xff0c zjm想找出出现至少 n 43 1 2次的数 xff0c 现在需要你帮忙找出这个数是多少 xff
  • Rust的控制流:条件、循环以及模式匹配

    文章目录 条件控制循环控制forwhileloopbreak continue 模式匹配 条件控制 Rust的条件控制也是使用if else xff0c 和其他语言相比没有多大区别 xff0c 直接看例子 xff1a fn main let
  • 在Windows上搭建Rust开发环境——Clion篇

    文章目录 在Windows上搭建Rust开发环境 Clion篇安装mingw64安装Rusthello world安装Clion使用Clion创建并调试项目 在Windows上搭建Rust开发环境 Clion篇 刚开始学习Rust的时候 x
  • 洛谷P3366最小生成树模板

    kruskal span class token macro property span class token directive keyword include span span class token string lt cstdi
  • 在家远程控制 少了它俩简直太遗憾了

    互联网公司的值班 xff0c 本意在于出现问题时有人及时处理 xff0c 毕竟上线运行的产品 xff0c 出问题可能会影响到公司的整体收益 虽然工作是965 xff0c 但值班日程表却明明白白写着谁负责保障今天的产品运行正常 涉及到技术 运
  • Openstack Kolla-Ansible安装部署

    Openstack Kolla Ansible安装部署 部署节点制作 环境准备 CentOS环境安装 配置国内pypi源 xff1a mkdir p config pip vim config pip pip conf global ind

随机推荐

  • Windows 远程桌面登录蓝屏、不显示桌面问题解决方法

    远程桌面登录蓝屏 不显示桌面问题解决方法 有时候的不当操作 xff0c 可以使Windows服务器或vps远程桌面出现蓝屏或者黑屏 xff01 遇到此问题 xff0c 不要急急忙忙的让机房值班给你重启机器 xff0c 因为此时除了远程连接不
  • 【5G核心网】5GC核心网之网元UPF

    UPF xff08 User Plane Function xff0c 用户面功能 xff09 xff1a ts 29 244 23 501 5 8 1 UPF User Plane Function 用户平面功能 用于RAT内 RAT间移
  • 玩转ADB命令(ADB命令使用大全)

    此文章内容整合自网络 xff0c 欢迎转载 我相信做Android开发的朋友都用过ADB命令 xff0c 但是也只是限于安装应用push文件和设备重启相关 xff0c 更深的就不知道了 xff0c 其实我们完全可以了解多一点 xff0c 有
  • Ubuntu12.04操作系统安装时,出现的问题及解决方案

    问题一 Windows 下用 putty 连接不上虚拟机上的 Ubuntu12 04 解决方案 预探索 问题可能的原因 A 先确定你能不能ping通远程的ubuntu或者虚拟机 B 如果还不能登录 xff0c 分析原因是大多数没有真正开启s
  • 获取镜像源来搭建本地Ubuntu14.04源

    针对公司的网络限制 xff0c 可以在局域网内搭建一台本地的ubuntu源 1 修改源配置 换成搜狐源 默认的ubuntu源不如某些国内的源速度快 vi etc apt source list deb http mirrors sohu c
  • Ubuntu Desktop 16 配置ssh远程登录

    文章目录 环境介绍1 安装openssh server2 允许用户登录 xff1b 编辑配置文件3 重启sshd服务并检查状态4 查看Ubuntu主机的IP5 远程登录Ubuntu6 退出远程登录参考文献英语好的同学请忽略 环境介绍 主机系
  • 关闭Linux防火墙

    文章目录 查看防火墙状态临时关闭防火墙禁止开机启动防火墙开启防火墙允许开机启动防火墙关闭防火墙的步骤 查看防火墙状态 CentOS 6 service iptables status CentOS 7 firewall cmd state
  • ubuntu挂载sd卡到分区目录+修改docker镜像存储位置

    ubuntu挂载sd卡到分区目录 43 修改docker镜像存储位置 一 挂载SD卡到 data 1 查看Linux硬盘信息 lsblk 或 fdisk l lsblk 新的硬盘 xff0c 最好删除之前的分区 xff0c 再新建分区 de
  • xRDP "Password failed, error - problem connecting"

    Add this in sesman ini under Xvnc solved my problem param8 61 SecurityTypes param9 61 None This solved my problum sudo n
  • 如何远程公司 上班族必选大集合

    老张是我们销售部的经理 xff0c 为人随和 xff0c 一点架子也没有 xff0c 和我们关系搞的都很好 xff0c 也很袒护我们 xff0c 由于疫情的原因 xff0c 不得已要居家办公了 xff0c 这让同事们都很不适应 xff0c
  • C语言排序算法之简单交换法排序,直接选择排序,冒泡排序

    C语言排序算法之简单交换法排序 xff0c 直接选择排序 xff0c 冒泡排序 xff0c 最近考试要用到 xff0c 网上也有很多例子 xff0c 我觉得还是自己写的看得懂一些 简单交换法排序 1 简单交换法 排序 2 根据序列中两个记录
  • Centos7 防火墙开放端口,查看状态,查看开放端口

    CentOS7 端口的开放关闭查看都是用防火墙来控制的 xff0c 具体命令如下 xff1a 查看防火墙状态 xff1a xff08 active running 即是开启状态 xff09 root 64 WSS bin systemctl
  • C标准库源码解剖(13):输入输出函数stdio.h

    C标准中的I O库是一个比较庞大的库 xff0c 实现也比较复杂 显然I O库的实现是依赖于操作系统的 xff0c 不同的系统上I O库的实现机理是不一样的 glibc中 xff0c I O库的核心实现在libio目录下 有4个头文件lib
  • 开源的多媒体播放器MPV

    最近在网上找到了一个很好用的开源多媒体播放器MPV 它功能强大 免费开源 支持多平台的极简播放器 底层采用了 MPlayer mplayer2 和 FFmpeg 等开源项目 xff0c 支持多种音视频格式 高清视频 GPU 解码 自定义等功
  • 计算机自动更新变灰色,无法修改解决方法。

    第一种办法 xff1a 使用本地组策略配置自动更新 1 单击 开始 xff0c 然后单击 运行 2 键入 gpedit msc xff0c 然后单击确定 3 展开 计算机配置 4 右键单击 管理模板 xff0c 然后单击 添加 删除模板 5
  • vscode 安装go环境无法安装gopls等插件,响应超时、失去连接等问题的简单解决方案

    看错误提示就大概明白 xff0c 是国内无法连接到 golang org 尝试下载了镜像网站 github com golang 里面的 tools 也不靠谱 因为安装时总会缺少非常多的插件 xff0c 导致无法简单地执行 go insta
  • UIImageView的图片居中问题

    我们都知道在ios中 xff0c 每一个UIImageView都有他的frame大小 xff0c 但是如果图片的大小和这个frame的大小不符合的时候会怎么样呢 xff1f 在默认情况 xff0c 图片会被压缩或者拉伸以填满整个区域 通过查
  • mysqld.exe 占了400M内存的问题

    最近遇到了服务器总是停机的问题 xff0c 虽然它自己只有2G的内存 xff0c 不过实际部署的应用访问量非常小 xff0c 也不至于2G就不够用 xff0c 所以开始了给服务器瘦身的计划 看着任务管理器里面的各个进程 xff0c 发现吃内
  • mysql对外数据连接出现1356错误,1130错误!!!

    问题描述 xff1a 供别的电脑连接本机的数据库 xff0c 总是连接不上 报1356错误 最后查阅相关资料说是 xff1a 连接账户没有远程连接权限 xff0c 只能在本机登录 需要更改mysql数据库里面user表格里的host项把lo
  • Python-docx 读写 Word 文档:读取正文、表格文本信息、段落格式、字体格式等

    Python docx 模块读写 Word 文档基础 xff08 三 xff09 xff1a 读取文档文本信息 表格信息 段落格式 字体格式等 前言 xff1a 1 获取文档章节信息 xff1a 2 获取段落文字信息 xff1a 3 获取文