python-docx:将表解析为 Pandas Dataframe

2023-11-22

我正在使用python-docx用于提取 MS Word 文档的库。我可以使用同一个库从Word文档中获取所有表格。但是,我想将表解析为 panda 数据框架,是否有任何内置功能可以用来将表解析为数据框架,或者我必须手动执行此操作? 另外,是否有可能知道表格所在的标题名称?谢谢

from docx import Document
from docx.shared import Inches
document = Document('test.docx')

tabs = document.tables

您可以使用以下代码从数据框中的文档中提取表格:

from docx import Document
import pandas as pd
document = Document('test.docx')

tables = []
for table in document.tables:
    df = [['' for i in range(len(table.columns))] for j in range(len(table.rows))]
    for i, row in enumerate(table.rows):
        for j, cell in enumerate(row.cells):
            if cell.text:
                df[i][j] = cell.text
    tables.append(pd.DataFrame(df))
print(tables)

您可以从tables变量中获取所有表。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python-docx:将表解析为 Pandas Dataframe 的相关文章