Python MS Word [重复]

2024-02-01

可能的重复:
在 Python 中读取/写入 MS Word 文件 https://stackoverflow.com/questions/188444/reading-writing-ms-word-files-in-python

我正在研究一个需求管理系统(如 requiste pro - Rational Rose) - 并且需要在 Windows 或 Apple 操作系统环境上通读 MS Word 文档来搜索特定标签。是否有任何已知的框架(我找不到任何)或建议的方法?

只是添加一些说明 - 这不是一次性阅读,每次有更新时我都会查看该文档,并在需求特定区域执行 CRUD。


首先,从原生 Word 中获取它(.doc) 格式。

  • 执行“另存为 XML”并坚持您的用户使用该文件而不是.doc文件。他们几乎不会注意到差异——除了文件更大。

    Use lxml http://codespeak.net/lxml/ or 元素树 http://docs.python.org/library/xml.etree.elementtree.html解析 XML 并查找标题、部分、段落和列表。

  • 您还可以在进行分析之前执行“另存为 HTML”。这与 XML 版本一样有效。然而,HTML 版本对于用户来说并不那么容易,因此仅在分析之前执行此操作。

    Use 美丽的汤 http://www.crummy.com/software/BeautifulSoup/解析 HTML 并查找标题、部分、段落和列表。

一旦有了解析结构(XML 或 HTML),您就可以分析文档以查找特定标签。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python MS Word [重复] 的相关文章

随机推荐