可能的重复:
在 Python 中读取/写入 MS Word 文件 https://stackoverflow.com/questions/188444/reading-writing-ms-word-files-in-python
我正在研究一个需求管理系统(如 requiste pro - Rational Rose) - 并且需要在 Windows 或 Apple 操作系统环境上通读 MS Word 文档来搜索特定标签。是否有任何已知的框架(我找不到任何)或建议的方法?
只是添加一些说明 - 这不是一次性阅读,每次有更新时我都会查看该文档,并在需求特定区域执行 CRUD。
首先,从原生 Word 中获取它(.doc
) 格式。
-
执行“另存为 XML”并坚持您的用户使用该文件而不是.doc
文件。他们几乎不会注意到差异——除了文件更大。
Use lxml http://codespeak.net/lxml/ or 元素树 http://docs.python.org/library/xml.etree.elementtree.html解析 XML 并查找标题、部分、段落和列表。
-
您还可以在进行分析之前执行“另存为 HTML”。这与 XML 版本一样有效。然而,HTML 版本对于用户来说并不那么容易,因此仅在分析之前执行此操作。
Use 美丽的汤 http://www.crummy.com/software/BeautifulSoup/解析 HTML 并查找标题、部分、段落和列表。
一旦有了解析结构(XML 或 HTML),您就可以分析文档以查找特定标签。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)