我需要将 MSWord 文件转换为 XML 或 HTML,同时保留文件的结构(主要是表格)。我偶然发现了tika,它在从MSword文件(和任何文件)中提取文本方面非常强大,如下:
curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --text
我可以从选项中选择将输出保存为 html/XML,如下所示:
curl www.vit.org/downloads/doc/tariff.doc \ | java -jar tika-app-1.3.jar --html
但输出基本上就像用 HTML 编写的纯文本,因此无法获取表格结构和其他文档元素。
是否有 Tika 的 Perl 或 Python 实现,可以将文档转换为 XML/HTML,同时保持其元素的结构?或者linux上有其他工具可以做到这一点吗?
安装OpenOffice SDK,它为各种文档(包括转换)提供强大的API。
http://www.oooforum.org/forum/viewtopic.phtml?t=7242 http://www.oooforum.org/forum/viewtopic.phtml?t=7242
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)