如何准备 Word 2007 文档以便 C# 可以从语义上提取数据?

2023-12-30

我有一个朋友正在写一篇400页书在 Microsoft Word 2007 中。

在整本书中他都200 个故事每个都由许多段落组成。

当他写完这本书后,他想将嵌入 Word 文档中的每个故事的文本复制到一个数据库表例如:

Title, varchar(200)
Description, text
Content, text

我们不想将每个故事复制并粘贴到数据库中,但是想要一个程序自动提取标记的数据从 Word 文件复制到数据库中的相应字段。

  1. 他必须在 Microsoft Word 中执行什么操作才能表示每组段落作为“故事内容”,每个标题作为“故事标题”等。先决条件是该标记在文档中不可见。我知道 Word 2007 文件基本上是压缩的 XML 文件,所以我认为这是可能的,并且我认为样式表是我们所需要的,但是我需要如何精确准备 Word 文档,以便在他添加故事时正确标记它们?

  2. 我假设新的COM互操作C# 4.0 的功能是我需要分析 Word 文件并仅从嵌入的故事中检索标题、描述和内容,但从技术上讲我该如何做到这一点?有人有例子吗?

有谁有这样的项目经验(将 Microsoft Word 读取为语义数据文件)可以分享吗?


我要做的就是使用样式。每种类型的内容都有一种样式,并编写一个宏来逐段遍历文档并输出相应的文本文件。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何准备 Word 2007 文档以便 C# 可以从语义上提取数据? 的相关文章

随机推荐