如何使用 docx4j 读取 Word 文档并获取其中所有样式的部分

2024-01-10

我正在使用 docx4j 来处理 Word 文档格式。我有一个word文档，它分为多个表格。我想阅读所有表格，如果我找到一些关键字，那么我想将这些内容转移到另一个具有所有格式的 Word 文档中。我的word文档如下。

就像上面一样，我想获取某些标题下方的内容。这里我的关键字是示例文本。因此，每当示例文本重复时，就需要将内容提取到新的 Word 文档中。

我正在使用以下代码。

    MainDocumentPart mainDocumentPart = null;
    WordprocessingMLPackage docxFile = WordprocessingMLPackage.load(new File(fileName));
    mainDocumentPart = docxFile.getMainDocumentPart();

    WordprocessingMLPackage  wordMLPackage = WordprocessingMLPackage.createPackage();

    ClassFinder finder = new ClassFinder(Tbl.class);
    new TraversalUtil(mainDocumentPart.getContent(), finder);
    Tbl tbl = null;

    int noTbls = 0;
    int noRows = 0;
    int noCells = 0;
    int noParas = 0;
    int noTexts = 0;

    for (Object table : finder.results) {
        noTbls++;
        tbl = (Tbl) table;
        // Get all the Rows in the table
        List<Object> allRows = DocxUtility.getDocxUtility()
                .getAllElementFromObject(tbl, Tr.class);
        for (Object row : allRows) {
            Tr tr = (Tr) row;
            noRows++;
            // Get all the Cells in the Row
            List<Object> allCells = DocxUtility.getDocxUtility()
                    .getAllElementFromObject(tr, Tc.class);
            toCell:
            for (Object cell : allCells) {
                Tc tc = (Tc) cell;
                noCells++;
                // Get all the Paragraph's in the Cell
                List<Object> allParas = DocxUtility.getDocxUtility()
                        .getAllElementFromObject(tc, P.class);
                for (Object para : allParas) {
                    P p = (P) para;
                    noParas++;
                    // Get all the Run's in the Paragraph
                    List<Object> allRuns = DocxUtility.getDocxUtility()
                            .getAllElementFromObject(p, R.class);


                    for (Object run : allRuns) {
                        R r = (R) run;

                        // Get the Text in the Run
                        List<Object> allText = DocxUtility.getDocxUtility()
                                .getAllElementFromObject(r, Text.class);
                        for (Object text : allText) {
                            noTexts++;
                            Text txt = (Text) text;                         
                        }
                        System.out.println("No of Text in Para No: " + noParas + "are: " + noTexts);
                    }

                }
                System.out.println("No of Paras in Cell No: " + noCells + "are: " + noParas);
            }
            System.out.println("No of Cells in Row No: " + noRows + "are: " + noCells);
        }
        System.out.println("No of Rows in Table No: " + noTbls + "are: " + noRows);

    }
    System.out.println("Total no of Tables: " + noTbls );

假设您的文本在单次运行中（即不跨运行分割），那么您可以通过 XPath 搜索它。或者您可以使用 TraversalUtil 手动遍历。请参阅 docx4j 的入门了解更多信息。

所以找到你的东西非常容易。在一般情况下，复制它使用的格式以及其中的任何关系都是很复杂的。看我的帖子http://www.docx4java.org/blog/2010/11/merging-word-documents/ http://www.docx4java.org/blog/2010/11/merging-word-documents/了解有关所涉及问题的更多信息。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 docx4j 读取 Word 文档并获取其中所有样式的部分的相关文章

为休息服务实施 JUnit 测试

我必须为我的休息服务实现一些 JUnit 测试例如这是我的休息服务之一 Path dni fe public class HelloWorld POST Path home Consumes MediaType APPLICATION
Safari 和 Edge 中的 audioContext.copyToChannel() 替代方案

Safari 和 Edge 都不支持audioContext copyToChannel 函数用自定义内容填充audioBuffer 还有其他方法吗就我而言我想创建一个脉冲响应用该响应填充缓冲区并将一些声音与该缓冲区进行卷积对于
std::bind2nd 和 std::bind 与二维数组和结构数组

我知道 C 有 lambda 并且 std bind1st std bind2nd 和 std bind 已弃用然而从C 的基础开始我们可以更好地理解新特性所以我从这个非常简单的代码开始使用int 数组s 第一个例子与std
如何在 JmsMessagingTemplate.sendAndReceive 上设置等待超时

我在 MVC 控制器中使用 JmsMessagingTemplate 的 sendAndReceive 但如果没有发送回复消息它似乎会永远等待回复该文档指出返回回复如果无法接收消息例如由于超时则可能为 null 然而我只是不
在约束验证器中使用 Guice 进行依赖注入

我有一个在 ConstraintValidator 的实现中注入类的用例我正在使用 Google guice 进行依赖项注入目前无法在验证器内注入我的场景的简化形式内部模块 Provides Singleton public Ser
谷歌colab录音，如何实现更精确的方式告诉用户开始对着麦克风说话

我正在尝试创建一个为机器学习项目录制音频的程序我想使用 google colab 这样人们就不必在他们的系统上安装或运行任何东西我在网上找到了这个录制和播放音频的示例单元格 1 包含用于录制音频的 js 代码和用于将其转换为字节对象的
Hybris：如何在impex中导入zip文件中的媒体？

我知道我们可以导入未像这样压缩的图像 siteResource jar com project initialdata constants ProjectInitialDataConstants projectinitialdata imp
onDeviceReady 未在 PhoneGap hello world 应用程序中触发

我正在尝试做一个简单的警报测试应用程序但事件没有被触发这是代码 function onLoad document addEventListener deviceready onDeviceReady false Cordova is
将 ngModel 绑定到自定义指令

所以我已经在这个问题上工作了一个星期了但我似乎无法理解整个指令的事情我读了很多帖子揭秘指令 http www toptal com angular js angular js demystifying directives 指令 ht
Django Rest框架Json解析

我想解析传入的POSTdjangoviews py 文件中的数据发布数据 number 17386372 data banana apple grapes 这是我尝试读取上述传入数据的方法request views py class Fr
如何用 GreaseMonkey 替换 onclick 事件？

该网站有一个图片库每次我单击缩略图时它都会在新选项卡中打开 URL 不是因为我将 Firefox 设置为在新选项卡中打开链接我只想在同一窗口中打开 URL 缩略图的示例如下 span class thumb a href post i
Web 文本编辑器中的 RTF 格式

网络上是否有支持 RTF 格式文档输入的文本编辑器我知道这对 webdev 来说有点奇怪但我需要从数据库中读取 RTF 文档并在基于 Web 的文本编辑器中对其进行编辑然后将其存储回 RTF 中在我在转换工具上投入太多资金之前我
将 async 和await 与export const 一起使用

我无法完成这项工作它说 await 是一个保留字是的当然是而且我想使用它怎么了 export const loginWithToken async gt return dispatch gt dispatch type SESSI
如何阻止用户重复单击 jQuery AJAX 调用？

我有一个包含以下脚本的网页 JavaScript function LinkClicked var stage this id var stop ContentPlaceHolderMenu txtDate val var nDays Co
使用 Hibernate Envers 的复合表

我有一个带有复合表的应用程序其中包含一个额外的列一切正常直到我们添加 Hibernate Envers Audited org hibernate MappingException 无法读取 no pack response Resp
如何在不接受焦点的元素上捕获键盘事件？

我知道要处理输入字段中的键盘事件您可以使用 input keyup function e var code e keyCode and 13 is the keyCode for Enter 但是现在我有一些div and li元素
Axis2 的 wsdl2java 在 RPC/Encoded 样式 Web 服务上失败

Axis2 有替代方案吗或者让它工作的方式例如不同的数据绑定 Retrieving document at Exception in thread main org apache axis2 wsdl codegen CodeGener
FragmentMap + ActionBar 选项卡

我一直在尝试插入一个MapView进入一个ActionBar Tab 但我什至无法解决问题即使谷歌搜索这是主要活动 Override public void onCreate Bundle savedInstanceState supe
iOS 上 Safari 中的 shift 键

有没有办法在javascript中判断手机键盘上是否按下了shift键并将其与大写锁定按两次shift键区分开来一些事实首先让我们看一下有关 iOS 键盘的一些事实我假设您已经知道了当您进入键盘模式时 shift键始终处于激
MyBatis 枚举的使用

我知道以前有人问过这个问题但我无法根据迄今为止找到的信息实施解决方案所以也许有人可以向我解释一下我有一个表状态它有两列 id 和 name id是PK 我不想使用 POJO Status 而是使用枚举我创建了这样一个枚举如下所

随机推荐

Google 机器学习套件，在 Android 上使用 ML Kit 识别图像中的文本错误 [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我尝试安装在 Android 上使用 ML Kit 识别图像中的文本然后运行此应用程序但出现此错误 com goo
Fabric + DigitalOcean：不可见的环境变量？

我在 DigitalOcean 上有服务器我使用 Fabric 来部署我的代码我的代码依赖于环境变量烧瓶配置我今天遇到了一个奇怪的麻烦在服务器上 root bashrc我已经添加了下一行 export CONFIG path to
自适应卡提交操作

我使用 JSON 格式生成了一张自适应卡其中有两个按钮提交和取消分别返回 messageBack 消息作为提交和取消我正在使用 C 来访问回复但我无法弄清楚如何从自适应卡访问回复我的json是 type AdaptiveCa
Heroku 上托管的 Rails 应用程序：错误 R12（退出超时）

我有一个在heroku 上托管的Rails 3 1 4 应用程序我已经添加了logentries add on http devcenter heroku com articles logentries 我没有触及警报的默认配置现在我每
在给定元素下通过 XPath 搜索

我知道在 PHP 中对 DOM 执行 XPath 查询的唯一方法是DOMXPath http php net manual fr class domxpath php 它仅适用于DOMDocument public construct DO
如何配置 uwsgi 将日志记录编码为 json（应用程序输出除外）

我正在 Python Flask Web 应用程序周围运行 uwsgi 并使用这些选项以及其他选项在 stdout 上获取 JSON 编码的日志记录 fmt timestamp strftime FT TZ level DEBUG na
关于虚函数的问题

我有两节课 class x public virtual void hello std cout lt lt x lt lt std endl class y public x public void hello std cout lt l
Spring MVC 表单验证：如何使字段可选？

我有一个表单 Spring 3 MVC 项目我使用 DTO 数据传输对象进行数据验证数据被发送到控制器我正在检查它的有效性BindingResult hasErrors 方法和适当的注释由于我在数字字段方面遇到问题因此我将在这里
摆动组件之间的新线

我曾多次尝试多次搜索如何格式化 java swing 元素但我似乎找不到任何东西我尝试学习网格袋布局但它太复杂了有人可以告诉我如何使用 Swing 来设置 Swing 组件的空间吗谢谢 EDIT Code import javax
当将 Google Sheets API 写入工作表放在具有从脚本读取的页面上时，写入工作表不起作用

我在写入 Google 表格时遇到问题我不明白为什么我刚开始使用此 API 并且一直在使用 JavaScript 客户端库的 Google API 客户端库指南我正在尝试构建一个登录网页来跟踪某人参加活动的时间当我的页面加载时
FromBase64String/UTF 编码

我的问题是基于我从 API 调用中返回的一串数据我将原始数据传递到 FromBase64String 中然后将字节数组编码回字符串我期待一个有效的 pdfsharp 返回并将其保存到文件中下面的解码字符串值都不包含正确的数据我知
从 glob 表达式创建正则表达式

我编写了用正则表达式解析文本的程序应从用户处获取正则表达式我打算使用 glob 语法进行用户输入并在内部将 glob 字符串转换为正则表达式例如 foo bar 应转换为 foo w bar w 不知何故我需要从字符串中转义所有有
R：如何将嵌套列表“取消嵌套”到 data.frame 中？

I have l1 list SeriousDlqin2yrs list prediction 0 prediction probs list 0 0 5 1 0 5 l2 list SeriousDlqin2yrs list predic
CSS 中的 id 和 class 有什么区别，什么时候应该使用它们？ [复制]

这个问题在这里已经有答案了 main background 000 border 1px solid AAAAAA padding 10px color fff width 100px div Welcome div 这里我给出了一个id
Java 8 中 MetaSpace 有什么用？

我知道他们在 Java 8 中用 MetaSpace 取代了 PermGen 但我有几个问题 MetaSpace默认是GC收集的吗甚至 PermGen 也是通过添加参数进行 GC 收集的例如 XX CMSClassUnloadingEn
CSS 不透明度动画 Safari 错误？

我有一个简单的动画本例中仅适用于 Safari h1 webkit animation moveDown 1s ease in out webkit keyframes moveDown 0 webkit transform transl
单击 Activity 上的其他位置时如何使 SearchView 失去焦点并折叠

在我的应用程序中我正在制作一个搜索界面 http developer android com training search setup html其中SearchView当它失去焦点和获得焦点时分别会折叠和扩展然而失去焦点的情况只发生
无法使用 ChromeDriver 下载文件

我正在使用 chromedriver 和 selenium 从应用程序下载文件但是当单击应用程序中的下载按钮时它给出错误 Failed Download error Chrome 驱动程序版本 2 21 硒版本 2 53 0 用于初始
如何在html中设置输入类型=文件的样式？ [复制]

这个问题在这里已经有答案了我做了一些研究发现很难设计输入类型文件的样式然而我意识到当您想要将视频上传到该网站时 YouTube 会显示一个漂亮的按钮可能需要登录 http www youtube com upload http
如何使用 docx4j 读取 Word 文档并获取其中所有样式的部分

我正在使用 docx4j 来处理 Word 文档格式我有一个word文档它分为多个表格我想阅读所有表格如果我找到一些关键字那么我想将这些内容转移到另一个具有所有格式的 Word 文档中我的word文档如下就像上面一样我想获取

如何使用 docx4j 读取 Word 文档并获取其中所有样式的部分

如何使用 docx4j 读取 Word 文档并获取其中所有样式的部分 的相关文章

随机推荐

热门标签

如何使用 docx4j 读取 Word 文档并获取其中所有样式的部分的相关文章