如何使用 apache poi 从 .docx 文档中获取图片和表格?

2024-03-07

亲爱的,我尝试将整个文档从 .docx 文件提取到 java 中的文本区域,但我只收到没有图像或表格的文本,所以有什么建议吗?提前致谢。

我的代码是:

try{
JFileChooser chooser = new JFileChooser();
chooser.showOpenDialog(null);
XWPFDocument doc = new XWPFDocument(new 
FileInputStream(chooser.getSelectedFile()));
XWPFWordExtractor extract = new XWPFWordExtractor(doc);
content.setText(extract.getText());
content.setFont(new Font("Serif", Font.ITALIC, 16));
content.setLineWrap(true);
content.setWrapStyleWord(true);
content.setBackground(Color.white);

} catch(Exception e){
JOptionPane.showMessageDialog(null, e);
}
} 

提取表格 use List<XWPFTable> table = doc.getTables()

下面的例子

public static void readWordDocument() { 
try { 
        String fileName = "C:\\sample.docx"; 

        if(!(fileName.endsWith(".doc") || fileName.endsWith(".docx"))) { 
                throw new FileFormatException(); 
        } else { 

        XWPFDocument doc = new XWPFDocument(new FileInputStream(fileName)); 

                List<XWPFTable> table = doc.getTables();         

                for (XWPFTable xwpfTable : table) { 
                                                    List<XWPFTableRow> row = xwpfTable.getRows(); 
                                                    for (XWPFTableRow xwpfTableRow : row) { 
                                                            List<XWPFTableCell> cell = xwpfTableRow.getTableCells(); 
                                                            for (XWPFTableCell xwpfTableCell : cell) { 
                                                                    if(xwpfTableCell!=null) 
                                                                    { 
                                                                            System.out.println(xwpfTableCell.getText()); 
                                                                            List<XWPFTable> itable = xwpfTableCell.getTables(); 
                                                                            if(itable.size()!=0) 
                                                                            { 
                                                                                    for (XWPFTable xwpfiTable : itable) { 
                                                                                            List<XWPFTableRow> irow = xwpfiTable.getRows(); 
                                                                                            for (XWPFTableRow xwpfiTableRow : irow) { 
                                                                                                    List<XWPFTableCell> icell = xwpfiTableRow.getTableCells(); 
                                                                                                    for (XWPFTableCell xwpfiTableCell : icell) { 
                                                                                                            if(xwpfiTableCell!=null) 
                                                                                                            {   
                                                                                                                    System.out.println(xwpfiTableCell.getText()); 
                                                                                                            } 
                                                                                                    } 
                                                                                            } 
                                                                                    } 
                                                                            } 
                                                                    } 
                                                            } 
                                                    } 
                } 
        } 
} catch(FileFormatException e) { 
        e.printStackTrace(); 
} catch (FileNotFoundException e) { 
        e.printStackTrace(); 
} catch (IOException e) { 
        e.printStackTrace(); 
} 

}

提取图像 use List<XWPFPictureData> piclist=docx.getAllPictures()

请参阅下面的示例

    public static void extractImages(String src){
  try{

  //create file inputstream to read from a binary file
  FileInputStream fs=new FileInputStream(src);
  //create office word 2007+ document object to wrap the word file
  XWPFDocument docx=new XWPFDocument(fs);
  //get all images from the document and store them in the list piclist
  List<XWPFPictureData> piclist=docx.getAllPictures();
  //traverse through the list and write each image to a file
  Iterator<XWPFPictureData> iterator=piclist.iterator();
  int i=0;
  while(iterator.hasNext()){
   XWPFPictureData pic=iterator.next();
   byte[] bytepic=pic.getData();
   BufferedImage imag=ImageIO.read(new ByteArrayInputStream(bytepic));
          ImageIO.write(imag, "jpg", new File("D:/imagefromword"+i+".jpg"));
          i++;
  }

  }catch(Exception e){System.exit(-1);}

 }
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 apache poi 从 .docx 文档中获取图片和表格? 的相关文章

随机推荐

  • LAContext canEvaluatePolicy 和 Swift 2

    这是我的 Swift 代码 if LAContext canEvaluatePolicy LAPolicy DeviceOwnerAuthenticationWithBiometrics return true 使用 Swift2 我将代码
  • Spring Batch 访问步骤内的作业参数

    我有以下 Spring Batch Job 配置 Configuration EnableBatchProcessing public class JobConfig Autowired private JobBuilderFactory
  • Rails ActiveRecord - 有没有办法在没有 id 的情况下对表执行操作?

    我有一张一行两列的表格 int version datetime updated 是否有 Rails ActiveRecord 方法来获取和设置这些列中的数据 没有 id 列 我使用此表来跟踪其他表的查询版本 每次查询另一个表后 版本列都会
  • 我可以在 distcheck 期间使用 $dc_install_base 安装 systemd 文件吗?

    我有以下用于安装 systemd 服务文件的 Autotools 代码 该文件必须安装在外部 prefix到 pkg config 变量指定的目录 我知道这是不正确的 但我无法改变 systemd 的工作方式 配置文件 AC ARG WIT
  • OpenMPI 1.4.3 mpirun 主机文件错误

    我正在尝试在 4 个节点上运行一个简单的 MPI 程序 我正在使用在 Centos 5 5 上运行的 OpenMPI 1 4 3 当我使用主机文件 机器文件提交 MPIRUN 命令时 我没有得到任何输出 而是出现空白屏幕 因此 我必须终止这
  • Python 谷歌地图 驾驶时间

    我需要使用 Python 获取两组坐标之间的行驶时间 我能找到的唯一 Google Maps API 包装器要么使用 Google Maps API V2 已弃用 要么不具有提供驾驶时间的功能 我在本地应用程序中使用它 并且不希望受限于使用
  • 找出有盖矩形物体的方向、长度和半径

    I have a image as shown as fig 1 I am trying to fit this binary image with a capped rectangular fig 2 to figure out 方向 长
  • 更改 Xamarin 中格式化文本的字体

    我有一个带有格式化文本的标签 我想更改其字体样式 我的意思是字体 我尝试使用自定义标签渲染 就像对普通文本一样 但它没有得到反映 我的疑问是我们是否可以更改格式化文本的字体 因为它对于标签的文本 非格式化文本 工作正常 这是我的 xaml
  • 检查“组件”的渲染方法

    我正在尝试按照指南设置一个react router dom高阶组件 我有个问题说 元素类型无效 需要一个字符串 对于内置组件 或一个类 函数 对于复合组件 但得到 对象 您可能忘记从定义它的文件中导出组件 或者您可能混淆了默认导入和命名导入
  • jQuery:从文件系统读取文本文件

    我正在尝试使用 jquery 读取文本文件 如下所示 LOAD file and split line by line and append divs get myFile txt function data var lines data
  • 获取最近 7 天的日期

    我想获取从现在起过去 7 天的日期 例如当前日期是 02 10 2016 像这样获取 7 天的日期 01 10 2016 30 09 2016 29 09 2016 28 09 2016 27 09 2016 26 09 2016 My c
  • Java Servlet URL 映射

    我对java servlet相当陌生 如果这个问题看起来很愚蠢 请原谅我 我在 web xml servlet 选项卡中使用 netbeans 添加了 servlet 映射 例如 servlet 类和 url 模式 但是当应用程序运行时 它
  • 在 Firebase 函数中过滤数据

    如何找到 myPhone 的 users key 值 其值 123 我尝试过的 let usersRef admin database ref users usersRef orderByChild myPhone equalTo 123
  • 如何实现历史版本控制?

    我们正处于在 SQL 2008 R2 上构建大型 C MVC2 应用程序 我们还采用 Sharp 架构和 Nhibernate 作为生态系统的一部分 的早期阶段 其中一个要求是在给定的时间内可以访问所有数据库行版本 历史 我们尝试过类似以下
  • Meyers Singleton 与 C++-98 线程安全

    目前我有迈耶单例的实现 class ClassA public static ClassA GetInstance static ClassA instance return instance private ClassA ClassA a
  • 将 Robolectric 与 SQLiteAssetHelper 结合使用

    我对 Robolectric 很陌生 所以如果我在这里遗漏了一些明显的东西 请提前道歉 我有一个从以下位置加载数据库的应用程序assets目录使用SQLite资产助手 https github com jgilfelt android sq
  • 对合法程序进行反病毒检测

    基本上 我的程序与另一个 jar 文件一起运行 下面是下载功能的代码 public void saveUrl final String filename final String urlString throws MalformedURLE
  • git: 'credential-osxkeychain' 不是 git 命令。请参阅“git --help”

    我与 bitbucket 连接 并在计算机中安装了 Git 和 sourcetree 然后尝试将 sourcetree 和 bitbucket 连接在一起 但我无法连接两者 当我尝试克隆存储库源路径时 它说 this is not a va
  • GWT RootPanel 与 RootLayoutPanel

    据我了解 GWT 官方建议使用较新的 RootLayoutPanel 但互联网上的一些帖子声称 对于某些 Web 应用程序 最好使用 RootPanel 如何决定使用哪一个 每个都有不同的用例吗 或者每个要求都可以满足 RootLayout
  • 如何使用 apache poi 从 .docx 文档中获取图片和表格?

    亲爱的 我尝试将整个文档从 docx 文件提取到 java 中的文本区域 但我只收到没有图像或表格的文本 所以有什么建议吗 提前致谢 我的代码是 try JFileChooser chooser new JFileChooser choos