POI解析word\pdf中表格

2023-11-19

        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml</artifactId>
            <version>4.1.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-scratchpad</artifactId>
            <version>4.1.1</version>
        </dependency>

         <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox</artifactId>
            <version>2.0.7</version>
        </dependency>

添加依赖

直接上代码：

// 解析word两种类型
private static List<List<EvaluationBaseInfo>> analysisWordTable(String filePath) {

        File file = new File(filePath);
        if (!file.exists()) {
            return null;
        }
        FileInputStream fileInputStream = null;
        FileInputStream fileInputStream2 = null;
        try {
            // 因OLE2无法解析Buffered的流数据，所以定义了两个
            fileInputStream = new FileInputStream(file);
            fileInputStream2 = new FileInputStream(file);
            BufferedInputStream bis = new BufferedInputStream(fileInputStream2);
            FileMagic fileMagic = FileMagic.valueOf(bis);

            if (fileMagic == FileMagic.OLE2) {
                return analysisOLE2(fileInputStream);
            } else if (fileMagic == FileMagic.OOXML) {
                return analysisOOXML(fileInputStream);
            }
        } catch (Exception e) {
            e.printStackTrace();
        }finally {
            try {
                if (null != fileInputStream){
                    fileInputStream.close();
                }
                if (null != fileInputStream2){
                    fileInputStream2.close();
                }

            } catch (IOException e) {
                e.printStackTrace();
            }

        }
       return null;
    }


private static List<List<EvaluationBaseInfo>> analysisOLE2(FileInputStream fileInputStream) {

        // 获取word中的所有段落与表格
        POIFSFileSystem pfs = null;
        HWPFDocument hwpf = null;
        try {
            pfs = new POIFSFileSystem(fileInputStream);
            hwpf = new HWPFDocument(pfs);
            Range range = hwpf.getRange();// 得到文档的读取范围
            TableIterator it = new TableIterator(range);
            Map<String, String> map = new HashMap<>();
            List<List<EvaluationBaseInfo>> evaluationBaseInfoList = new ArrayList<>();
            while (it.hasNext()) {
                Table tb = it.next();
                // 迭代行，默认从0开始
                List<EvaluationBaseInfo> evaluationBaseInfos = new ArrayList<>();
                for (int i = 1; i < tb.numRows(); i++) {
                    TableRow tr = tb.getRow(i);
                    // 迭代列，默认从0开始

                    EvaluationBaseInfo evaluationBaseInfo = new EvaluationBaseInfo();
                    int index = 1;
                    for (int j = 1; j < tr.numCells(); j++) {
                        TableCell td = tr.getCell(j);// 取得单元格
                        for (int k = 0; k < td.numParagraphs(); k++) {
                            Paragraph para = td.getParagraph(k);// 获取第k个段落
                            String text = para.text();
                            EvaluationBaseInfo.covert(text,index,evaluationBaseInfo);
                            index++;
                        }
                    }
                    evaluationBaseInfos.add(evaluationBaseInfo);
                }
                evaluationBaseInfoList.add(evaluationBaseInfos);
            }
            return evaluationBaseInfoList;
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            try {
                if (null != hwpf){
                    hwpf.close();
                }
                if (null != pfs){
                    pfs.close();
                }

            } catch (IOException e) {
                e.printStackTrace();
            }

        }

        return null;
    }


private static List<List<EvaluationBaseInfo>> analysisOOXML(FileInputStream fileInputStream) {
        List<List<EvaluationBaseInfo>> evaluationBaseInfoList = new ArrayList<>();
        XWPFDocument doc = null;
        try {
            doc = new XWPFDocument(fileInputStream);
            List<XWPFTable> tables = doc.getTables();

            for (XWPFTable table : tables){
                List<XWPFTableRow> rows = table.getRows();
                List<EvaluationBaseInfo> evaluationBaseInfos = new ArrayList<>();
                // 从下标1开始循环，跳过表头
                for (int i = 1;i < rows.size();i++){
                    XWPFTableRow xwpfTableRow = rows.get(i);
                    List<XWPFTableCell> tableCells = xwpfTableRow.getTableCells();
                    EvaluationBaseInfo evaluationBaseInfo = new EvaluationBaseInfo();
                    // 组装字段值
                    for (int j = 1;j < tableCells.size();j++){
                        XWPFTableCell cell = tableCells.get(j);
                        String text = cell.getText();
                        if (StringUtils.isBlank(text)){
                            continue;
                        }
                        EvaluationBaseInfo.covert(text,j,evaluationBaseInfo);

                    }
                    // 下标和字典值进行匹配，获取county_science表中data_type类型
                    CountyScienceDict countyScienceDict = CountyScienceDict.getOne(i);
                    if (null != countyScienceDict){
                        evaluationBaseInfo.setDataType(countyScienceDict.getType());
                    }
                    evaluationBaseInfos.add(evaluationBaseInfo);

                }
                evaluationBaseInfoList.add(evaluationBaseInfos);

            }
            return evaluationBaseInfoList;

        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            try {
                if(doc!=null) {
                    doc.close();
                }
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
        return null;
    }



// 解析PDF
private static List<List<EvaluationBaseInfo>> analysisPdfTable(String filePath) {
        PDDocument pdDocument = null;
        //创建pdf文件解析器
        FileInputStream is = null;
        PDFParser parser = null;
        // 用来统一返回类型
        List<List<EvaluationBaseInfo>> evaluationBaseInfoList = new ArrayList<>();
        try {
            is = new FileInputStream(filePath);
            parser = new PDFParser(new RandomAccessBuffer(is));
            parser.parse();
            //获取解析后的pdf文档
            pdDocument = parser.getPDDocument();
            // 新建一个PDF文本剥离器
            PDFTextStripper stripper = new PDFTextStripper();
            stripper.setSortByPosition(false); //sort:设置为true 则按照行进行读取，默认是false
            String pageContent = "";
            Pattern pattern = Pattern.compile("XXXXXX");

            //获取pdf文件总页数
            int pageCount = pdDocument.getNumberOfPages();
            for (int i = 1; i <= pageCount; i++) {
                pageContent = "";
                stripper.setStartPage(i);
                stripper.setEndPage(i);
                pageContent = stripper.getText(pdDocument);
                Matcher matcher = pattern.matcher(pageContent);
                if (matcher.find()) {
                    break;
                }
            }

            String[] lines = pageContent.split("\n");
            pattern = Pattern.compile("^\\d+");
            AtomicInteger atomicInteger = new AtomicInteger(0);

            List<EvaluationBaseInfo> evaluationBaseInfos = new ArrayList<>();
            for (String line : lines  ) {
                if(pattern.matcher(line).find()){
                    String[] row = line.split(" ");

                    // 转换对象
                    EvaluationBaseInfo evaluationBaseInfo = new EvaluationBaseInfo();
                    int j = 1;
                    for (int i = 0; i < row.length; i++) {
                        j++;
                        EvaluationBaseInfo.covert(row[i],j,evaluationBaseInfo);
                    }

                    // 下标和字典值进行匹配，获取county_science表中data_type类型
                    CountyScienceDict countyScienceDict = CountyScienceDict.getOne(atomicInteger.incrementAndGet());
                    if (null != countyScienceDict){
                        evaluationBaseInfo.setDataType(countyScienceDict.getType());
                    }
                    evaluationBaseInfos.add(evaluationBaseInfo);
                }
            }
            evaluationBaseInfoList.add(evaluationBaseInfos);

        } catch (Exception e) {
            e.printStackTrace();
            System.err.println(filePath);
        }finally {
            if (pdDocument != null) {
                // 关闭PDF Document
                try {
                    is.close();
                    pdDocument.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
        return evaluationBaseInfoList;

    }

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java基础

Java

数据库

MyBatis

POI解析word\pdf中表格的相关文章

Android PhoneGap 插件，UI 选项卡栏，调整 WebView 大小

我正在创建一个美味的 PhoneGap 插件希望一旦它能被打开准备好了插件基本完成了我只需要一个漂亮的用户界面相互作用简而言之我想创建一个本机 android 工具栏组件如果您实现 PhoneGap UIControls
MongoTemplate upsert - 从 pojo 进行更新的简单方法（哪个用户已编辑）？

这是一个简单的 pojo public class Description private String code private String name private String norwegian private String en
Jackson - 反序列化嵌套 JSON

我有一个 JSON 字符串其格式如下 response execution status ready report cache hit true created on 2013 07 29 08 42 42 fact cache erro
Java、Oracle 中索引处缺少 IN 或 OUT 参数:: 1 错误

您好我使用 Netbeans 8 0 2 和 Oracle 11g Express Edition 在 JSF 2 2 中编写了一个图书馆管理系统我有几个名为书籍借阅者等的页面以及数据库中一些名为相同名称的表我的问题是这样的
Spring3/Hibernate3/TestNG：有些测试给出 LazyInitializationException，有些则没有

前言我在单元测试中遇到了 LazyInitializationException 的问题而且我很难理解它正如你从我的问题中看到的那样Spring 中的数据库会话 https stackoverflow com questions 13
Java 正则表达式 - 字母数字，最多一个连字符，句点或下划线，七个字符长

我是 Java 正则表达式工具的新手尽管它们潜力巨大但我很难完成这项任务我想编写一个正则表达式来验证遵循以下语法的输入字符串小写字母和数字的任意组合仅一个下划线一个破折号或一个句号无其他特殊字符最小长度为 5 我想出了以下解
正则表达式获取字符串中的第一个数字和其他字符

我是正则表达式的新手想知道如何才能只获取字符串中的第一个数字例如100 2011 10 20 14 28 55 在这种情况下我希望它返回100 但该数字也可以更短或更长我在想类似的事情 0 9 但它单独获取每个数字 100 2001
Java Microsoft Excel API [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
JTable 和 JScrollpane 大小的问题

我有一个JScrollPane with a JTable在里面在里面JTable我最初有 3 行稍后添加行默认JTable我的 3 行很难看因为JScrollPane calls getPreferredScrollableVie
如何导入 org.apache.commons.lang3.ArrayUtils;进入 Eclipse [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我如何导入 org apache commons lang3 ArrayUtils 将库添加到 Ecl
Java-如何将黑白图像加载到二进制中？

我在 FSE 模式下使用 Java 和 swing 我想将完全黑白图像加载为二进制格式最好是二维数组并将其用于基于掩码的每像素碰撞检测我什至不知道从哪里开始过去一个小时我一直在研究但没有找到任何相关的东西只需将其读入Buffer
在 IntelliJ 中运行 Spring Boot 会导致 Unable to load 'javax.el.ExpressionFactory'

我正在尝试运行一个简单的 Spring Boot 应用程序该应用程序具有以下 Maven pom file
Jenkins 的代码覆盖率 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
发生错误。请参阅日志文件 - eclipse juno

每当我启动 Eclipse Juno 时都会出现错误发生错误请查看日志文件 C Program Files eclipse configuration 1362989254411 log 有的网站说卸载jdk重新安装我这样做了但没
改变for循环的顺序？

我遇到一种情况我需要根据用户输入以不同的顺序循环遍历 xyz 坐标所以我是 3D 空间中的一个区域然后是一组像这样的 for 循环 for int x 0 x lt build getWidth x for int y 0 y lt
Android Gradle 同步失败：无法解析配置“：classpath”的所有工件

错误如下 Caused by org gradle api internal artifacts ivyservice DefaultLenientConfiguration ArtifactResolveException Could n
为什么我的代码会产生错误：该语句没有返回结果集[重复]

这个问题在这里已经有答案了我正在从 Microsoft SQL Server Studio 执行以下查询该查询工作正常并显示结果 SELECT INTO temp table FROM md criteria join WHERE us
Java中的回调接口是什么？

SetObserver 接口的代码片段取自有效的Java 避免过度同步第67条 public interface SetObserver
使用 JAD 反编译 java - 限制

我正在尝试使用 Java 中的 JAD 反编译几个 jar 文件我也尝试过 JD GUI 但运气更差但出现了很多错误一种类型易于修复似乎是内部类但我也发现了这段代码 static int SWITCH TABLE atp com
无法使用 wget 在 CentOS 机器上安装 oracle jdk

我想在CentOS上安装oracle java jdk 8 我无法安装 java jdk 因为当我尝试使用命令安装 java jdk 时 root ADARSH PROD1 wget no cookies no check certific

随机推荐

SpringBoot 整合 ElasticSearch

整合前先理解几个概念与关键字开始前给大家推荐一款很火的刷题面试求职网站 https www nowcoder com link pc csdncpt xiaoying java 索引
Java编程练习题：Demo96 - Demo105（多维数组）

目录 Demo96 代数方面两个矩阵相乘编写两个矩阵相乘的方法 Demo97 距离最近的两个点程序清单8 3给出找到二维空间中距离最近的两个点的程序修改该程序让程序能够找出在三维空间上距离最近的两个点 Demo98 最大的行和列
flink-addSource和addSink分别是kafka、自定义数据、mysql、hbase的java实现

flink主程序 public class FinkTest public static void main String args throws Exception StreamExecutionEnvironment env Strea
Python 和 A-frame实现从图像创建 3D 模型--附完整示例代码

介绍虚拟现实是指由计算机生成的模拟允许用户使用特殊耳机进行交互简而言之它是由计算机创建的另类现实而耳机可以让人们沉浸在该现实中根据 Allied Market Research 的数据到 2026 年 VR 内容创作市场将达到
基于若依框架的微信小程序登录

一用户表结构 CREATE TABLE bus user user id varchar 32 COLLATE utf8mb4 bin NOT NULL COMMENT 用户id parent id varchar 32 CHARACTE
秋招提前批已来，万字长文教你如何增加面试大厂的成功率

本文是笔者在春季在前端早早聊手动笔芯的面试专场分享的文字稿主要针对前端社招校招和实习的同学仅供参考感兴趣的同学可以点击链接查看PPT和录屏前端如何提高面试大厂的通过率字节跳动秋季招聘提前批已经启动欢迎投递幸福里业务线内推
嵌入式 ARM 汇编编程例题

文章目录用汇编语言实现 128 位数的减法已知 32 位变量 X Y 存放在存储器的地址 0x90010 0x90014 中要求实现 Z X Y 其中 Z 的值存放在 0x90018 中已知 32 位有符号数 X 存放在存储器的地址
python request第三方库介绍

python request第三方库介绍快速上手迫不及待了吗本页内容为如何入门Requests提供了很好的指引其假设你已经安装了Requests 如果还没有去安装一节看看吧首先确认一下 Requests 已安装 Reque
mybatis查询mysql时间格式化 DATE_FORMAT

在数据库中对应的是DateTime 查询参数为String类型缺少时分秒的情况下使用 select from order where isDelete 0
笔记 —— ByteArrayOutputStream

内存输出流 ByteArrayOutputStream 此类实现了一个输出流其中的数据被写入一个 byte 数组缓冲区会随着数据的不断写入而自动增长可使用 toByteArray 和 toString 获取数据两个构造函数 1 By
Linux系统编程makefile制作动态库和静态库

目录制作动态库制作静态库首先准备简单的add c sub c main c head h 具体代码如下 head h文件 int Add int a int b int Sub int a int b add c文件 include
山洪灾害监测预警系统解决方案

一方案概述山洪灾害是指山丘地区由降雨引起的洪水泥石流和滑坡灾害近年来我国突发性局部性极端强降雨引发的山洪灾害导致大量人员伤亡占洪涝灾害死亡总人数的比例趋上升趋势群死群伤事件时有发生山洪灾害严重制约山区和丘陵地区经济发展人
SVM支持向量机学习——使用MATLAB实现基于SVM的数据二分类

SVM支持向量机学习使用MATLAB实现基于SVM的数据二分类支持向量机 Support Vector Machine SVM 是一种广泛应用于分类回归和异常检测等领域的算法它的优点在于具有较高的准确性鲁棒性和可扩展性在本文中
Hyper-v 虚拟机挂载物理硬盘的方法-Windows Server 2022/2025

起因之前我写过一篇介绍在KVM虚拟机体系下如何直接挂载物理硬盘和物理分区的方法 KVM虚拟机直接挂栽物理硬盘分区的方法给libvirt虚机挂载磁盘 lggirls的博客 CSDN博客近期帮助一个朋友搭建局域网其中有OA系统要用到w
Get to know yosys & yosys-abc

In this blog I m going to give some instructions about yosys yosys abc in Linux Environment yosys 0 7 gcc 5 4 0 ubuntu 1
verilog 基本语法｛｝大括号的使用

的基本使用是两个一个是拼接一个是复制下面列举了几种常见用法基本用法表示拼接第一位第二位表示复制 4 a 等同于 a a a a 所以 13 1 b1 就表示将13个1拼接起来即13 b1111111111111 拼接语法详
学习总结——按下按键灯亮，再次按下按键，灯灭

按键控制灯的亮灭 1 主要实现按键控制灯的亮灭按键按下灯亮再次按下灯灭主要对实现的逻辑进行控制逻辑清晰很简单实现的方法有两种方法1 将按键按下的值赋值给一个变量变量除以2的值的是基数或者偶数来确定灯亮还是灯灭程序中设置
堆栈对比

https www cnblogs com guoxiaoyan p 8664150 html
STL — Set/Multiset容器

1 1 Set容器基本概念 Set的特性是所有元素都会根据元素的键值自动被排序 Set的元素不像map那样可以同时拥有实值和键值 set的元素即是键值又是实值 set不允许两个元素有相同的键值我们可以通过set的迭代器改变set元素的值
POI解析word\pdf中表格

POI解析word\pdf中表格

POI解析word\pdf中表格 的相关文章

随机推荐

热门标签

POI解析word\pdf中表格的相关文章