JAVA中通过poi和pdfbox读取office文件和pdf文件内容

2023-05-16

最近做了个文档管理系统，实现了公司文档资源在线化。因为涉及到全文搜索，所以需要读取文件的内容创建全文索引。

本人通过POI读取的office文件和pdfbox读取的pdf文件内容，具体代码如下：

（1）首先在工程中引入需要的jar包文件。如果项目用的是maven工程则需要在pom.xml文件中添加如下代码：

<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.4</version>
</dependency>

<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi</artifactId>
<version>3.9</version>
</dependency>

<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi-ooxml</artifactId>
<version>3.9</version>
</dependency>

<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi-scratchpad</artifactId>
<version>3.9</version>
</dependency>

（2）读取文件内容代码：

/**
* 读取ppt内容
* @param file
* @return
* @throws IOException
*/
public static String readPPT(String file) throws IOException {
StringBuilder sb = new StringBuilder();
SlideShow ppt = new SlideShow(new HSLFSlideShow(file));
Slide[] slides = ppt.getSlides();
//提取文本信息
for (Slide each : slides) {
TextRun[] textRuns = each.getTextRuns();
for (int i=0 ;i< textRuns.length; i++ ) {
RichTextRun[] richTextRuns = textRuns[i].getRichTextRuns();
for (int j = 0; j < richTextRuns.length; j++) {
sb.append(richTextRuns[j].getText());
}
sb.append("\n");
}
sb.append("\n");
}
return sb.toString();
}

/**
* 读取pptx文件内容
* @param file
* @return
* @throws IOException
* @throws XmlException
* @throws OpenXML4JException
*/

public static String readPPT2007(String file) throws IOException, XmlException, OpenXML4JException {
return new XSLFPowerPointExtractor(POIXMLDocument.openPackage(file)).getText();
}

/**
* 读取xls文件内容
*/
public static String readEXCEL(String file) throws IOException {
StringBuilder content = new StringBuilder();
HSSFWorkbook workbook = new HSSFWorkbook(new FileInputStream(file));// 创建对Excel工作簿文件的引用
for (int numSheets = 0; numSheets < workbook.getNumberOfSheets(); numSheets++) {
if (null != workbook.getSheetAt(numSheets)) {
HSSFSheet aSheet = workbook.getSheetAt(numSheets);// 获得一个sheet
for (int rowNumOfSheet = 0; rowNumOfSheet <= aSheet
.getLastRowNum(); rowNumOfSheet++) {
if (null != aSheet.getRow(rowNumOfSheet)) {
HSSFRow aRow = aSheet.getRow(rowNumOfSheet); // 获得一个行
for (short cellNumOfRow = 0; cellNumOfRow <= aRow
.getLastCellNum(); cellNumOfRow++) {
if (null != aRow.getCell(cellNumOfRow)) {
HSSFCell aCell = aRow.getCell(cellNumOfRow);// 获得列值
if (convertCell(aCell).length() > 0) {
content.append(convertCell(aCell));
}
}
content.append("\n");
}
}
}
}
}
return content.toString();
}

/**
* 读取xlsx
* @param file
* @return
* @throws IOException
*/
public static String readEXCEL2007(String file) throws IOException {
StringBuilder content = new StringBuilder();
XSSFWorkbook workbook = new XSSFWorkbook(file);
for (int numSheets = 0; numSheets < workbook.getNumberOfSheets(); numSheets++) {
if (null != workbook.getSheetAt(numSheets)) {
XSSFSheet aSheet = workbook.getSheetAt(numSheets);// 获得一个sheet
for (int rowNumOfSheet = 0; rowNumOfSheet <= aSheet
.getLastRowNum(); rowNumOfSheet++) {
if (null != aSheet.getRow(rowNumOfSheet)) {
XSSFRow aRow = aSheet.getRow(rowNumOfSheet); // 获得一个行
for (short cellNumOfRow = 0; cellNumOfRow <= aRow
.getLastCellNum(); cellNumOfRow++) {
if (null != aRow.getCell(cellNumOfRow)) {
XSSFCell aCell = aRow.getCell(cellNumOfRow);// 获得列值
if (convertCell(aCell).length() > 0) {
content.append(convertCell(aCell));
}
}
content.append("\n");
}
}
}
}
}
return content.toString();
}

private static String convertCell(Cell cell) {
NumberFormat formater = NumberFormat.getInstance();
formater.setGroupingUsed(false);
String cellValue = "";
if (cell == null) {
return cellValue;
}
switch (cell.getCellType()) {
case HSSFCell.CELL_TYPE_NUMERIC:
cellValue = formater.format(cell.getNumericCellValue());
break;
case HSSFCell.CELL_TYPE_STRING:
cellValue = cell.getStringCellValue();
break;
case HSSFCell.CELL_TYPE_BLANK:
cellValue = cell.getStringCellValue();
break;
case HSSFCell.CELL_TYPE_BOOLEAN:
cellValue = Boolean.valueOf(cell.getBooleanCellValue()).toString();
break;
case HSSFCell.CELL_TYPE_ERROR:
cellValue = String.valueOf(cell.getErrorCellValue());
break;
default:
cellValue = "";
}
return cellValue.trim();
}

/**
* 读取doc文件
* @param file
* @return
* @throws Exception
*/
public static String readWORD(String file) throws Exception {
String returnStr = "";
try {
WordExtractor wordExtractor = new WordExtractor(new FileInputStream(new File(file)));
returnStr = wordExtractor.getText();
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
return returnStr;
}

/**
* 读取docx文件
* @param file
* @return
* @throws Exception
*/
public static String readWORD2007(String file) throws Exception {
return new XWPFWordExtractor(POIXMLDocument.openPackage(file)).getText();
}

/**
* 读取txt文件
* @param file
* @return
* @throws IOException
*/
public static String readTXT(String file) throws IOException {
String encoding = get_charset(new File(file));
if (encoding.equalsIgnoreCase("GBK")) {
return FileUtils.readFileToString(new File(file), "gbk");
} else {
return FileUtils.readFileToString(new File(file), "utf8");
}
}

private static String get_charset(File file) throws IOException {
String charset = "GBK";
byte[] first3Bytes = new byte[3];
BufferedInputStream bis = null;
try {
boolean checked = false;
bis = new BufferedInputStream(new FileInputStream(file));
bis.mark(0);
int read = bis.read(first3Bytes, 0, 3);
if (read == -1)
return charset;
if (first3Bytes[0] == (byte) 0xFF && first3Bytes[1] == (byte) 0xFE) {
charset = "UTF-16LE";
checked = true;
} else if (first3Bytes[0] == (byte) 0xFE
&& first3Bytes[1] == (byte) 0xFF) {
charset = "UTF-16BE";
checked = true;
} else if (first3Bytes[0] == (byte) 0xEF
&& first3Bytes[1] == (byte) 0xBB
&& first3Bytes[2] == (byte) 0xBF) {
charset = "UTF-8";
checked = true;
}
bis.reset();
if (!checked) {
// int len = 0;
int loc = 0;

while ((read = bis.read()) != -1) {
loc++;
if (read >= 0xF0)
break;
if (0x80 <= read && read <= 0xBF) // 单独出现BF以下的，也算是GBK
break;
if (0xC0 <= read && read <= 0xDF) {
read = bis.read();
if (0x80 <= read && read <= 0xBF) // 双字节 (0xC0 - 0xDF)
// (0x80
// - 0xBF),也可能在GB编码内
continue;
else
break;
} else if (0xE0 <= read && read <= 0xEF) {// 也有可能出错，但是几率较小
read = bis.read();
if (0x80 <= read && read <= 0xBF) {
read = bis.read();
if (0x80 <= read && read <= 0xBF) {
charset = "UTF-8";
break;
} else
break;
} else
break;
}
}
// System.out.println( loc + " " + Integer.toHexString( read )
// );
}
} catch (Exception e) {
e.printStackTrace();
} finally {
if (bis != null) {
bis.close();
}
}
return charset;
}

/**
* 读取pdf文件内容
* @param file
* @return
* @throws IOException
*/
public static String readPDF(String file) throws IOException {
String result = null;
FileInputStream is = null;
PDDocument document = null;
try {
is = new FileInputStream(file);
PDFParser parser = new PDFParser(new RandomAccessBuffer(is));
parser.parse();
document = parser.getPDDocument();
PDFTextStripper stripper = new PDFTextStripper();
result = stripper.getText(document);
} finally {
if (is != null) {
is.close();
}
if (document != null) {
document.close();
}
}
return result;
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

JAVA中通过poi和pdfbox读取office文件和pdf文件内容的相关文章

具有默认值的 Java JAX-RS 自定义参数

假设我有这个这只是一个示例 GET Path value address Produces application json public Response getAddress QueryParam user User user 用户是
jvm 次要版本与编译器次要版本

当运行使用具有相同主要版本但次要版本高于 JVM 的 JDK 编译的类时 JVM 会抛出异常吗 JDK 版本并不重要类文件格式版本 http blogs oracle com darcy entry source target class
使用 Java 在 WebDriver 中按 Ctrl+F5 刷新浏览器

我已经使用 java 刷新了 WebDriver 中的浏览器代码如下 driver navigate refresh 如何使用 Java 在 WebDriver 中按 Ctrl F5 来做到这一点我认为您可以使用 WebDriver 和
解决 Java Checkstyle 错误：名称 'logger' 必须匹配模式 '^[A-Z][A-Z0-9]*(_[A-Z0-9]+)*$'

使用 Eclipse Checkstyle 插件我看到以下错误名称 logger 必须匹配模式 A Z A Z0 9 A Z0 9 我通过更改解决了此错误 private static final Logger logger Logger
在哪里可以获得有关 Java FitNesse 和 Slim 的一些教程？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
正则表达式获取字符串中的第一个数字和其他字符

我是正则表达式的新手想知道如何才能只获取字符串中的第一个数字例如100 2011 10 20 14 28 55 在这种情况下我希望它返回100 但该数字也可以更短或更长我在想类似的事情 0 9 但它单独获取每个数字 100 2001
JTable 和 JScrollpane 大小的问题

我有一个JScrollPane with a JTable在里面在里面JTable我最初有 3 行稍后添加行默认JTable我的 3 行很难看因为JScrollPane calls getPreferredScrollableVie
如何在 Eclipse 中使用其他外部 jar 依赖项创建不可运行/不可执行的 jar

我无法通过 Eclipse 导出向导创建普通的 jar 不可运行不可执行它仅创建 jar 文件但不会导出依赖的 jar 从而在从其他类调用导出的 jar 的方法时出现错误请帮助非常感谢 kurellajunior的建议它是通过使
从 @JsonProperty 值获取枚举常量

我有一个标有 JsonProperty 的枚举用于使用 Jackson 进行 JSON 序列化反序列化并且希望获取给定字符串 JsonProperty 的枚举值 public enum TimeBucket JsonProperty
异步迭代器

我有以下代码 while slowIterator hasNext performLengthTask slowIterator next 由于迭代器和任务都很慢因此将它们放入单独的线程中是有意义的这是对迭代器包装器的快速而肮脏的尝试
在 IntelliJ 中运行 Spring Boot 会导致 Unable to load 'javax.el.ExpressionFactory'

我正在尝试运行一个简单的 Spring Boot 应用程序该应用程序具有以下 Maven pom file
我想在java中使用XQuery进行Xml处理

我想用XQuery用于从 java 中的 Xml 获取数据但我没有得到需要为此添加哪个 Jar 我在谷歌上搜索了很多但没有得到任何有用的例子例如我得到以下链接 https docs oracle com database 121 AD
当您在数组列表上调用remove(object o)时，它如何比较对象？

当您在 java 中的数组列表上调用remove object o 时它如何比较对象以找到要删除的正确对象它使用指针吗或者它使用 Comparable 接口来比较对象吗 ArrayList remove 依赖于对象的实现Equal方法
创建正则表达式匹配数组

在Java中我试图将所有正则表达式匹配返回到一个数组但似乎您只能检查模式是否匹配某些内容布尔值如何使用正则表达式匹配来形成与给定字符串中的正则表达式匹配的所有字符串的数组 4城堡的回答 https stackoverflow com
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
使用 secp256r1 曲线和 SHA256 算法生成 ECDSA 签名 - BouncyCastle

我正在尝试使用带有 secp256r1 曲线 P256 的 ECDSA 和用于消息哈希的 SHA256 算法生成签名我也在使用 Bouncy Castle 库下面的代码 public class MyTest param args pu
使用 JAD 反编译 java - 限制

我正在尝试使用 Java 中的 JAD 反编译几个 jar 文件我也尝试过 JD GUI 但运气更差但出现了很多错误一种类型易于修复似乎是内部类但我也发现了这段代码 static int SWITCH TABLE atp com
春季 CORS。在允许的来源中添加模式

查看CORS的弹簧指南以下代码启用所有允许的来源 public class MyWebMVCConfigurer extends WebMvcConfigurerAdapter Override public void addCorsMa
为什么范围为“provided”的依赖项会隐藏 Maven 中的传递依赖项？

我的 Maven 项目中有三个模块这稍微简化了 model包含JPA注释的实体类坚持实例化一个实体管理器并调用它的方法应用创建类的实例model 设置一些值并将它们传递给坚持 model and 坚持显然取决于javax persis
如何捕获 try-with-resource 语句中 close 方法抛出的异常

我正在读关于try with resourceJava 中的语句可用于指定任意数量的资源 try Resource1 res1 initialize code Resource1 res2 initialize code statement

随机推荐

通过Nginx反向代理实现IP访问分流

根据特定IP来实现分流将IP地址的最后一段最后一位为0或2或6的转发至test 01 com来执行 xff0c 否则转发至test 02 com来执行 upstream test 01 com server 192 168 1 100 8
nginx map 妙用

worker processes auto stream map remote addr dynamic backend 02468 34 test1 34 ip最后一位是偶数 13579 34 test2 34 ip最后一位是奇数一个正
shell脚本通过mysql获取数据

数据库查询结果 xff0c 结果为每行从左到右每个单元格为一行 xff08 首行为SQL查询结果的列名 xff09 数组默认分割符号是空格 xff0c 当查询结果中包含空格字符时 xff0c 会导致一个字段被分割开 xff0c 例如 xff
Activemq Artemis jmx使用

1 修改目录 mybroker etc broker xml 修改 lt name gt myartemis lt name gt 后面会用加入2行 lt jmx management enabled gt true lt jmx ma
SpringBoot设置mysql的ssl连接

因工作需要 xff0c mysql连接需要开启ssl认证 xff0c 本文主要讲述客户端如何配置ssl连接 SpringBoot xff1a 2 0 5 RELEASEmysql connector java xff1a 8 0 18mys
ThinkPHP URL路由解析

ThinkPHP是国内非常火的一个轻量级框架 xff0c 采用MVC模式 xff0c 结构写的非常好 xff0c 今天大象带大家走一下ThinkPHP框架系统运行流程 xff0c 我将跟随ThinkPHP的执行进行代码讲解 xff0c
【gRPC】双向认证下grpc-gateway原理及简单使用

文章目录前言一 grpc gateway原理二环境准备三服务端改造四总结前言在上一篇文章自签CA 服务端和客户端双向认证中 xff0c 我们了解了双向认证并进行了实践 xff0c 本篇文章将基于双向认证 xff0c 使用gRPC
php 装饰模式

lt php abstract class component public abstract function operation class concretecomponent extends component public func
Beyond Compare在Mac OS系统下永久试用

亲测可用一原理 Beyond Compare每次启动后会先检查注册信息 xff0c 试用期到期后就不能继续使用解决方法是在启动前 xff0c 先删除注册信息 xff0c 然后再启动 xff0c 这样就可以永久免费试用了二下载首先
RSA加密解密（PHP Demo）

private key 61 39 BEGIN RSA PRIVATE KEY MIICXQIBAAKBgQDpoODVtnSztGyb p 43 g Ob36jb3jzWzS2qovOjpY rrTjwlVcQ pB2m1nZDQNpTF
【Pandas】优化读取文件内存占用过大的问题

编写于2022 11 6 1 内存占用计算做了个小实验 xff0c 发现pandas读取文件时 xff0c 内存占用是真的高 xff1a span class token keyword import span sys span clas
springboot+chatgpt+chatUI Pro开发智能聊天工具

应广大网友要求 xff0c 也为了节约大家的时间现为大家奉献上源码下载地址 xff1a https download csdn net download xiangyuanhong08 87708197源码下载后在IDEA导入项目后自己修改
dockerfile指令解析

Dockerfile 是一个文本文件 xff0c 其内包含了一条条的指令 Instruction xff0c 用于构建镜像指令集描述FROM指定基础镜像 xff0c 必须为第一个命令MAINTAINER维护者信息RUN构建镜像 docke
openEuler社区人才评定考试流程指引

最近因为公司工作的需要参加考试了openEuler社区人才评定考试 xff0c 本次考试题型主要包括单选多选判断三类题型考试内容基本都是操作系统使用相关的内容考试需要注意事项 xff1a 1 考试为线上答题考试 xff0c 需开启摄
spire.doc 让java操作word文档更简单优雅

Spire Doc for Java 是一款专业的 Java Word 组件 xff0c 开发人员使用它可以轻松地将 Word 文档创建读取编辑转换和打印等功能集成到自己的 Java 应用程序中作为一款完全独立的组件 xff0c S
jodconverter 2.2.2 +openoffice4.0 doc转换成pdf

一环境 linux下安装openoffice 1 首先先下载好需要的rpm包 xff1a Apache OpenOffice 4 0 0 Linux x86 64 install rpm zh CN tar gz 或直接命令下载 xff1
JAVA和PHP版CAS客户端集成

一背景随着公司的不断的发展壮大和公司信息的建设逐步完善 xff0c 公司内部系统也在不断的增加 xff0c 为避免公司员工因系统过多造成账号密码混乱或忘记密码情况公司决定将公司内部系统进行统一登录管理通过CAS实现公司内部业务系统
【gRPC】批量操作、服务端、客户端、双向流介绍及使用案例

文章目录前言服务端准备一传统批量操作方式二服务端流三客户端流四双向流前言在之前的文章中 xff0c 我们通常的做法都是客户端请求服务端响应的模式 xff0c 客户端收集好所有的请求信息 xff0c 发送到服务端 xff0c
JAVA中文件下载和文件批量下载方法

JAVA中的文件下载文件下载 64 param request 64 param response 64 param filePath 文件路径 64 param filename 下载时文件名称 public static void d
JAVA中通过poi和pdfbox读取office文件和pdf文件内容

最近做了个文档管理系统 xff0c 实现了公司文档资源在线化因为涉及到全文搜索 xff0c 所以需要读取文件的内容创建全文索引本人通过POI读取的office文件和pdfbox读取的pdf文件内容 xff0c 具体代码如下 xff1a

JAVA中通过poi和pdfbox读取office文件和pdf文件内容

JAVA中通过poi和pdfbox读取office文件和pdf文件内容 的相关文章

随机推荐

热门标签

JAVA中通过poi和pdfbox读取office文件和pdf文件内容的相关文章