大文件上传并进行md5校验过程中遇到的问题，复制InputStream导致内存溢出

2023-11-08

最近因为一个项目需求，需要支持上传文件，并且在上传的过程中通过流式的方式生成md5校验码，然后好需要利用这个输入流来生成本地预览文件，而InputStrream是只能读一次的，并不能重复读，所以在这里就需要进行流的复制。

解释一下，fileUpload是自定义的文件Model实体。

  // 生产文件md5校验码，并且复制fileUpload.getInputStream(),否则inputStream只能读取一次
        HashMap<String, Object> map = CopyStreamUtils.copyInputStream(fileUpload.getInputStream());
        
        // 因为之前已经被读取了，需要重新设置inputStream
        fileUpload.setInputStream((InputStream) map.get("inputStream"));
        String MD5Code = (String) map.get("md5");
   
        System.out.println("MD5校验码为------" + MD5Code);

CopyStreamUtils主要是用来复制流和生产md5校验码，一边复制一边生产，减少资源的消耗。（其实不能拿来当工具类，杂交了复制流和生产md5的功能QAQ）

public class CopyStreamUtils {

	/**
	 * @param inputStream
	 * @return
	 */
	public static HashMap<String, Object> copyInputStream(InputStream inputStream) {
		
		/* 
		 * 	因为inputStream只能读取一次，
		 * 	所以将其进行复制
		 * 	复制方法是通过定义一个byteArrayOutputStream
		 * 	然后将byteArrayOutputStream转化为InputStream
		 * 	但是这样存在一个问题，就是当文件比较大的时候，会出现内存溢出
		 * 	将jvm参数调整也效果不佳
		 * 	所以解决方案为采用分段的方法，将原本的inputStream分成很多小的inputStream
		 * 	然后通过SequenceInputStream进行合并输入流
		 * 	合并后的SequenceInputStream和原来的输入流相同，达到复制的效果
		 * */
		
		ByteArrayOutputStream baos = null;

		// 每次读取1024字节
		byte[] buffer = new byte[1024];
		int readNum ;
		
		// 定义一个Vector，用来存储分段后的小的InputStream,最后用于构造SequenceInputStream和并流
		Vector<InputStream> streams = new Vector<InputStream>();
		
		/*   为提高效率，在此处进行流处理的时候，直接进行md5校验码的生成，节省资源         */
		String MD5String = "";
		InputStream sequenceInputStream = null;
		
		try {
			while ((readNum = inputStream.read(buffer)) > -1) {
				baos = new ByteArrayOutputStream();
				baos.write(buffer, 0, readNum);
			
				// 更新md5校验码的输入流
				Md5Utils.updateFileMD5String(buffer, readNum);
				
				
				// 分段的复制inputStream，每次将新产生的小段流与原来的合并
				streams.add(new ByteArrayInputStream(baos.toByteArray()));
				
				/* 不同于其他输出流，二进制流无法通过flush进行刷新，
				 * 所以只能通过close之后再重新new来充值二进制流
				 * */
				baos.close();
			}
			
			// 生成md5校验码
			MD5String = Md5Utils.getFileMD5String() ;
			// 通过之前的分段的小的inputStream进行构造合并流
			Enumeration<InputStream> e = streams.elements();
			sequenceInputStream = new SequenceInputStream(e);
			
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}

		HashMap<String, Object> map = new HashMap<String, Object>();
		map.put("md5", MD5String);
		map.put("inputStream", sequenceInputStream);
		
		return map;
	}

生产文件的md5校验码，本来直接通过输入流就行，但是考虑到需要上面的复制流，就增加了一个updateFileMD5String方法来更新文件的输入流，然后将所有字节进行生成校验。

public class Md5Utils {

	private static final Logger logger = LoggerFactory.getLogger(Md5Utils.class);

	protected static char[] hexDegists = { '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e',
			'f' };

	protected static MessageDigest md5 = null;

	static {
		try {
			md5 = MessageDigest.getInstance("MD5");
		} catch (NoSuchAlgorithmException nsae) {
			// TODO: handle exception
			logger.info(Md5Utils.class.getName() + "初始化失败，MessageDigest不支持md5!");
			nsae.printStackTrace();
		}
	}

	/**
	 * 获取md5校验码
	 * @param inputStream
	 * @return
	 * @throws IOException
	 */
	public static String getFileMD5String(java.io.InputStream inputStream) throws IOException {

		// 每次读取1024字节
		byte[] buffer = new byte[1024];
		int readNum = 0;

		while ((readNum = inputStream.read(buffer)) > 0) {
			md5.update(buffer, 0, readNum);
		}
		inputStream.close();

		return bufferToHex(md5.digest());
	}

	/**
	 * 更新需要校验的文件输入流
	 * @param bs
	 * @return
	 * @throws IOException
	 */
	public static void updateFileMD5String(byte[] bs, int readNum) throws IOException {
		// 每次读取bs字节，更新MD5输入流
		md5.update(bs, 0, readNum);
	}

	/**
	 * 返回md5校验码
	 * @return
	 * @throws IOException
	 */
	public static String getFileMD5String() throws IOException {
		return bufferToHex(md5.digest());
	}

	private static String bufferToHex(byte[] bytes) {
		return bufferToHex(bytes, 0, bytes.length);
	}

	private static String bufferToHex(byte[] bytes, int m, int n) {
		StringBuffer stringBuffer = new StringBuffer(n * 2);
		int k = m + n;
		for (int i = m; i < k; i++) {
			appendHexPair(bytes[i], stringBuffer);
		}

		return stringBuffer.toString();
	}

	private static void appendHexPair(byte bt, StringBuffer stringBuffer) {
		// 取字节中高四位进行转换
		char ch0 = hexDegists[(bt & 0xf0) >> 4];
		// 取字节中低四位进行转换
		char ch1 = hexDegists[(bt & 0xf)];

		stringBuffer.append(ch0);
		stringBuffer.append(ch1);
	}
}

接下来说一说遇到的坑，为了完成复制流，最开始是全部将InputStream全部通过ByteArrayOutputStream来转储，然后通过ByteArrayOutputStream.toByteArray()方法转化为byte，通过InputStream（byte[] byte）构造新的输入流，从而达到复制流的效果。这样的做法适合比较小的文件，当文件比较大（我自己这边测试的是上传600M的文件）就会出现内存溢出，网上查了很多才知道不应把所有的byte都存在内存中。所以想要分段写入，或者刷新ByteArrayOutputStream，

刚开始的时候用输出流的flush方法，但是一直没用（这个坑了我好久），后面才知道字节流无法flush刷新。所以只能通过最蠢笨的办法，每次都close掉字节流，然后读下一个缓冲区的时候重新new，结果成功。

最后通过合并流SequenceInputStream将每一小段inputStream合并成一个完整的输入流。从而达到复制流的效果。

其实最开始用的是common.io的copyInputStreamToFile（InputStream,File），但是老大说要改，然后就折腾了一天。。。。。。。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

大文件上传并进行md5校验过程中遇到的问题，复制InputStream导致内存溢出的相关文章

ElasticBeanstalk Java，Spring 活动配置文件

我正在尝试通过 AWS ElasticBeanstalk 启动 spring boot jar 一切正常配置文件为默认有谁知道如何为 java ElasticBeanstalk 应用程序不是 tomcat 设置活动配置文件 spri
AES 加密 Java/plsql

我需要在Java和plsql DBMS CRYPTO for Oracle 10g 上实现相同的加密解密应用程序两种实现都工作正常但这里的问题是我对相同纯文本的加密得到了不同的输出下面是用于加密解密过程的代码 Java 和 PLS
如何测试 JUnit 测试的 Comparator？

我需要测试 Compare 方法但我对如何测试感到困惑我可以看看该怎么做吗 public class MemberComparator implements Comparator
ExceptionConverter：java.io.IOException：文档没有页面。我正在使用 iText

当我执行下面的代码时 File f new File c sample pdf PdfWriter getInstance document new FileOutputStream f document open System out p
在数据流模板中调用 waitUntilFinish() 后可以运行代码吗？

我有一个批处理 Apache Beam 作业它从 GCS 获取文件作为输入我的目标是根据执行后管道的状态将文件移动到两个 GCS 存储桶之一如果管道执行成功则将文件移动到存储桶 A 否则如果管道在执行过程中出现任何未处理的异常则
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
当分配给变量时，我可以以某种方式重用 Gremlin GraphTraversals 代码吗？

我有看起来像这样的 GraphTraversals attrGroup GraphTraversal
OnClick 事件中的 finish() 如何工作？

我有一个Activity一键退出Activity 通过layout xml我必须设置OnClick事件至cmd exit调用 this finish 效果很好 public void cmd exit View editLayout thi
请求位置更新参数

这就是 requestLocationUpdates 的样子我使用它的方式 requestLocationUpdates String provider long minTime float minDistance LocationLis
迁移到 java 17 后有关“每个进程的内存映射”和 JVM 崩溃的 GC 警告

我们正在将 java 8 应用程序迁移到 java 17 并将 GC 从G1GC to ZGC 我们的应用程序作为容器运行这两个基础映像之间的唯一区别是 java 的版本例如对于 java 17 版本 FROM ubuntu 20 04
在具有相同属性名称的不同数据类型上使用 ModelMapper

我有两节课说Animal AnimalDto我想用ModelMapper将 Entity 转换为 DTO 反之亦然但是对于具有相似名称的一些属性这些类应该具有不同的数据类型我该如何实现这一目标动物 java public class
检查 protobuf 消息 - 如何按名称获取字段值？

我似乎无法找到一种方法来验证 protobuf 消息中字段的值而无需显式调用其 getter 我看到周围的例子使用Descriptors FieldDescriptor实例到达消息映射内部但它们要么基于迭代器要么由字段号驱动一旦我有
将多模块 Maven 项目导入 Eclipse 时出现问题 (STS 2.5.2)

我刚刚花了最后一个小时查看 Stackoverflow com 上的线程尝试将 Maven 项目导入到 Spring ToolSuite 2 5 2 中 Maven 项目有多个模块当我使用 STS 中的 Import 向导导入项目时所
Tomcat 6找不到mysql驱动

这里有一个类似的问题但关于类路径 ClassNotFoundException com mysql jdbc Driver https stackoverflow com questions 1585811 classnotfoundex
使用 SAX 进行 XML 解析 |如何处理特殊字符？

我们有一个 JAVA 应用程序可以从 SAP 系统中提取数据解析数据并呈现给用户使用 SAP JCo 连接器提取数据最近我们抛出了一个异常 org xml sax SAXParseException 字符引用是无效的 XML 字符
Springs 元素“beans”不能具有字符 [children]，因为该类型的内容类型是仅元素

我在 stackoverflow 中搜索了一些页面来解决这个问题确实遵循了一些正确的答案但不起作用我是春天的新人对不起这是我的调度程序 servlet
android Accessibility-service 突然停止触发事件

我有一个 AccessibilityService 工作正常但由于开发过程中的某些原因它停止工作我似乎找不到这个原因请看一下我的代码并告诉我为什么它不起作用 public class MyServicee extends Access
KeyPressed 和 KeyTyped 混淆[重复]

这个问题在这里已经有答案了我搜索过之间的区别KeyPressedand KeyTyped事件但我仍然不清楚我发现的一件事是 Keypressed 比 KeyTyped 首先被触发请澄清一下这些事件何时被准确触发哪个适合用于哪个目的
java8 Collectors.toMap() 限制？

我正在尝试使用java8Collectors toMap on a Stream of ZipEntry 这可能不是最好的想法因为在处理过程中可能会发生异常但我想这应该是可能的我现在收到一个我不明白的编译错误我猜是类型推理引擎这是
Swagger/Openapi-Annotations：如何使用 $ref 生成 allOf？

我正在生成 Rest 端点包括添加OpenAPI Swagger对生成的代码进行注释虽然它对于基本类型运行得很好但我在自定义类方面遇到了一些问题现在我有很多自定义类的重复架构条目使用 Schema 实现 MyClass class

随机推荐

不能在slot上绑定和触发事件

在 slot 上进行事件的监听和分发这是不可能的组件的 slot 由调用它的父组件提供这意味着所有事件都应该与父组件相关联尝试去倾听这些变化意味着你的父子组件是紧密耦合的可以使用 parent 来操作 div div
5.1广度优先遍历的递归与迭代实现；

队列先进先出的性质符合广度优先遍历时一层一层的遍历逻辑 lc102 102 二叉树的层序遍历 107 二叉树的层次遍历II 199 二叉树的右视图 637 二叉树的层平均值 429 N叉树的层序遍历 515 在每个树行中找最大值 11
谭铁牛：人工智能找风口不如找关口

不过我们不能光打打嘴炮如何克服困难和挑战让人工智能帮到你的工作你的事业呢让我们将李开复的演讲内容再结合一个实例来给大家解释一下现在假设你是一个程序员虽然哥也是一媒体人但黑起自己的行业来是丝毫不会手软的假设你现在是一家媒
Python库

库名称简介 Chardet字符编码探测器可以自动检测文本网页 xml的编码 colorama主要用来给文本添加各种颜色并且非常简单易用 Prettytable主要用于在终端或浏览器端构建格式化的输出 difflib Python 标准
openwrt添加自己的应用程序（SDK下编译模块）出现的问题

openwrt 版本 15 05 CC 最近在openwrt里面想编写一个串口的读写程序没想到会出现以下问题 1 编译的时候以下为网友遇到的问题 Package helloworld is missing dependencies fo
GetProcAddress()方法返回NULL值的问题

使用动态加载的方式使用动态库 loadlibrary 成功加载动态库之后使用GetProcAddress 方法得到函数指针却返回空值使用GetLastError 方法得到错误代码127 出现此错误的原因一般是要加载的函数名称与动态库中函
外部中断原理

外部中断当CPU正在按主程序运行时外部发生了紧急事件向CPU发送中断请求来优先处理紧急事件当CPU处理完紧急事件后再继续从主程序断开的地方运行程序发出中断请求的源称为中断源不同的中断源具有不同的优先级别当CPU同时接收到多个中
C++实现WebSocket简单服务器

参考链接链接1 链接2 链接3 WebSocket简介 WebSocket是一种在单个TCP连接上进行全双工通信的协议 WebSocket使得客户端和服务器之间的数据交换变得更加简单允许服务端主动向客户端推送数据在WebSocket
javaday09面向对象---简单谈

Java day09 面向对象一成员变量和局部变量的区别局部变量是没有默认值的还有一个是 4 内存的位置不同 5 生命周期不同二内存图形参为引用类型时继续执行调用function 压栈执行以前说的是数组是引用类型现在要
Boost建模与仿真 1MW设计

这里讲一下BOOST电路从建模到系统实现为了方便DSP移植性所以采用离散仿真加s function C代码编写的程序 Boost 电路设计主要仿真功率为1MW的Boost电路主回路拓扑 Boost硬件参数选型电容C 50000uf
Error: Cannot find module ‘@/views/xxx‘ at webpackEmptyContext

从开源平台上面 clone 一个vue 项目时登陆后一直报找不到相对应的 module 搜了很多后面终于解决 export const loadView view gt return gt import views view 改成如下
（Java）leetcode-85 Maximal Rectangle（最大矩形）

题目描述给定一个仅包含 0 和 1 的二维二进制矩阵找出只包含 1 的最大矩形并返回其面积示例输入 1 0 1 0 0 1 0 1 1 1 1 1 1 1 1 1 0 0 1 0 输出 6 思路整理自windliang的题解思路
深入理解数据结构——堆栈应用（背包体积）

include
2023年天津市逆向re3.exe解析（超详细）

2023年天津市逆向re3 exe解析 1 拖进IDA里进行分析 2 动态调试过程省略了 3 解密加密算法 4 输入FLAG 回显成功 1 拖进IDA里进行分析打开后是这么一个程序直接找到main函数f5反编译即可这里要注意程序第一
修改sql2000服务器ip地址,SQL Server 2000故障转移群集如何更改ip地址

直接在群集管理器的sql server ip address属性中更改后本机连接没有问题但其他机器和应用程序使用ip地址或服务器名都连不上从微软网站上查到正确方法应该是 Change the IP addresses of SQL
【深度学习】如果在loss.backward()之前不使用optimizer.zero_grad()会发生什么事情

在使用optimizer step 更新模型参数之前我们需要使用optimizer zero grad 清除之前计算的梯度信息这是因为PyTorch默认会累加梯度如果不清除的话会导致梯度信息累积使得模型参数更新不准确因此我们需
C++学习笔记-宏（define），类型定义符（typedef），Using，内联函数（inline），指针常量和常量指针的区别与联系

宏 define 类型定义符 typedef 内联函数 inline 的区别与联系宏 define define 程序编译的四个阶段条件编译 tydedef typedef和 define之间的区别指针常量和常量指针 using 内联
Crontab计划任务

Crontab计划任务原文地址 https blog csdn net u012852374 article details 53892880 Crontab定义 Crontab是一个用于设置周期性被执行的任务的工具被周期性执行的任务我
git commit压缩

第一步通过命令 git log 查看提交记录第二步执行变基git rebase i HEAD
大文件上传并进行md5校验过程中遇到的问题，复制InputStream导致内存溢出

最近因为一个项目需求需要支持上传文件并且在上传的过程中通过流式的方式生成md5校验码然后好需要利用这个输入流来生成本地预览文件而InputStrream是只能读一次的并不能重复读所以在这里就需要进行流的复制解释一下 fileU

大文件上传并进行md5校验过程中遇到的问题，复制InputStream导致内存溢出

大文件上传并进行md5校验过程中遇到的问题，复制InputStream导致内存溢出 的相关文章

随机推荐

热门标签

大文件上传并进行md5校验过程中遇到的问题，复制InputStream导致内存溢出的相关文章