大文件上传并进行md5校验过程中遇到的问题,复制InputStream导致内存溢出

2023-11-08

最近因为一个项目需求,需要支持上传文件,并且在上传的过程中通过流式的方式生成md5校验码,然后好需要利用这个输入流来生成本地预览文件,而InputStrream是只能读一次的,并不能重复读,所以在这里就需要进行流的复制。

解释一下,fileUpload是自定义的文件Model实体。

  // 生产文件md5校验码,并且复制fileUpload.getInputStream(),否则inputStream只能读取一次
        HashMap<String, Object> map = CopyStreamUtils.copyInputStream(fileUpload.getInputStream());
        
        // 因为之前已经被读取了,需要重新设置inputStream
        fileUpload.setInputStream((InputStream) map.get("inputStream"));
        String MD5Code = (String) map.get("md5");
   
        System.out.println("MD5校验码为------" + MD5Code);

CopyStreamUtils主要是用来复制流和生产md5校验码,一边复制一边生产,减少资源的消耗。(其实不能拿来当工具类,杂交了复制流和生产md5的功能QAQ)

public class CopyStreamUtils {

	/**
	 * @param inputStream
	 * @return
	 */
	public static HashMap<String, Object> copyInputStream(InputStream inputStream) {
		
		/* 
		 * 	因为inputStream只能读取一次,
		 * 	所以将其进行复制
		 * 	复制方法是通过定义一个byteArrayOutputStream
		 * 	然后将byteArrayOutputStream转化为InputStream
		 * 	但是这样存在一个问题,就是当文件比较大的时候,会出现内存溢出
		 * 	将jvm参数调整也效果不佳
		 * 	所以解决方案为采用分段的方法,将原本的inputStream分成很多小的inputStream
		 * 	然后通过SequenceInputStream进行合并输入流
		 * 	合并后的SequenceInputStream和原来的输入流相同,达到复制的效果
		 * */
		
		ByteArrayOutputStream baos = null;

		// 每次读取1024字节
		byte[] buffer = new byte[1024];
		int readNum ;
		
		// 定义一个Vector,用来存储分段后的小的InputStream,最后用于构造SequenceInputStream和并流
		Vector<InputStream> streams = new Vector<InputStream>();
		
		/*   为提高效率,在此处进行流处理的时候,直接进行md5校验码的生成,节省资源         */
		String MD5String = "";
		InputStream sequenceInputStream = null;
		
		try {
			while ((readNum = inputStream.read(buffer)) > -1) {
				baos = new ByteArrayOutputStream();
				baos.write(buffer, 0, readNum);
			
				// 更新md5校验码的输入流
				Md5Utils.updateFileMD5String(buffer, readNum);
				
				
				// 分段的复制inputStream,每次将新产生的小段流与原来的合并
				streams.add(new ByteArrayInputStream(baos.toByteArray()));
				
				/* 不同于其他输出流,二进制流无法通过flush进行刷新,
				 * 所以只能通过close之后再重新new来充值二进制流
				 * */
				baos.close();
			}
			
			// 生成md5校验码
			MD5String = Md5Utils.getFileMD5String() ;
			// 通过之前的分段的小的inputStream进行构造合并流
			Enumeration<InputStream> e = streams.elements();
			sequenceInputStream = new SequenceInputStream(e);
			
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}

		HashMap<String, Object> map = new HashMap<String, Object>();
		map.put("md5", MD5String);
		map.put("inputStream", sequenceInputStream);
		
		return map;
	}

生产文件的md5校验码,本来直接通过输入流就行,但是考虑到需要上面的复制流,就增加了一个updateFileMD5String方法来更新文件的输入流,然后将所有字节进行生成校验。

public class Md5Utils {

	private static final Logger logger = LoggerFactory.getLogger(Md5Utils.class);

	protected static char[] hexDegists = { '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e',
			'f' };

	protected static MessageDigest md5 = null;

	static {
		try {
			md5 = MessageDigest.getInstance("MD5");
		} catch (NoSuchAlgorithmException nsae) {
			// TODO: handle exception
			logger.info(Md5Utils.class.getName() + "初始化失败,MessageDigest不支持md5!");
			nsae.printStackTrace();
		}
	}

	/**
	 * 获取md5校验码
	 * @param inputStream
	 * @return
	 * @throws IOException
	 */
	public static String getFileMD5String(java.io.InputStream inputStream) throws IOException {

		// 每次读取1024字节
		byte[] buffer = new byte[1024];
		int readNum = 0;

		while ((readNum = inputStream.read(buffer)) > 0) {
			md5.update(buffer, 0, readNum);
		}
		inputStream.close();

		return bufferToHex(md5.digest());
	}

	/**
	 * 更新需要校验的文件输入流
	 * @param bs
	 * @return
	 * @throws IOException
	 */
	public static void updateFileMD5String(byte[] bs, int readNum) throws IOException {
		// 每次读取bs字节,更新MD5输入流
		md5.update(bs, 0, readNum);
	}

	/**
	 * 返回md5校验码
	 * @return
	 * @throws IOException
	 */
	public static String getFileMD5String() throws IOException {
		return bufferToHex(md5.digest());
	}

	private static String bufferToHex(byte[] bytes) {
		return bufferToHex(bytes, 0, bytes.length);
	}

	private static String bufferToHex(byte[] bytes, int m, int n) {
		StringBuffer stringBuffer = new StringBuffer(n * 2);
		int k = m + n;
		for (int i = m; i < k; i++) {
			appendHexPair(bytes[i], stringBuffer);
		}

		return stringBuffer.toString();
	}

	private static void appendHexPair(byte bt, StringBuffer stringBuffer) {
		// 取字节中高四位进行转换
		char ch0 = hexDegists[(bt & 0xf0) >> 4];
		// 取字节中低四位进行转换
		char ch1 = hexDegists[(bt & 0xf)];

		stringBuffer.append(ch0);
		stringBuffer.append(ch1);
	}
}

 

接下来说一说遇到的坑,为了完成复制流,最开始是全部将InputStream全部通过ByteArrayOutputStream来转储,然后通过ByteArrayOutputStream.toByteArray()方法转化为byte,通过InputStream(byte[] byte)构造新的输入流,从而达到复制流的效果。这样的做法适合比较小的文件,当文件比较大(我自己这边测试的是上传600M的文件)就会出现内存溢出,网上查了很多才知道不应把所有的byte都存在内存中。所以想要分段写入,或者刷新ByteArrayOutputStream,

      刚开始的时候用输出流的flush方法,但是一直没用(这个坑了我好久),后面才知道字节流无法flush刷新。所以只能通过最蠢笨的办法,每次都close掉字节流,然后读下一个缓冲区的时候重新new,结果成功。

    最后通过合并流SequenceInputStream将每一小段inputStream合并成一个完整的输入流。从而达到复制流的效果。

 

其实最开始用的是common.io的copyInputStreamToFile(InputStream,File),但是老大说要改,然后就折腾了一天。。。。。。。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

大文件上传并进行md5校验过程中遇到的问题,复制InputStream导致内存溢出 的相关文章

随机推荐

  • 不能在slot上绑定和触发事件

    在 slot 上进行事件的监听和分发 这是不可能的 组件的 slot 由调用它的父组件提供 这意味着所有事件都应该与父组件相关联 尝试去倾听这些变化意味着你的父子组件是紧密耦合的 可以使用 parent 来操作 div div
  • 5.1广度优先遍历的递归与迭代实现;

    队列先进先出的性质 符合 广度优先遍历时 一层一层的遍历逻辑 lc102 102 二叉树的层序遍历 107 二叉树的层次遍历II 199 二叉树的右视图 637 二叉树的层平均值 429 N叉树的层序遍历 515 在每个树行中找最大值 11
  • 谭铁牛:人工智能 找风口不如找关口

    不过我们不能光打打嘴炮 如何克服困难和挑战 让人工智能帮到你的工作 你的事业呢 让我们将李开复的演讲内容 再结合一个实例 来给大家解释一下 现在 假设你是一个程序员 虽然哥也是一媒体人 但黑起自己的行业来是丝毫不会手软的 假设你现在是一家媒
  • Python库

    库名称简介 Chardet字符编码探测器 可以自动检测文本 网页 xml的编码 colorama主要用来给文本添加各种颜色 并且非常简单易用 Prettytable主要用于在终端或浏览器端构建格式化的输出 difflib Python 标准
  • openwrt添加自己的应用程序(SDK下编译模块)出现的问题

    openwrt 版本 15 05 CC 最近在openwrt里面想编写一个串口的读写程序 没想到会出现以下问题 1 编译的时候 以下为网友遇到的问题 Package helloworld is missing dependencies fo
  • GetProcAddress()方法返回NULL值的问题

    使用动态加载的方式使用动态库 loadlibrary 成功加载动态库 之后使用GetProcAddress 方法得到函数指针却返回空值 使用GetLastError 方法得到错误代码127 出现此错误的原因一般是要加载的函数名称与动态库中函
  • 外部中断原理

    外部中断 当CPU正在按主程序运行时 外部发生了紧急事件 向CPU发送中断请求来优先处理紧急事件 当CPU处理完紧急事件后再继续从主程序断开的地方运行程序 发出中断请求的源称为中断源 不同的中断源具有不同的优先级别 当CPU同时接收到多个中
  • C++实现WebSocket简单服务器

    参考链接 链接1 链接2 链接3 WebSocket简介 WebSocket是一种在单个TCP连接上进行全双工通信的协议 WebSocket使得客户端和服务器之间的数据交换变得更加简单 允许服务端主动向客户端推送数据 在WebSocket
  • javaday09面向对象---简单谈

    Java day09 面向对象 一 成员变量和局部变量的区别 局部变量是没有默认值的 还有一个是 4 内存的位置不同 5 生命周期不同 二 内存图 形参为引用类型时 继续执行 调用function 压栈执行 以前说的是数组是引用类型 现在要
  • Boost建模与仿真 1MW设计

    这里讲一下BOOST电路从建模到系统实现 为了方便DSP移植性 所以采用离散仿真加s function C代码编写的程序 Boost 电路设计 主要仿真功率为1MW的Boost电路 主回路拓扑 Boost硬件参数选型 电容C 50000uf
  • Error: Cannot find module ‘@/views/xxx‘ at webpackEmptyContext

    从开源平台上面 clone 一个vue 项目时 登陆后 一直报找不到相对应的 module 搜了很多 后面终于解决 export const loadView view gt return gt import views view 改成如下
  • (Java)leetcode-85 Maximal Rectangle(最大矩形)

    题目描述 给定一个仅包含 0 和 1 的二维二进制矩阵 找出只包含 1 的最大矩形 并返回其面积 示例 输入 1 0 1 0 0 1 0 1 1 1 1 1 1 1 1 1 0 0 1 0 输出 6 思路整理自windliang的题解 思路
  • 深入理解数据结构——堆栈应用(背包体积)

    include
  • 2023年天津市逆向re3.exe解析(超详细)

    2023年天津市逆向re3 exe解析 1 拖进IDA里进行分析 2 动态调试 过程省略了 3 解密加密算法 4 输入FLAG 回显成功 1 拖进IDA里进行分析 打开后是这么一个程序 直接找到main函数f5反编译即可 这里要注意程序第一
  • 修改sql2000服务器ip地址,SQL Server 2000故障转移群集如何更改ip地址

    直接在群集管理器的sql server ip address属性中更改后 本机连接没有问题 但其他机器和应用程序使用ip地址或服务器名都连不上 从微软网站上查到 正确方法应该是 Change the IP addresses of SQL
  • 【深度学习】如果在loss.backward()之前不使用optimizer.zero_grad()会发生什么事情

    在使用optimizer step 更新模型参数之前 我们需要使用optimizer zero grad 清除之前计算的梯度信息 这是因为PyTorch默认会累加梯度 如果不清除的话 会导致梯度信息累积 使得模型参数更新不准确 因此 我们需
  • C++学习笔记-宏(define),类型定义符(typedef),Using,内联函数(inline),指针常量和常量指针的区别与联系

    宏 define 类型定义符 typedef 内联函数 inline 的区别与联系 宏 define define 程序编译的四个阶段 条件编译 tydedef typedef和 define之间的区别 指针常量和常量指针 using 内联
  • Crontab计划任务

    Crontab计划任务 原文地址 https blog csdn net u012852374 article details 53892880 Crontab定义 Crontab是一个用于设置周期性被执行的任务的工具 被周期性执行的任务我
  • git commit压缩

    第一步 通过命令 git log 查看提交记录 第二步 执行变基git rebase i HEAD
  • 大文件上传并进行md5校验过程中遇到的问题,复制InputStream导致内存溢出

    最近因为一个项目需求 需要支持上传文件 并且在上传的过程中通过流式的方式生成md5校验码 然后好需要利用这个输入流来生成本地预览文件 而InputStrream是只能读一次的 并不能重复读 所以在这里就需要进行流的复制 解释一下 fileU