起因: 近期在工作中发生因jvm内存溢出导致线上应用进程崩溃,导致服务瞬间瘫痪。期间发现集群中每台应用服务器JVM内存使用率高达96%左右,存在瞬间内存打满,导致服务瘫痪情况。 根据经验分析,大概率是由于JVM中存在长期无法回收的(大)对象(此问题属代码本身问题)或瞬间流量激增导致垃圾收集器来不及回收(可调整JVM参数或横向增加服务器)导致。
排查过程: 1.通过命令(jmap -dump:format=b,file=/opt/jvmdump/20220810.dump pid)导出jvm dump文件备用。 2.打开MemoryAnalyzer工具进行分析。此工具需要jdk11或以上版本支持,如果没有jdk11或以上版本,需要安装jdk11或以上版本,并修改MemoryAnalyzer配置 修改MemoryAnalyzer工具的MemoryAnalyzer.ini文件,新增-vm D:/java/jdk-11.0.15.1/bin/javaw.exe,来指定jdk;如果dump文件过大,需要调整初始内存(如-Xmx4g)。记得修改jdk环境变量 MemoryAnalyzer工具下载: https://ftp.yz.yamagata-u.ac.jp/pub/eclipse//mat/1.13.0/rcp/MemoryAnalyzer-1.13.0.20220615-win32.win32.x86_64.zip 3.导入准备好的dump文件到MemoryAnalyzer进行分析。