记一次线程爆满导致服务器崩溃的问题排查

2023-11-10

问题介绍:
测试服务器突然无法连接,ssh登录不上。只有重启才能解决。重启一天后,又连接不上了。
于是有了下面的排查过程,最终发现是有个java程序一直在创建线程,导致线程达到服务器最大数量,服务器崩溃。

1. 重启服务器

重启后,ssh连接发现下面问题
fork faild:Cannot allocate memory
在这里插入图片描述
以为是内存满了
于是,free -h,查看内存情况,还有,观察一段时间后,内存没多大变化
在这里插入图片描述

2. 修改最大线程数

经过各种百度,都说可以通过修改服务器的最大线程数来解决,于是我也这么干了。当时做的时候没有截图,所以下面截图是网上找的,凑合看看。

  • 查看最大进程数 sysctl kernel.pid_max

在这里插入图片描述

  • ps -eLf | wc -l查看 进 程数

在这里插入图片描述

  • 修改最大 进 程数后系统恢复

echo 1000000 > /proc/sys/kernel/pid_max

  • 永久生效

echo "kernel.pid_max=1000000 " >> /etc/sysctl.conf
sysctl -p

3. 查找线程最大的java程序

上一步扩大了线程数量后,感觉有点不对,因为之前没有这么配置都可以正常运行,为什么突然服务器挂了呢?肯定是有程序在作怪。
于是决定找出占用线程最多的程序。回顾最近几天,服务器中只部署了几个springboot程序。问题一定出在它们之中。

查看线程数量前20的java程序
ps -Lef |awk ‘{sum[$2]++}END{for(pid in sum) print pid, sum[pid]}’|sort -nr -k 2|head -n 20

[root@se-test-lky01 ~]# ps -Lef |awk '{sum[$2]++}END{for(pid in sum) print pid, sum[pid]}'|sort -nr -k 2|head -n 20
16074 3100
31386 1226
20120 1072
19548 985
9697 829
3005 796
641 344
19016 324
16924 315
17870 300
6417 293
8351 171
7332 168
18259 167
19821 161
16311 157
18433 151
18048 136
14347 104
2559 100

观察一段时间后,发现进程id为16074的java程序的线程数不断增长。

4. 导出问题程序的线程日志

[root@se-test-lky01 ~]#jstack 16074 >thread_dump.log

分析日志,发现下面情况,线程数量不断增加,代码位置在FtpMonitorProcess.java:85

"Thread-4655" #4774 prio=5 os_prio=0 tid=0x00007f84aa2fe000 nid=0xd408b waiting for monitor entry [0x00007f802b704000]
   java.lang.Thread.State: BLOCKED (on object monitor)
	at cn.cloudwalk.bat.util.http.FtpUtil.connect(FtpUtil.java:246)
	- waiting to lock <0x00000006c09c1888> (a java.lang.Class for cn.cloudwalk.bat.util.http.FtpUtil)
	at cn.cloudwalk.bat.schedule.ftp.process.FtpMonitorProcess$1.run(FtpMonitorProcess.java:85)
	at java.lang.Thread.run(Thread.java:748)

"Thread-4654" #4773 prio=5 os_prio=0 tid=0x00007f84aa2fc000 nid=0xd408a waiting for monitor entry [0x00007f802b805000]
   java.lang.Thread.State: BLOCKED (on object monitor)
	at cn.cloudwalk.bat.util.http.FtpUtil.connect(FtpUtil.java:246)
	- waiting to lock <0x00000006c09c1888> (a java.lang.Class for cn.cloudwalk.bat.util.http.FtpUtil)
	at cn.cloudwalk.bat.schedule.ftp.process.FtpMonitorProcess$2.run(FtpMonitorProcess.java:114)
at java.lang.Thread.run(Thread.java:748)

5. 找到问题代码

发现这个方法每次被调用就会创建一个新的线程。而这个方法是被定时任务调用的,每10秒调用一次。
问题就出在ftp没有配置,所以线程内执行ftp操作时,线程阻塞,没能释放。若ftp可用,则不会出现线程阻塞问题。
这就是问题根源。

	private void listDeviceFiles() {
		
		new Thread(new Runnable() {
			@Override
			public void run() {
				logger.debug("开始获取[ftp-设备]文件...");
				try {
					String workDir = ftpConfig.getWorkdir();
					// 连接
					FTPClient ftpClient = FtpUtil.connect(ftpConfig);
					ftpClient.changeWorkingDirectory(workDir);
					ftpClient.changeWorkingDirectory(SubscribeDataTypeEnum.DEVICE_INFO.getKey().toString());
					FTPFile[] files = ftpClient.listFiles();
					for(FTPFile file : files) {
						decomposeFile(file,ftpClient);
					}
					ftpClient.logout();
				} catch (Exception e) {
					logger.error("ftp获取文件名出错:" + e.getMessage());
				}
			}
		}).start();
	}

6. 解决方案

不建议手动创建线程,改用使用线程池。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

记一次线程爆满导致服务器崩溃的问题排查 的相关文章

  • 如何将列表转换为地图?

    最近我和一位同事讨论了转换的最佳方式是什么List to Map在 Java 中 这样做是否有任何具体的好处 我想知道最佳的转换方法 如果有人可以指导我 我将非常感激 这是个好方法吗 List
  • Eclipse 自动完成更改变量名称

    只是一个愚蠢的问题 但很难搜索 因为有很多关于 Eclipse 自动完成的主题 而且很难找到与我的问题匹配的内容 所以问题是 如果我写 MyClass MyVarName 然后按空格键 添加 new MyClass Eclipse 自动添加
  • 使用 java 的 RAR 档案 [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • 在 Java 中填充布尔数组

    作为一名相当新手的 Java 程序员 我给自己设定了一个艰巨的挑战 尝试编写一个简单的文本冒险 不出所料 我已经遇到了困难 我试图为我的 Location 类提供一个属性来存储它包含的退出 我为此使用了一个布尔数组 本质上保存代表每个出口的
  • Java byte[] 与 String 之间的转换

    为什么这个junit测试失败了 import org junit Assert import org junit Test import java io UnsupportedEncodingException public class T
  • 适用于 Solaris 的 Java 8 中缺少 javaws

    看起来 Oracle 从 Java 8 for Solaris 中删除了 Java Web Start javaws 在 Java 8u51 中不再可用 来自兼容性指南 http www oracle com technetwork jav
  • Web 应用程序的带宽和流量模拟器?

    您能否建议如何创建一个测试环境来模拟 Web 应用程序中的各种类型的带宽和流量 或者也许是一个针对本地主机执行此操作的开源程序 我认为在编写网络应用程序时这是一个非常重要的主题 但这不是一个常见的主题 我能想象创建这种环境的唯一方法是在本地
  • X11 模式对话框

    如何使用 Xlib 在 X11 中创建模式对话框 模态对话框是一个位于应用程序其他窗口之上的窗口 就像瞬态窗口一样 并且拒绝将焦点给予应用程序的其他窗口 在 Windows 中 当试图从模态窗口夺取焦点时 模态也会通过闪 烁模态窗口的标题栏
  • Jodatime 日期格式

    是否可以格式化 JodaTime 日期 这是代码 private static LocalDate priorDay LocalDate date1 do date1 date1 plusDays 1 while date1 getDayO
  • 无法在 64 位 Linux 上从汇编 (yasm) 代码调用 C 标准库函数

    我有一个函数foo以汇编语言编写 并在 Linux Ubuntu 64 位上使用 yasm 和 GCC 编译 它只是使用以下命令将消息打印到标准输出puts 如下所示 bits 64 extern puts global foo secti
  • 在Java中使用BufferedWriter写入文件时监视文件大小?

    我正在将一个可能很长的项目列表写入文件 我正在写的项目的长度是可变的 如果生成的文件大小大于10M 则应将其分成多个文件 为了提高性能 我目前使用 BufferedWriter 如下所示 final FileOutputStream fos
  • java.lang.UnsupportedOperationException:无法解析索引 13 处的属性:TypedValue{t=0x2/d=0x7f010046 a=-1}

    我在 android attrs xml 文件中添加了一个用于不同色调的属性 在 styles xml 文件中 我为这些属性指定了颜色 因此每种样式的它们都不同 Attrs xml
  • PyPI 上的轮子平台约束有什么限制吗?

    是否有任何地方 PEP 或其他地方 声明关于 Linux 轮子上传范围的限制 PyPI http pypi io 应该有 具体来说 上传是否被认为是可接受的做法linux x86 64轮子到 PyPI 而不是manylinux1 x86 6
  • 处理照片上传的最佳方式是什么?

    我正在为一个家庭成员的婚礼制作一个网站 他们要求的一个功能是一个照片部分 所有客人都可以在婚礼结束后前往并上传他们的照片 我说这是一个很棒的想法 然后我就去实现它 那么只有一个问题 物流 上传速度很慢 现代相机拍摄的照片很大 2 5 兆 我
  • JSP 和 scriptlet

    我知道现在使用 scriptlet 被认为是禁忌 没关系 我会同意Top Star的话 因为我目前只是Java新手 到目前为止我听到的是 它是为了让设计师的生活更轻松 但我想知道 这是否与JSP页面的性能有关 另一方面 如果只是为了 让设计
  • 如何隐藏或删除 Android HoneyComb 中的状态栏?

    如何隐藏或删除 Android HoneyComb 中的状态栏 每次运行应用程序时 我都会发现某些内容必须被状态栏覆盖 我尝试改变AndroidManifest xml 但没有任何改变 你不知道 它被认为是永久的屏幕装饰 就像电容式主页 菜
  • linux下写入后崩溃

    如果我使用 write 将一些数据写入磁盘上的文件会发生什么 但我的应用程序在刷新之前崩溃了 如果没有系统故障 是否可以保证我的数据最终会刷新到磁盘 如果您正在使用write 并不是fwrite or std ostream write 那
  • Java,如何管理线程读取socket(websocket)?

    我有一个 WebSocket 服务器 我的服务器创建一个新线程来处理新连接 该线程一直处于活动状态 直到 websocket 中断 我的问题 对于 1 000 000 个连接 我需要 1 000 000 个线程 我如何通过一个线程处理多个
  • 线程“main”中出现异常 java.lang.UnsatisfiedLinkError: ... \jzmq.dll: 找不到依赖库

    我有一个使用 ZMQ 的 java 应用程序 我已经能够在我的 Win7 PC 上运行它 我将 jzmq dll 放在 jar 可执行文件所在的同一文件夹中 然后通过命令 java jar myapp jar 运行它 我的下一步是将其移至服
  • 使用 Hibernate 防止无限循环数据检索

    我想知道 想象一个场景 例如 POJO public class User private String userName private String name private String surname private List

随机推荐

  • httpclient下载文件

    private static CloseableHttpClient client static PoolingHttpClientConnectionManager connectionManager new PoolingHttpCli
  • 抓httpclient发送的http请求包

    1 使用fiddler或者Charles抓不到httpclient发送的http请求包 2 需要使用以下代码 HttpHost proxy new HttpHost 127 0 0 1 8888 http 127 0 0 1 8888地址为
  • 大数据:HDFS的Shell常用命令操作

    文章目录 一 HDFS的Shell介绍 二 HDFS常用命令操作 01 创建目录 1 创建单层目录 3 创建多层目录 02 查看目录 03 上传本地文件到HDFS 04 查看文件内容 05 下载HDFS文件到本地 06 删除HDFS文件 0
  • char、varchar、nchar、nvarchar的区别

    对于程序中的string型字段 SQLServer中有char varchar nchar nvarchar四种类型来对应 暂时不考虑text和ntext 开建立数据库中 对这四种类型往往比较模糊 这里做一下对比 定长或变长 所谓定长就是长
  • 阿里巴巴面试总结:测试工程师

    阿里巴巴的面试是网上预约的时间 武汉一共有两天 五号和六号 原先是担心自己准备的不够充分 就把时间往后面移 最后定的是六号的下午四点半到六点的场 基本也就是武汉的最后一场 后来才发现 武汉可以说的上是全国比较晚面试的了 而今年马云又放出了风
  • 自然语言处理面试34题:NLP面试考点,精准详尽解析

    篇幅有限 本文不会把每一题的参考答案都加载出来 会摘出一些摘要 完整解析见题库 添加老师微信 julyedukefu14 回复 6 领取最新升级版 名企AI面试100题 电子书 1 了解Google最新的模型bert么 Google AI
  • 天空图立方体贴图转化为辐照度立方体贴图

    创建立方体贴图 注意 立方体贴图的大小决定被转化的辐照度贴图的精度 irradianceCubeMap new CubeMap 32 调用 CubeMap CubeMap int CubeSize CubeSize CubeSize ini
  • 一文带你读懂聚类

    1 聚类思想 作为无监督学习的一个重要方法 聚类是将样本集D划分为若干互不相交的子集 即样本簇 聚类的思想就是把属性相似的样本归到一类 对于每一个数据点 我们可以把它归到一个特定的类 同时每个类之间的所有数据点在某种程度上有着共性 比如空间
  • 写给程序员的机器学习入门 (四) - 训练过程中常用的技巧

    人工智能学习离不开实践的验证 推荐大家可以多在FlyAI AI竞赛服务平台多参加训练和竞赛 以此来提升自己的能力 FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台 每周免费提供项目开源算法样例 支持算法能力变现以及快
  • python手机端下载-Python3,x:如何进行手机APP的数据爬取

    Python3 x 如何进行手机APP的数据爬取 一 简介 平时我们的爬虫多是针对网页的 但是随着手机端APP应用数量的增多 相应的爬取需求也就越来越多 因此手机端APP的数据爬取对于一名爬虫工程师来说是一项必备的技能 我们知道 网页爬取的
  • SQLI-LABS Less-17

    Update 数据库更新注入 具体情况 具体分析 函数 check input 对 uname 进行检查 从 uname 处是无法注入了 而对 passwd 进行了更新 可以利用这个 updata 进行注入 注意 这里必须的 uname 必
  • 因为计算机中丢失VCRUNTIME140怎么办?为什么会丢失VCRUNTIME140.dll

    vcruntime140 dll是一个Windows动态链接库 其主要功能是为C C 编译的程序提供运行时支持 这个库在Microsoft Visual Studio 2015中被引入 其名称中的 140 代表版本号 在我们打开运行软件或者
  • MySQL的索引类型和实现原理

    一 按表列属性分类 1 单列索引 以表的单个列字段创建的索引 2 联合索引 以表的多个列字段组合创建的索引 在查询条件使用索引的从左字段顺序才会生效 遵循最左匹配原则 单列索引和联合索引又包括 普通索引 非主键 非唯一列的索引 主键索引 基
  • 计蒜客T1115——字符串判等

    水题不解释 考研复习压力偶尔写一道换换心情还不错 这里有一个比较有趣的知识点 对于同时输入多个字符串时还要允许空格的输入 那么普通的cin函数就不能满足要求了 这里采用getline函数解决 如下 string s1 s2 getline
  • Docker基本命令使用——(1)

    Docker常用命令 docker images 列出本地主机上的镜像 a 列出本地所有的镜像 含中间映像层 q 只显示镜像ID digests 显示镜像的摘要信息 no trunc 显示完整的镜像信息 docker search xxx
  • 3000帧动画图解MySQL为什么需要binlog、redo log和undo log

    全文建立在MySQL的存储引擎为InnoDB的基础上 先看一条SQL如何入库的 这是一条很简单的更新SQL 从MySQL服务端接收到SQL到落盘 先后经过了MySQL Server层和InnoDB存储引擎 Server层就像一个产品经理 分
  • produces在@requestMapping中的使用方式和作用

    转载自 https blog csdn net jaryle article details 72965885 produces可能不算一个注解 因为什么呢 它是注解 requestMapping注解里面的属性项 它的作用是指定返回值类型
  • 1787.使所有区间的异或结果为零

    题意 给你一个整数数组 nums 和一个整数 k 区间 left right left lt right 的 异或结果 是对下标位于 left 和 right 包括 left 和 right 之间所有元素进行 XOR 运算的结果 nums
  • ROS 仿真

    欢迎访问我的博客首页 ROS仿真 1 依赖与官方包 参考 1 依赖与官方包 我们需要一些 ROS 官方给出的包 可以使用 apt 命令安装 也可以下载源码编译 编译这些包需要用到的依赖及其安装方法是 sudo apt get install
  • 记一次线程爆满导致服务器崩溃的问题排查

    记一次线程爆满导致服务器崩溃的问题排查 1 重启服务器 2 修改最大线程数 3 查找线程最大的java程序 4 导出问题程序的线程日志 5 找到问题代码 6 解决方案 问题介绍 测试服务器突然无法连接 ssh登录不上 只有重启才能解决 重启