ES:一次分片设计问题导致的故障

2023-11-07

### 现象:

1. 单节点CPU持续高

 2.写入骤降

3.线程池队列积压,但没有reject

 4.使用方没有记录日志

### 排查

1.ES监控

只能看到相应的结果指标,无法反应出原因。

2.ES日志:大量日志打印相关异常(routate等调用栈)

core.appender.OutputStreamManager.writeToDestination(OutputStreamManager.java:263)
at org.apache.logging.log4j.core.appender.FileManager.writeToDestination

3.查询CPU的使用,GET _nodes/hot_threads

35.3% (176.7ms out of 500ms) cpu usage by thread 'elasticsearch[xxxxx-es-hot2-13][write][T#10]'
     10/10 snapshots sharing following 179 elements
       app//org.elasticsearch.action.support.replication.TransportReplicationAction$AsyncPrimaryAction.runWithPrimaryShardReference(TransportReplicationAction.java:433)
       app//org.elasticsearch.action.support.replication.TransportReplicationAction$AsyncPrimaryAction.lambda$doRun$0(TransportReplicationAction.java:374)
       app//org.elasticsearch.action.support.replication.TransportReplicationAction$AsyncPrimaryAction$$Lambda$3657/0x0000000800d2f440.accept(Unknown Source)
       app//org.elasticsearch.action.ActionListener$1.onResponse(ActionListener.java:61)
       app//org.elasticsearch.index.shard.IndexShard.lambda$wrapPrimaryOperationPermitListener$14(IndexShard.java:2588)
       app//org.elasticsearch.index.shard.IndexShard$$Lambda$3659/0x0000000800d2fc40.accept(Unknown Source)
       app//org.elasticsearch.action.ActionListener$1.onResponse(ActionListener.java:61)
       app//org.elasticsearch.index.shard.IndexShardOperationPermits.acquire(IndexShardOperationPermits.java:273)
       app//org.elasticsearch.index.shard.IndexShardOperationPermits.acquire(IndexShardOperationPermits.java:240)
       app//org.elasticsearch.index.shard.IndexShard.acquirePrimaryOperationPermit(IndexShard.java:2563)
       app//org.elasticsearch.action.support.replication.TransportReplicationAction.acquirePrimaryOperationPermit(TransportReplicationAction.java:996)
       app//org.elasticsearch.action.support.replication.TransportReplicationAction$AsyncPrimaryAction.doRun(TransportReplicationAction.java:370)





....



35.0% (174.7ms out of 500ms) cpu usage by thread 'elasticsearch[xxxxxx-es-hot2-13][write][T#5]'
     5/10 snapshots sharing following 216 elements
       app//org.apache.logging.log4j.core.layout.TextEncoderHelper.encodeChunkedText(TextEncoderHelper.java:146)
       app//org.apache.logging.log4j.core.layout.TextEncoderHelper.encodeText(TextEncoderHelper.java:58)
       app//org.apache.logging.log4j.core.layout.StringBuilderEncoder.encode(StringBuilderEncoder.java:68)
       app//org.apache.logging.log4j.core.layout.StringBuilderEncoder.encode(StringBuilderEncoder.java:32)
       app//org.apache.logging.log4j.core.layout.PatternLayout.encode(PatternLayout.java:220)
       app//org.apache.logging.log4j.core.layout.PatternLayout.encode(PatternLayout.java:58)
       app//org.apache.logging.log4j.core.appender.AbstractOutputStreamAppender.directEncodeEvent(AbstractOutputStreamAppender.java:177)
       app//org.apache.logging.log4j.core.appender.AbstractOutputStreamAppender.tryAppend(AbstractOutputStreamAppender.java:170)
       app//org.apache.logging.log4j.core.appender.AbstractOutputStreamAppender.append(AbstractOutputStreamAppender.java:161)
       app//org.apache.logging.log4j.core.config.AppenderControl.tryCallAppender(AppenderControl.java:156)
       app//org.apache.logging.log4j.core.config.AppenderControl.callAppender0(AppenderControl.java:129)
       app//org.apache.logging.log4j.core.config.AppenderControl.callAppenderPreventRecursion(AppenderControl.java:120)
       app//org.apache.logging.log4j.core.config.AppenderControl.callAppender(AppenderControl.java:84)

“CPU高” 和写入、日志打印相关,无法获取更详细的信息,且由于瞬时抓取,也并不非常精准。

4.火焰图

大致确认和日志相关。

5. 根据以往经验,可能和单分片doc数量限制相关

6.继续搜索日志,确认是单分片超过限制

2023-08-21 02:31:10,215 elasticsearch[xxxx-es-hot2-13][write][T#1] ERROR Recovering from StringBuilderEncoder.encode('[2023-08-21T02:31:10,201][DEBUG][o.e.a.b.TransportShardBulkAction] [xxxxx-es-hot2-13][cp0001001_2023_08][0] failed to execute bulk item (index) index {[xxxxx001_2023_08][event_xxx][xxxxxxxxx], source[{"id":"9f61ef55-0334-4363-9bcf-xxxx","rowkey":"xxxxxxd83ce110","column01":"1007922682","datachangelasttime":1692584511322,"column19":"xxx","column20":"80,295",xxx.......}]}
2023-08-21T02:31:10.237858677Z java.lang.IllegalArgumentException: number of documents in the index cannot exceed 2147483519

### 处理

删除索引重建,并设计好分片

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

ES:一次分片设计问题导致的故障 的相关文章

随机推荐

  • c语言实现读取csv文件,并对数据进行分析。

    总代码 c在这里插入代码片 include
  • 深度度量学习(DML)中pair-based方法中的loss

    文章目录 前言 一 Constrative loss 1 二 Triplet loss 2 Offline and online triplet mining 参考 三 Lifted Structure Loss 四 N pairs los
  • CUSUM算法学习+小实例

    说明 本文为个人搜集理解 并非全面 CUSUM Cumulative Sum Control Chart 累积和 一种先进的统计方法 她利用当前的和最近的过程数据来检验过程均值中不大的变化或变异性 CUSUM代表偏离目标值得变差的 累积和
  • Flutter学习之旅(二)常用的Flutter的基础组件介绍

    前言 为了能更快的创建一个好看的应用 Flutter提供了一系列的组件 有基础组件 Basics Widgets 质感组件 Material Components 等 本篇将介绍常用的基础组件 目录 看到上面的目录 从事Android开发的
  • 看完这篇 教你玩转渗透测试靶机Vulnhub——DriftingBlues-5

    Vulnhub靶机DriftingBlues 5渗透测试详解 Vulnhub靶机介绍 Vulnhub靶机下载 Vulnhub靶机漏洞详解 信息收集 暴力破解 ssh登入 KDBX文件密码爆破 定时提权 获取flag Vulnhub靶机渗透总
  • 设计模式之生成器模式

    将一个复杂对象的创建和它的表示分离 使得同样的创建过程可以有不同的表示 应用场景 一水杯工厂要生产各式各样的水杯 无论杯子是神马造型 但都包括绳子 帽子和杯体 以此模型创建各种类型的杯子 类图 cup类 public class Cup p
  • 数据仓库和数据库

    数据库 1 数据库面向事务设计 属于OLTP 在线事务处理 系统 主要操作是随机读 写 2 在设计时尽量避免冗余 常采用符合范式规范来设计 范式分为第一范式 第二范式 第三范式 一般要求符合第三范式 较为符合人的逻辑思维 3 数据库一般存储
  • Leetcode 33. Search in Rotated Sorted Array

    题目描述 将有序数组打乱 然后从中查找一个数据的下标 Suppose an array sorted in ascending order is rotated at some pivot unknown to you beforehand
  • TensorFlow在人脸识别中的应用-人脸检测

    参考 1 TensorFlow技术解析与实战 2 http blog csdn net tmosk article details 78087122 3 https www cnblogs com libinggen p 7786901 h
  • 去除 element-ui 中 Dialog 对话框遮罩层的方法

    在使用element ui的Dialog时 默认会有遮罩层 想要去除遮罩层 官方文档给出了 modal 属性 modal 是一个布尔值 表示是否需要遮罩层 然而 将 modal 赋值为 false 时并不生效 这里官方文档也给出了提示 当
  • Python入门项目——飞机大战

    文章目录 项目描述 Pygame 安装 Windows 平台下安装 Linux 平台安装 开始编写项目 创建 pygame 窗口 设置背景色 创建设置类 添加飞船图像 创建 Ship 类 在屏幕上绘制飞船 重构 模块 game func 函
  • openwrt路由器的各种常用小指令

    df h 看磁盘容量使用情况 du h 看当前目录下文件 包含子目录 df i 看磁盘文件数量使用情况 cat sys class net eth1 operstate 可以查看有线网线是否接上 扫描WiFi iwpriv ra0 set
  • BME/BMP280环境传感器、MLX90614红外测温传感器、HX711称重模块

    Mixly 是由北师大米思齐团队开发的图形化编程软件 自发布以来深受国内创客圈的喜爱 Mixly 编程软件采用图形化编程 不用记代码 只需要拖拽 简单设置 就能让你快速完成创意电子编程 本专栏系列课程由裘炯涛老师主讲 从基础入门到逐步提升
  • 数字货币即将面世 蹭“数字货币”热度套路频现

    随着央行数字人民币逐步在北京 上海等地进入测试阶段 数字货币在我国呼之欲出 与此同时 相关谣言或虚假信息也层出不穷 蹭 数字货币 热度的常见套路都有哪些 一起来看看 在网上签到学习就能提现 近日 某非法平台宣称 该平台系国家为大力发展数字货
  • 循序渐进,学会用pyecharts绘制玫瑰图

    循序渐进 学会用pyecharts绘制玫瑰图 玫瑰图简介 玫瑰图全称南丁格尔玫瑰图 是英国护士和统计学家弗罗伦斯 南丁格尔发明的 又名为极区图 南丁格尔自己常昵称这类图为鸡冠花图 coxcomb 用以表达军医院季节性的死亡率 提供给那些不太
  • adb install 多个设备时指定设备

    在emulator 5554模拟器上安装ebook apk adb s emulator 5554 install ebook apk 在真机上安装ebook apk adb s HT9BYL904399 install ebook apk
  • 可孚医疗:「最懂互联网」的医疗器械企业是如何炼成的?

    如果说钉钉在过去的标签是软件 是低代码 那么在医疗这个赛道里 这些标签已经不足以成为钉钉价值的侧写 除了固有标签之外 在可孚医疗的场景里 钉钉可以连接 可以成为智能BI 也更可以做到内外部协同等 作者 皮爷 出品 产业家 1000分 打开可
  • GetX项目级实战

    在使用了 Provider 一年后 遇到了很多阻力 期间尝试过 BLoC MobX 均不如意 一个样本代码太多 使用复杂 一个生产代码要等很久 难道 Flutter 就没有诸如原生 Android 的 jetpack 套装一样方便的套件吗
  • Cyclic Components CodeForces - 977E(找简单环)

    先求连通块 再看是不是所有连通块的点的度数为2 如果是那就是简单环 只不过我觉得我这个代码时间复杂度还是挺高的 虽然这题没啥问题 不过我看有他人是一遍用dfs找环 一遍判断找到环时的那个点的度数是不是2 AC代码 include
  • ES:一次分片设计问题导致的故障

    现象 1 单节点CPU持续高 2 写入骤降 3 线程池队列积压 但没有reject 4 使用方没有记录日志 排查 1 ES监控 只能看到相应的结果指标 无法反应出原因 2 ES日志 大量日志打印相关异常 routate等调用栈 core a