Kubernetes Prometheus CrashLoopBackOff / OOMKilled 谜题

2024-04-03

我定期看到容器状态：已终止 - OOMKilled（退出代码：137）

但调度到内存充足的节点

$ k get statefulset -n metrics 
NAME                      READY   AGE
prometheus                0/1     232d


$ k get po -n metrics
prometheus-0  1/2     CrashLoopBackOff   147        12h

$ k get events  -n metrics
LAST SEEN   TYPE      REASON    OBJECT             MESSAGE
10m         Normal    Pulled    pod/prometheus-0   Container image "prom/prometheus:v2.11.1" already present on machine
51s         Warning   BackOff   pod/prometheus-0   Back-off restarting failed container


k logs -f prometheus-0 -n metrics --all-containers=true

level=warn ts=2020-08-22T20:48:02.302Z caller=main.go:282 deprecation_notice="'storage.tsdb.retention' flag is deprecated use 'storage.tsdb.retention.time' instead."
level=info ts=2020-08-22T20:48:02.302Z caller=main.go:329 msg="Starting Prometheus" version="(version=2.11.1, branch=HEAD, revision=e5b22494857deca4b806f74f6e3a6ee30c251763)"
level=info ts=2020-08-22T20:48:02.302Z caller=main.go:330 build_context="(go=go1.12.7, user=root@d94406f2bb6f, date=20190710-13:51:17)"
level=info ts=2020-08-22T20:48:02.302Z caller=main.go:331 host_details="(Linux 4.14.186-146.268.amzn2.x86_64 #1 SMP Tue Jul 14 18:16:52 UTC 2020 x86_64 prometheus-0 (none))"
level=info ts=2020-08-22T20:48:02.302Z caller=main.go:332 fd_limits="(soft=1048576, hard=1048576)"
level=info ts=2020-08-22T20:48:02.303Z caller=main.go:333 vm_limits="(soft=unlimited, hard=unlimited)"
level=info ts=2020-08-22T20:48:02.307Z caller=main.go:652 msg="Starting TSDB ..."
level=info ts=2020-08-22T20:48:02.307Z caller=web.go:448 component=web msg="Start listening for connections" address=0.0.0.0:9090
level=info ts=2020-08-22T20:48:02.311Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1597968000000 maxt=1597975200000 ulid=01EG7FAW5PE9ARVHJNKW1SJXRK
level=info ts=2020-08-22T20:48:02.312Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1597975200000 maxt=1597982400000 ulid=01EG7P6KDPXPFVPSMBXBDF48FQ
level=info ts=2020-08-22T20:48:02.313Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1597982400000 maxt=1597989600000 ulid=01EG7X2ANPN30M8ET2S8EPGKEA
level=info ts=2020-08-22T20:48:02.314Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1597989600000 maxt=1597996800000 ulid=01EG83Y1XPXRWRRR2VQRNFB37F
level=info ts=2020-08-22T20:48:02.314Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1597996800000 maxt=1598004000000 ulid=01EG8ASS5P9J1TBZW2P4B2GV7P
level=info ts=2020-08-22T20:48:02.315Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1598004000000 maxt=1598011200000 ulid=01EG8HNGDXMYRH0CGWNHKECCPR
level=info ts=2020-08-22T20:48:02.316Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1598011200000 maxt=1598018400000 ulid=01EG8RH7NPHSC5PAGXCMN8K9HE
level=info ts=2020-08-22T20:48:02.317Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1598018400000 maxt=1598025600000 ulid=01EG8ZCYXNABK8FD3ZGFSQ9NGQ
level=info ts=2020-08-22T20:48:02.317Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1598025600000 maxt=1598032800000 ulid=01EG968P5T7SJTVDCZGN6D5YW2
level=info ts=2020-08-22T20:48:02.317Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1598032800000 maxt=1598040000000 ulid=01EG9D4DDPR9SE62C0XNE0Z64C
level=info ts=2020-08-22T20:48:02.318Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1598040000000 maxt=1598047200000 ulid=01EG9M04NYMAFACVCMDD2RF11W
level=info ts=2020-08-22T20:48:02.319Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1598047200000 maxt=1598054400000 ulid=01EG9TVVXNJ7VCDXQNNK2BTZAE
level=info ts=2020-08-22T20:48:02.320Z caller=repair.go:59 component=tsdb msg="found healthy block" mint=1598054400000 maxt=1598061600000 ulid=01EGA1QK5PHHZ6P6TNPHDWSD81

k describe statefulset prometheus -n metrics
Name:               prometheus
Namespace:          metrics
CreationTimestamp:  Fri, 03 Jan 2020 04:33:58 -0800
Selector:           app=prometheus
Labels:             <none>
Annotations:        <none>
Replicas:           1 desired | 1 total
Update Strategy:    RollingUpdate
  Partition:        824644121032
Pods Status:        1 Running / 0 Waiting / 0 Succeeded / 0 Failed
Pod Template:
  Labels:           app=prometheus
  Annotations:      checksum/config: 6982e2d83da89ab6fa57e1c2c8a217bb5c1f5abe13052a171cd8d5e238a40646
  Service Account:  prometheus
  Containers:
   prometheus-configmap-reloader:
    Image:      jimmidyson/configmap-reload:v0.1
    Port:       <none>
    Host Port:  <none>
    Args:
      --volume-dir=/etc/prometheus
      --webhook-url=http://localhost:9090/-/reload
    Environment:  <none>
    Mounts:
      /etc/prometheus from prometheus (ro)
   prometheus:
    Image:      prom/prometheus:v2.11.1
    Port:       9090/TCP
    Host Port:  0/TCP
    Args:
      --config.file=/etc/prometheus/prometheus.yml
      --web.enable-lifecycle
      --web.enable-admin-api
      --storage.tsdb.path=/prometheus/data
      --storage.tsdb.retention=1d
    Limits:
      memory:     1Gi
    Liveness:     http-get http://:9090/-/healthy delay=180s timeout=1s period=120s #success=1 #failure=3
    Environment:  <none>
    Mounts:
      /etc/prometheus from prometheus (rw)
      /etc/prometheus-alert-rules from prometheus-alert-rules (rw)
      /prometheus/data from prometheus-data-storage (rw)
  Volumes:
   prometheus:
    Type:      ConfigMap (a volume populated by a ConfigMap)
    Name:      prometheus
    Optional:  false
   prometheus-alert-rules:
    Type:      ConfigMap (a volume populated by a ConfigMap)
    Name:      prometheus-alert-rules
    Optional:  false
Volume Claims:
  Name:          prometheus-data-storage
  StorageClass:  prometheus
  Labels:        <none>
  Annotations:   <none>
  Capacity:      20Gi
  Access Modes:  [ReadWriteOnce]
Events:          <none>

可能是什么原因？

我定期看到容器状态：已终止 - OOMKilled（退出代码：137）

但调度到内存充足的节点

正如您可能已经看到的，很明显您使用的内存超过了配置的 1GB。答案可能在于您如何使用 Prometheus 以及 1GB 的使用限制。您可以查看一些内容：

时间序列数
每个时间序列的平均标签
唯一标签对的数量
刮擦间隔（秒）
每个样本的字节数

你可以找一个内存计算器来实现上面的用法????here https://www.robustperception.io/how-much-ram-does-prometheus-2-x-need-for-cardinality-and-ingestion.

✌️

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Kubernetes

Prometheus

amazoneks

prometheusoperator

Kubernetes Prometheus CrashLoopBackOff / OOMKilled 谜题的相关文章

kubernetes POD IP什么时候会改变？

我正在尝试将一个整体应用程序移植到 k8s pod 理论上 Pod 被认为是短暂的建议使用服务概念来提供静态 IP 但到目前为止在我的测试中我还没有看到 POD IP 被更改那么现在的问题是 k8s 什么时候会为我的 POD 分配一
Docker nuget连接超时

尝试利用官方jetbrains teamcity agentKubernetes 上的图像我已经设法在 Docker 中运行 Docker 但尝试使用以下命令构建 ASP NET Core 映像docker build命令失败于dotne
Kubernetes 仪表板 - ServiceUnavailable（503 错误）

我是 Kubernetes 新手我正在尝试使用 kops 在 AWS 上设置 Kubernetes 集群我成功地设置了集群但是我无法访问仪表板 UI https kubernetes io docs tasks access app
在 Kubernetes API 中启用 CORS

有没有办法在 Kubernetes API 上启用 CORS 以便我可以使用不同的域向 Kubernetes API 发送 ajax 请求通过将 cors allowed origins http 参数添加到 etc default ku
通过 nginx 入口控制器进行基本身份验证

我正在使用 nginx 入口控制器 https kubernetes github io ingress nginx deploy https kubernetes github io ingress nginx deploy 在 AWS
Kubernetes nginx 入口控制器返回 502，但仅适用于 AJAX/XmlHttpRequest 请求

我有一个在 nginx 入口控制器后面运行 Kubernetes 的 Web 应用程序它对于请求浏览工作正常但来自浏览器的任何 AJAX XMLHTTPRequest 都会从 nginx 收到 502 错误我捕获了常规请求和 AJAX
如何在 microk8s 中使用本地 docker 镜像？

我一直在使用 minikube 在本地测试 Kubernetes 在 minikube 中我们可以使用本地 docker 镜像eval minikube docker env 命令我开始探索microk8s 在我运行 Ubuntu 18
Grafana/prometheus 中没有 kafka 指标

我成功部署了 Helm Chart普罗米修斯操作员 https github com coreos prometheus operator tree master helm prometheus operator kube 普罗米修斯 ht
Kubernetes Pod 中现在几点了？

假设我有一些 NET Core 代码在 k8s pod 中运行我要求 DateTime Now 我假设我将从运行 pod 的主机获取日期时间有没有办法获得在 k8s 集群中一致的日期时间值容器中的时钟与主机相同因为它由内核控制时区
从 App Engine 连接到 Kubernetes 引擎

我们希望使用应用程序引擎灵活的流程来更新位于 Google Kubernetes Engine 上的 ElasticSearch 索引我们需要通过 http s 地址连接到 ElasticSearch 推荐的方法是什么我们不想将集群暴露
Kubernetes Pod 动态环境变量

我需要能够将自定义环境变量分配给 Pod 的每个副本一个变量应该是一些随机的 uuid 另一个唯一的数字怎么可能实现呢我更愿意继续使用带有副本的部署如果这不是开箱即用的如何通过自定义复制控制器控制器管理器来实现有没有可用的钩
Istio 允许所有出口流量

如何允许 Istio 的所有出站流量我尝试了以下方法禁用出口网关并使用 set global proxy includeIPRanges 0 0 0 0 0 0 0 0 0 0 绕过 sidecar 所有选项都不起作用值得一提的是我
在容器中运行多个相似的进程有意义吗？

提供有关该问题的背景的简要背景目前我和我的团队正在将微服务迁移到 k8s 以减少维护多个部署工具和管道的工作量我们计划迁移的微服务之一是 ETL Worker 它监听 SQS 上的消息并执行多阶段处理它是使用 PHP Laravel
Spark 执行器 STDOUT 到 Kubernetes STDOUT

我在 Spark Worker 中运行的 Spark 应用程序将执行程序日志输出到特定文件路径 worker home directory app xxxxxxxx 0 stdout I used log4j properties将日志从
如何解决错误：java.lang.ClassNotFoundException：io.netty.util.concurrent.GenericFutureListener？

昨天我第一次尝试用 Java 制作 Prometheus 客户端从 Python 开始最后是 GoLang 是否找到示例 import io prometheus client Counter import io prometheus
无法使用 minikube 设置 Istio

我按照 Istio 的官方文档为带有 minikube 的示例 bookinfo 应用程序设置了 Istio 但我得到了无法连接到服务器 net http TLS 握手超时错误这些是我遵循的步骤我安装了 kubectl 和 miniku
如何将 kubernetes LoadBalancer Ingress URL 发布到 aws Route53

今天当我通过 aws 使用 kubernetes 启动一个应用程序时它公开了一个公开可见的 LoadBalancer Ingress URL 但是要将其链接到我的域以使公众可以访问该应用程序我需要在每个设备上的浏览器中手动进入 aws
如何为某些节点分配命名空间？

有什么办法可以配置吗nodeSelector在命名空间级别我只想在此命名空间的某些节点上运行工作负载为了达到这个目的你可以使用PodNodeSelector准入控制器首先您需要在您的kubernetes apiserver Edi
为什么 tty 在命令完成后挂起？

我想运行这样的命令 kubectl run busybox it rm restart Never image busybox command sh c env 预计运行命令并删除 pod 它打印变量但随后终端冻结尽管 pod 处于完成
通过 kubernetes 标签或注释对 prometheus 目标进行分组？

我有两个关于普罗米修斯的问题我使用这个舵图 https artifacthub io packages helm prometheus community prometheus modal values https artifacthub

随机推荐

当指定为对象属性时，IIFE 如何影响其中的此关键字

var a name Rhona check function return this name console log a check This returns 一个空字符串我希望它返回 Rhona 它没有给出 undefined 或 n
为什么 ToUpperInvariant() 比 ToLowerInvariant() 更快？

我在 CLR via C 中读到 Jeffrey Richter 写的String ToUpperInvariant 比String ToLowerInvariant 他说这是因为 FCL 使用 ToUpperInvariant 来规范化字
更改内存提供程序的默认用户对象

我只是想更改默认值User内存中提供程序的对象默认User对象是Symfony Component Security Core User User 但是这个对象不能满足我的要求所以我复制了该对象并添加了一些满足我的要求的属性然后将其命
getmtime() 与 datetime.now()：

此代码每年在时钟转换的晚上打印一次错误警告中欧夏令时间到中欧时间 import os import datetime now datetime datetime now age now datetime datetime fromtime
Git：在一个命令中搜索所有提交消息、分支名称、提交内容

我想搜索所有可能的引用提交分支标签所有提交消息所有分支名称和所有提交内容由于还没有人建议一系列命令并且如果您还没有自己制作它 git config alias findall f echo e nFound in refs n
是否可以在远程服务器上运行 matlab 并使用瘦客户端上的 matlab GUI 对其进行控制？

类似于 emacs 与 slime 的功能核心服务可以在高性能远程计算机上运行而我可以在上网本上从 emacs gui 编辑和运行代码我和我的同事经常需要用机器做一些demo 学习在matlab中运行的脚本这需要我们随身携带笨重的笔
HTML Web Worker 和 Jquery Ajax 调用

我想知道是否可以在 Web Worker 文件中使用 jQuery Google Chrome 给我这个错误 Uncaught ReferenceError 未定义这是代码父文件 var loader new Worker BASE U
错误：php55w-common 与 CentOS 6.5 上的 php-common 冲突

我已经安装了新的 64 位 CentOS 6 5 带有 PHP5 Mysql5 5 等现在当我想安装不同的 apache 模块例如 php soap 时我收到此错误 gt Package php soap x86 64 0 5 3
默认 Android 浏览器的浏览器插件

我想为默认的 android 浏览器开发一个插件它将指定 google 搜索结果中的网站类别 Android 浏览器没有明确显示插件架构我想知道如何做到这一点以及与之相关的任何参考资料 Thanks 我最近尝试制作一个android插件
是否可以分离 Hibernate 实体，以便对对象的更改不会自动保存到数据库？

我有必须转换为 JSON 的 Hibernate 实体并且必须翻译实体中的一些值但是当我翻译值时这些值会立即保存到数据库中但我不想将这些更改保存到数据库中有解决这个问题的方法吗您可以通过调用来分离实体Session evict
清空用户定义类内的 std::vector 时未释放内存

当我们遇到一些内存问题时std vector是一个类的一个字段我们用大量数据填充这个向量在程序的某个点需要释放这些数据然而即使向量容量为零内存也没有被释放或完全释放这里您有我们程序的简化版本正如你所看到的类Foo只有一个字段
移动装箱函数时“无法移动 FnOnce 类型的值”

我正在尝试用 Rust 进行一些高阶编程但在处理闭包时遇到一些困难这是一个代码片段说明了我遇到的问题之一 pub enum Foo Bar Box
有没有办法批量读取firebase文档

我正在使用 flutter 制作一个移动应用程序并以 firebase 作为后端我有一个存储用户信息的用户文档集合其中一个字段是一组引用另一个集合中的引用文档我想在像批处理这样的操作中使用它然后允许读取所有文档我知道批处理只允
Sequelize：查找没有关联的条目

给出以下简单模型 class A extends Model A init aField DataTypes STRING sequelize class B extends Model B init bField DataTypes ST
如何模拟应用程序更新

我正在使用 SQLite 来存储一些数据最近一位用户向我投诉每次更新应用程序时数据库都会被擦除我想解决这个问题但首先我需要模拟应用程序更新而不是将其上传到 google play 并等待您无需将apk上传到google 您可
URLSessionTask如何运行

假设我创建了一个实例URLSessionTask let task URLSession shared dataTask with url data response error in print Thread current I star
按面分隔 y 轴标签或删除图例但保留空间

好吧我被自制的 ggplot 难住了我想做的是具有不同 y 轴的三行一列多面图label对于每个方面 y 轴的单位都相同这将是最方便的但谷歌搜索告诉我这可能不可能另外我发现this https groups google com
使用 STOMP 简单代理时的错误处理

我正在使用以下命令创建简单的 STOMP 代理 EnableWebSocketMessageBroker When RuntimeException发生在 MessageMapping我想接收 STOMP 的方法ERROR框架但默认情况下
Apple Push - didReceiveIncomingPushWithPayload 未调用 - 相反错误：无法向客户端发送消息

我有一个使用pushkit voip推送的应用程序大多数时候推动都会通过但当流量很大时推送不会到达应用程序我处于一种可以以某种方式重现错误的状态我使用了这里的扩展日志记录 https developer apple com l
Kubernetes Prometheus CrashLoopBackOff / OOMKilled 谜题

我定期看到容器状态已终止 OOMKilled 退出代码 137 但调度到内存充足的节点 k get statefulset n metrics NAME READY AGE prometheus 0 1 232d k get po n m

Kubernetes Prometheus CrashLoopBackOff / OOMKilled 谜题

Kubernetes Prometheus CrashLoopBackOff / OOMKilled 谜题 的相关文章

随机推荐

热门标签

Kubernetes Prometheus CrashLoopBackOff / OOMKilled 谜题的相关文章