普罗米修斯警报中缺少标签

2024-05-10

我对 Prometheus 警报规则有疑问。我设置了各种 cAdvisor 特定警报，例如：

- alert: ContainerCpuUsage
  expr: (sum(rate(container_cpu_usage_seconds_total[3m])) BY (instance, name) * 100) > 80
  for: 2m
  labels:
    severity: warning
  annotations:
    title: 'Container CPU usage (instance {{ $labels.instance }})'
    description: 'Container CPU usage is above 80%\n  VALUE = {{ $value }}\n  LABELS: {{ $labels }}'

当条件满足时，我可以在 Prometheus 的“警报”选项卡中看到警报，但是缺少一些标签，因此不允许 Alertmanager 通过 Slack 发送通知。具体来说，我将自定义“env”标签附加到每个目标：

 {
  "targets": [
   "localhost:8080",
  ],
  "labels": {
   "job": "cadvisor",
   "env": "production",
   "__metrics_path__": "/metrics"
  }
 }

但是，当基于 cadvisor 指标的警报触发时，标签为：警报名称、实例和严重性 - 无作业标签、无环境标签。来自其他导出器（例如节点导出器）的所有其他警报都工作正常并且标签存在。

这是由于sum您使用的功能；它收集了所有存在的时间序列并将它们加在一起，摸索BY (instance, name)。如果您在 Prometheus 中运行相同的查询，您将看到sum只留下分组标签：

{instance="foo", name="bar"}    135.38819037447163

其他聚合方法如avg, max, min等，以同样的方式工作。要恢复标签，只需添加env到分组列表：by (instance, name, env).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

monitoring

Prometheus

prometheusalertmanager

cadvisor

普罗米修斯警报中缺少标签的相关文章

Prometheus 按标签子字符串分组

我正在尝试解决在 Prometheus 中按指标进行查询求和和分组的问题其中分配给指标值的标签对于我的求和和分组要求是唯一的我有 ElasticSearch 索引的度量采样大小其中索引名称标记在度量上索引的命名如下并放置在标签 i
监控 Commons DBCP？

我的 Tomcat 中的一个巨大的 Web 应用程序有时会开始使用过多的 DBCP 连接从而导致问题为了进行调查我想准确地知道每个时间点哪个线程方法正在持有池的连接不需要实时事后分析就可以了我一直在寻找这样的DBCP监控工具
Prometheus AlertManager - 根据路由向不同客户端发送警报

我有2个服务A and B我想监控我还有 2 个不同的通知渠道X and Y形式为receivers在 AlertManager 配置文件中我想发送通知X如果服务A出现故障并想要通知Y如果服务B下跌降落我怎样才能实现这个我的配置我的
存在哪些基于 Python 的仪表板选项？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我想在每台服务器上创建一个仪表板来显示其运行状况和一些日常处理的结果我计划连接 shell 脚本和 Python 程序来收集数据我认为
TFDMoniFlatFileClientLink 不规则地不跟踪到文件

我有一个TFDMoniFlatFileClientLink在表单上文件名设置为d temp monitor txt 追踪真 TFDConnection Params MonitorBy mbFlatFile 这有时有效有时则不跟踪任何
如何在 SQL Server 2016+ 中使用查询存储查找哪个程序或用户执行了查询

启用查询存储后如何查找执行查询的人例如在跟踪收集的情况下有 TRC 文件将获取主机名和程序详细信息以供查询而在扩展事件的情况下我们有 XEL 文件将获取主机名和程序详细信息我们尝试了代码 SELECT des program
如何从 Nagios-Report Perl 模块打印 Nagios 服务 UP 时间百分比

我可以打印出来HostUP 时间百分比从Nagios 报告 Perl 模块 http search cpan org hopcrofts Nagios Report 0 003 与以下代码 usr bin perl use strict u
Prometheus 来源的时间序列：如何将空值设置为零？

使用 Docker Grafana 8 1 5 使用时间序列图我正在绘制Prometheus Counter来源有一个label as a time series 按标签并且需要将所有空缺失值填充为零这是应用于的查询Prometh
PromQL if then 语句等效

我有一个执行计数的简单 PromQL 查询 sum up container name my container environment name env 这是 Grafana 仪表板的一部分允许从下拉菜单中选择 env 我想根据环境执行
如果过去 60 分钟的交易量小于 x，如何在 Seyren with Graphite 中发出警报？

我正在使用 Graphite Statsd 带有 Python 客户端从 Web 应用程序收集自定义指标成功交易的计数器假设计数器是stats transactions count 还有一个每秒速率指标stats transactio
如何在 Linux 中获取 Apache 的“每秒请求数”？

在 Windows for ASP 中您可以获得 perfmon 但是如何获得每秒请求数 Linux 下的 Apache 这是我编写的一个简短的 bash 脚本用于对请求率进行采样基于迪克塞的建议 https stackoverf
监控 REST API 的最佳方式是什么？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我创建了一个基于 RESTful 模式的 API 我想知道监视它的最佳方法是什么我可以以某种方式收集每个请求的统计信息以及我可以监控
如何解决错误：java.lang.ClassNotFoundException：io.netty.util.concurrent.GenericFutureListener？

昨天我第一次尝试用 Java 制作 Prometheus 客户端从 Python 开始最后是 GoLang 是否找到示例 import io prometheus client Counter import io prometheus
Inotify linux 监视子目录

是否可以以这种模式监视目录 storage data usernames Download gt storage data Download 我需要监视每个用户的下载文件夹中是否进行了更改也许我需要创建所有路径的列表将其放入数组中并在
UNIX系统调用监视器

如何监控进程的系统调用 Check strace http linux die net man 1 strace 在最简单的情况下 strace 运行指定的命令直到退出它拦截并记录进程调用的系统调用以及进程接收的信号每个系统调用的名称
记录 Google Cloud SQL PostgreSQL 实例上的慢速查询

我工作的公司使用 Google Cloud SQL 来管理生产中的 SQL 数据库我们遇到了性能问题我认为查看监控高于特定阈值例如 250 毫秒的所有查询是一个好主意除其他外通过查看PostgreSQL 文档 https ww
container_memory_working_set_bytes 与 process_resident_memory_bytes 和total_rss 之间的关系

我希望了解以下关系容器内存工作集字节 vs 进程驻留内存字节 vs 总计RSS 容器内存 rss 文件映射以便更好地配备OOM可能性警报系统这似乎违背了我的理解这让我现在感到困惑如果容器 pod 运行单个进程执行用 Go 编写的编
检测（在服务器端）Flex 客户端何时与 BlazeDS 目标断开连接

我想知道是否可以轻松检测在服务器端 Flex 客户端何时与 BlazeDS 目标断开连接我的情况很简单我想尝试使用它来计算每个客户端在每个会话中连接的时间我还需要能够区分客户端即不仅仅是计算我在 ds console 中看到的当
用于检查 URL 状态的 PowerShell 脚本

与此问题类似 https stackoverflow com questions 18500832 script to check the status of a url我正在尝试监视一组网站链接是否已启动并运行或没有响应我在 Inter
获取 Pod 处于挂起状态的平均时间

我正在尝试使用 prometheus 计算 pod 在 grafana 中处于挂起状态的平均时间我可以使用此查询生成一个图表以获取一段时间内处于挂起状态的 Pod 数量 sum kube pod status phase phase P

随机推荐

为什么不使用 Interface Builder [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
模数和余数之间的差异

我正在做一些计算运算符在java and python 在计算时我发现处理负数时运算符在两种语言中的工作方式有所不同例如 21 4 1 Java 21 4 3 Python 所以我查看了 stackoverflow 上的一些帖子发
在 jQuery UI 1.10 中的对话框标题中使用 HTML

http jqueryui com upgrade guide 1 10 changed title option from html to text http jqueryui com upgrade guide 1 10 changed
Rx 中的热连接

Observable Concat是一个连接可观察量的实现但第二个IObservable
无法创建常量值 - 只允许基本类型或枚举类型

我在这里看到了一些与此异常相关的问题但没有一个让我理解问题的根本原因所以这里我们还有一个 var testquery from le in context LoanEMIs Include LoanPmnt join lp in con
UDP 广播发送失败：在 Linux 2.6.30 上“网络无法访问”

我用udp广播写了一个程序代码段如下 struct sockaddr in broadcast addr socklen t sock len sizeof broadcast addr bzero broadcast addr sock
2 个具有共享 Redis 依赖的 Helm Chart

目前我有 2 个 Helm Charts Chart A 和 Chart B Chart A 和 Chart B 对 Redis 实例具有相同的依赖关系如Chart yaml file dependencies name redis v
AppEngine：获取当前服务应用程序版本

有没有一种简单的方法可以获取 AppEngine 中当前的服务应用程序版本 os environ CURRENT VERSION ID
iOS 8 UITableView 分隔符插入 0 不起作用

我有一个应用程序其中UITableView的分隔符插入设置为自定义值右0 Left 0 这完美地适用于iOS 7 x 但是在iOS 8 0我看到分隔符插入设置为默认值15在右侧即使在 xib 文件中它设置为0 它仍然显示不正确我该如
即使 if 语句中发生警报，if 语句中的 jQuery 代码也不会运行

我有一个 if 语句里面有两个警报以及一个变量赋值当满足条件时所有这三件事都会发生但是当我将 jQuery 代码添加到 if 语句套件中时该 jQuery 代码不会发生我怎样才能得到 tabViewWindow animate
JavaFX 中的内部框架

我找到了这个内部框架的例子 http docs oracle com javase tutorial uiswing components internalframe html http docs oracle com javase tut
ruby 中的树结构，父子采用数组格式，没有 gem？

我有一个数组其中包含这样的项目列表 arr id gt 1 title gt A parent id gt nil id gt 2 title gt B parent id gt nil id gt 3 title gt A1 paren
VSCode和flutter，如何连接多个设备？

我在 macOS 上使用 Visual Studio Code 来开发 Flutter 应用程序我可以在 VSC 左下角选择一个设备我还可以使用在多个设备上运行flutter run d all 我想知道如何使用 VSC 中的调试控制台
如何按值降序对哈希进行排序并在 ruby 中输出哈希？

output sort by k v v reverse 和钥匙 h a gt 1 c gt 3 b gt 2 d gt 4 gt a gt 1 c gt 3 b gt 2 d gt 4 Hash h sort 现在我有这两个但我试图按值
流分析作业 -> 数据湖输出

我想使用 StreamAnalytics 作业设置 CI CD ARM 模板并将输出设置为 DataLake Store https learn microsoft com en us azure templates microsoft
算术运算的左侧和右侧必须是“any”、“number”或枚举类型

我收到以下错误我无法找出我到底错在哪里有人可以帮我解决问题吗 The code function this devices forEach device gt let lastConnect device lastConnection
MVC：业务逻辑放在哪里？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案首先我看到了很多这方面的问题但背后的推理还不够如果我的问题不够好并且应该被删除我会理解我看过例如 this https stacko
自定义 Netbeans 平台配置应该在哪里？文件是这样让maven找到它吗？

在 NetBeans 平台之上构建的应用程序具有
将 UIImage 放入 UIButton 的简单方法

我的 iPhone 应用程序中有一个 UIButton 我将其大小设置为 100x100 我有一个 400x200 的图像我希望在按钮中显示它按钮仍然需要保持在 100x100 并且我希望图像缩小以适应但是保持正确的纵横比我想这就
普罗米修斯警报中缺少标签

我对 Prometheus 警报规则有疑问我设置了各种 cAdvisor 特定警报例如 alert ContainerCpuUsage expr sum rate container cpu usage seconds total 3m

普罗米修斯警报中缺少标签

普罗米修斯警报中缺少标签 的相关文章

随机推荐

热门标签

普罗米修斯警报中缺少标签的相关文章