我是普罗米修斯和警报系统的新手。
我开发了一个微服务并添加了指标代码,以便在出现错误时获取增量总数。
现在我正在尝试创建一个警报,以便每当错误增加时,它应该标记出来并发送邮件。
但我无法针对这种情况形成正确的查询。我使用了诸如 error_total > 0 之类的东西来发送警报,但它每次都会起作用,因为计数将 > 0 ,除非我们手动重置它。
您正在寻找的是增加功能 https://prometheus.io/docs/prometheus/latest/querying/functions/#increase。只要前 15 分钟内出现错误,以下表达式就会触发错误:
expr: increase(my_error_metric[15m]) > 0
annotations:
summary: "Hey! There were {{ $value }} errors in the last 15 minutes"
错误在微服务中很常见,并且针对每个错误发出警报通常难以管理。更常见的策略是仅在以下情况时发出警报错误率 https://prometheus.io/docs/prometheus/latest/querying/functions/#irate超过给定阈值(例如 5%):
expr: irate(my_error_metric[2m]) / irate(number_of_call[2m]) * 100 > 5
增加警报也可能意味着您可能会错过一些错误,因为警报是在错误上触发的,但在调查过程中又发生了另一个错误。不会有第二个警报,它将包含在第一个警报中。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)