GKE - 使用自定义指标的 HPA - 无法获取指标

2024-02-28

我有自定义指标导出到Google Cloud Monitoring我想根据它来扩展我的部署。

这是我的 HPA：

apiVersion: autoscaling/v2beta1
kind: HorizontalPodAutoscaler
metadata:
  name: <DEPLOYMENT>-hpa
  namespace: production
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: <DEPLOYMENT>
  minReplicas: 5
  maxReplicas: 100
  metrics:
  - type: External
    external:
      metricName: "custom.googleapis.com|rabbit_mq|test|messages_count"
      metricSelector:
        matchLabels:
          metric.labels.name: production
      targetValue: 1

在描述 hpa 时，我看到：

 Warning  FailedComputeMetricsReplicas  4m23s (x12 over 7m23s)  horizontal-pod-autoscaler  Invalid metrics (1 invalid out of 1), last error was: failed to get externa
l metric custom.googleapis.com|rabbit_mq|test|messages_count: unable to get external metric production/custom.googleapis.com|rabbit_mq|test|messages_count/&LabelSelect
or{MatchLabels:map[string]string{metric.labels.name: production,},MatchExpressions:[],}: unable to fetch metrics from external metrics API: the server is currently una
ble to handle the request (get custom.googleapis.com|rabbit_mq|test|messages_count.external.metrics.k8s.io)
  Warning  FailedGetExternalMetric       2m23s (x20 over 7m23s)  horizontal-pod-autoscaler  unable to get external metric production/custom.googleapis.com|rabbit_mq|te
st|messages_count/&LabelSelector{MatchLabels:map[string]string{metric.labels.name: production,},MatchExpressions:[],}: unable to fetch metrics from external metrics AP
I: the server is currently unable to handle the request (get custom.googleapis.com|rabbit_mq|test|messages_count.external.metrics.k8s.io)

And:

Metrics:                                                                 ( current / target )
  "custom.googleapis.com|rabbit_mq|test|messages_count" (target value):  <unknown> / 1

Kubernetes 无法获取指标。

我验证了该指标可用并通过监控仪表板进行更新。

Cluster nodes has Full Control for Stackdriver Monitoring:

Kubernetes 版本是 1.15。

可能是什么原因造成的？

Edit 1

发现stackdriver-metadata-agent-cluster-level部署是CrashLoopBack。

kubectl -n=kube-system logs stackdriver-metadata-agent-cluster-le
vel-f8dcd8b45-nl8dj -c metadata-agent

来自容器的日志：

vel-f8dcd8b45-nl8dj  -c metadata-agent
I0408 11:50:41.999214       1 log_spam.go:42] Command line arguments:
I0408 11:50:41.999263       1 log_spam.go:44]  argv[0]: '/k8s_metadata'
I0408 11:50:41.999271       1 log_spam.go:44]  argv[1]: '-logtostderr'
I0408 11:50:41.999277       1 log_spam.go:44]  argv[2]: '-v=1'
I0408 11:50:41.999284       1 log_spam.go:46] Process id 1
I0408 11:50:41.999311       1 log_spam.go:50] Current working directory /
I0408 11:50:41.999336       1 log_spam.go:52] Built on Jun 27 20:15:21 (1561666521)
 at [email protected] /cdn-cgi/l/email-protection:/google/src/files/255462966/depot/branches/gcm_k8s_metadata_release_branch/255450506.1/OVERLAY_READONLY/google3
 as //cloud/monitoring/agents/k8s_metadata:k8s_metadata
 with gc go1.12.5 for linux/amd64
 from changelist 255462966 with baseline 255450506 in a mint client based on //depot/branches/gcm_k8s_metadata_release_branch/255450506.1/google3
Build label: gcm_k8s_metadata_20190627a_RC00
Build tool: Blaze, release blaze-2019.06.17-2 (mainline @253503028)
Build target: //cloud/monitoring/agents/k8s_metadata:k8s_metadata
I0408 11:50:41.999641       1 trace.go:784] Starting tracingd dapper tracing
I0408 11:50:41.999785       1 trace.go:898] Failed loading config; disabling tracing: open /export/hda3/trace_data/trace_config.proto: no such file or directory
W0408 11:50:42.003682       1 client_config.go:549] Neither --kubeconfig nor --master was specified.  Using the inClusterConfig.  This might not work.
E0408 11:50:43.999995       1 main.go:110] Will only handle some server resources due to partial failure: unable to retrieve the complete list of server APIs: custom.m
etrics.k8s.io/v1beta1: the server is currently unable to handle the request, custom.metrics.k8s.io/v1beta2: the server is currently unable to handle the request, exter
nal.metrics.k8s.io/v1beta1: the server is currently unable to handle the request
I0408 11:50:44.000286       1 main.go:134] Initiating watch for { v1 nodes} resources
I0408 11:50:44.000394       1 main.go:134] Initiating watch for { v1 pods} resources
I0408 11:50:44.097181       1 main.go:134] Initiating watch for {batch v1beta1 cronjobs} resources
I0408 11:50:44.097488       1 main.go:134] Initiating watch for {apps v1 daemonsets} resources
I0408 11:50:44.098123       1 main.go:134] Initiating watch for {extensions v1beta1 daemonsets} resources
I0408 11:50:44.098427       1 main.go:134] Initiating watch for {apps v1 deployments} resources
I0408 11:50:44.098713       1 main.go:134] Initiating watch for {extensions v1beta1 deployments} resources
I0408 11:50:44.098919       1 main.go:134] Initiating watch for { v1 endpoints} resources
I0408 11:50:44.099134       1 main.go:134] Initiating watch for {extensions v1beta1 ingresses} resources
I0408 11:50:44.099207       1 main.go:134] Initiating watch for {batch v1 jobs} resources
I0408 11:50:44.099303       1 main.go:134] Initiating watch for { v1 namespaces} resources
I0408 11:50:44.099360       1 main.go:134] Initiating watch for {apps v1 replicasets} resources
I0408 11:50:44.099410       1 main.go:134] Initiating watch for {extensions v1beta1 replicasets} resources
I0408 11:50:44.099461       1 main.go:134] Initiating watch for { v1 replicationcontrollers} resources
I0408 11:50:44.197193       1 main.go:134] Initiating watch for { v1 services} resources
I0408 11:50:44.197348       1 main.go:134] Initiating watch for {apps v1 statefulsets} resources
I0408 11:50:44.197363       1 main.go:142] All resources are being watched, agent has started successfully
I0408 11:50:44.197374       1 main.go:145] No statusz port provided; not starting a server
I0408 11:50:45.197164       1 binarylog.go:95] Starting disk-based binary logging
I0408 11:50:45.197238       1 binarylog.go:265] rpc: flushed binary log to ""

Edit 2

使用以下答案修复了编辑 1 中的问题：https://stackoverflow.com/a/60549732/4869599 https://stackoverflow.com/a/60549732/4869599

但 hpa 仍然无法获取指标。

Edit 3

看来这个问题是由custom-metrics-stackdriver-adapter在下面custom-metrics卡在的名称空间CrashLoopBack.

机器的日志：

E0419 13:36:48.036494       1 status.go:71] apiserver received an error that is not an metav1.Status: &errors.errorString{s:"http2: stream closed"}
E0419 13:36:48.832653       1 writers.go:172] apiserver was unable to write a JSON response: http2: stream closed
E0419 13:36:48.832692       1 status.go:71] apiserver received an error that is not an metav1.Status: &errors.errorString{s:"http2: stream closed"}
E0419 13:36:49.433150       1 writers.go:172] apiserver was unable to write a JSON response: http2: stream closed
E0419 13:36:49.433191       1 status.go:71] apiserver received an error that is not an metav1.Status: &errors.errorString{s:"http2: stream closed"}
E0419 13:36:51.032656       1 writers.go:172] apiserver was unable to write a JSON response: http2: stream closed
E0419 13:36:51.032694       1 status.go:71] apiserver received an error that is not an metav1.Status: &errors.errorString{s:"http2: stream closed"}
E0419 13:36:51.235248       1 writers.go:172] apiserver was unable to write a JSON response: http2: stream closed

一个相关问题：

https://github.com/GoogleCloudPlatform/k8s-stackdriver/issues/303 https://github.com/GoogleCloudPlatform/k8s-stackdriver/issues/303

问题在于custom-metrics-stackdriver-adapter。它在坠毁metrics-server命名空间。

使用此处找到的资源：

https://raw.githubusercontent.com/GoogleCloudPlatform/k8s-stackdriver/master/custom-metrics-stackdriver-adapter/deploy/product/adapter.yaml https://raw.githubusercontent.com/GoogleCloudPlatform/k8s-stackdriver/master/custom-metrics-stackdriver-adapter/deploy/production/adapter.yaml

并使用此映像进行部署（我的版本是 v0.10.2）：

gcr.io/google-containers/custom-metrics-stackdriver-adapter:v0.10.1

这修复了崩溃的 pod，现在 hpa 获取自定义指标。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

GKE - 使用自定义指标的 HPA - 无法获取指标的相关文章

通过 nginx 入口控制器进行基本身份验证

我正在使用 nginx 入口控制器 https kubernetes github io ingress nginx deploy https kubernetes github io ingress nginx deploy 在 AWS
在 Kubernetes 中向 MySQL 添加另一个用户

这是我的MySQL apiVersion apps v1beta1 kind Deployment metadata name abc def my mysql namespace abc sk test labels project ab
解析 dockerfile 路径时出错：请使用 --dockerfile 在构建上下文中提供 Dockerfile 的有效路径

apiVersion v1 kind Pod metadata name kaniko spec containers name kaniko image gcr io kaniko project executor latest args
在 Kubernetes/Openshift 中将客户端-服务器流量保持在同一区域的最佳方法？

我们运行兼容 Kubernetes OKD 3 11 的本地私有云集群其中后端应用程序与用作缓存和 K V 存储的低延迟 Redis 数据库进行通信新的架构设计将在两个地理上分布的数据中心区域之间平均划分工作节点我们可以假设节点
prometheus 节点实例列表

是否可以使用 prometheus 获取节点实例列表我有一个节点导出器但我没有看到这样的指标我们应该添加一个新的运算符吗您可以使用kube 状态指标 https github com kubernetes kube state me
Kubernetes coredns pod 陷入待处理状态。无法启动仪表板[关闭]

Closed 这个问题是与编程或软件开发无关 help closed questions 目前不接受答案我正在按照此构建 Kubernetes 集群tutorial https www profiq com kubernetes clus
GCP 日志浏览器显示日志记录的错误严重级别

我正在 GKE 中运行 java 应用程序并在日志资源管理器中监视日志 Java 应用程序正在将日志写入stdout据我了解 GKE 代理解析它并将其发送到日志资源管理器我发现日志浏览器显示WARN and ERROR具有严重性的消息IN
Istio 允许所有出口流量

如何允许 Istio 的所有出站流量我尝试了以下方法禁用出口网关并使用 set global proxy includeIPRanges 0 0 0 0 0 0 0 0 0 0 绕过 sidecar 所有选项都不起作用值得一提的是我
Kubernetes 集群自动缩放器似乎不适用于 GKE？

我定义了一个节点池最小实例设置为 1 最大实例设置为 5 并启用了自动缩放但它似乎并没有缩小规模我已经封锁了一个节点已经过去12个多小时了没有待处理的 Pod 删除节点不会减少我自己的部署的副本数量相关节点上运行以下 pod f
kubernetes/openshift 中的请求与限制 cpu

我在为 Openshift 中的 pod 选择正确的请求和限制设置时遇到一些困境一些数据在启动期间应用程序需要至少 600 毫核才能在 150 秒内完成就绪检查启动后 200 毫核应该足以让应用程序保持空闲状态所以我从文档中的理解
如何将新的 Kubernetes Minion 添加到当前集群

我有一个运行在 3 台服务器上的 Kubernetes 集群一台主服务器和 2 台服务器我想添加另一个小黄人是否可以添加 Minion 而无需再次进行完整安装到目前为止在寻找执行此操作的指南时我只能找到有关建立整个集群的优秀指南
入口和 SSL 直通

我最近一直在使用 nginxdemo nginx ingress 控制器据我了解该控制器无法执行 SSL 直通我的意思是将客户端证书一直传递到后端服务进行身份验证因此我一直通过标头传递客户端主题 DN 最终我更喜欢 SSL 直通
Google Kubernetes Engine 中的存储 ReadWriteMany

有没有一种方法能够提供 ReadWriteMany 存储而无需实现存储集群我能够使用 gcsfuse 提供存储但速度非常慢我需要接近 GlusterFS 速度的东西我目前正在使用 GlusterFS 另一种选择 Google Clo
Kubernetes 通过基于时间的触发器扩展 Pod

我有一台在 Kubernetes 上运行的服务器来处理每小时的处理作业考虑使用服务来公开 pod 并使用外部 cron 作业来访问负载均衡器以便 kubernetes 可以根据需要自动缩放以处理更高的负载然而在实现中如果 cron
用户“system:anonymous”无法代理命名空间“kube-system”中的服务。:“没有匹配的策略。\n未知用户\“system:anonymous\””

尝试访问集群信息中找到的 Kubernetes 仪表板时出现以下错误 kubectl cluster info 在 Chrome 中以隐身模式也会弹出用户 system anonymous 无法代理命名空间 kube system 中的
基于 terraform 的服务帐户在 gcr.io 上的 GKE 权限问题

我从 gcr io 获取容器时遇到问题 kubectl get po NAME READY STATUS RESTARTS AGE api deployment 74d8cf8768 x8bsk 0 2 ImagePullBackOff 4
BigQuery - 预定查询更新通知电子邮件

有没有办法将计划查询通知电子邮件更新为自定义内容默认情况下它是创建者的电子邮件但是这通常是没有真正电子邮件收件人的服务帐户例如通过 terraform 配置我们将拥有一个服务帐户我们希望将电子邮件通知目标从 SA 更新为支持
如何允许 Kubernetes 作业访问主机上的文件

我已经彻底阅读了 Kubernetes 文档但在与主机文件系统上的文件与 K8 作业启动的 pod 内运行的应用程序进行交互时仍然遇到问题即使是最简单的实用程序也会发生这种情况因此我提供了 yaml 配置的精简示例此处引用的本地文件
如何从清单文件（通常是清单文件与 kubectl 运行）使用 kubectl port-forward

我正在尝试在本地使用 Kubernetes 运行我的第一个应用程序或者我应该说 minikube 我有一个非常基本的 Web 服务器一个本地 docker 镜像和官方 mongodb 我想从 dockerhub 中提取镜像我并不是
使用 Docker Desktop 调试本地部署到 Kubernetes 的应用程序的最佳方法是什么？

我有使用 Docker 开发相对复杂的应用程序的经验使用 Visual Studio 2019 调试应用程序非常容易我只是将 docker compose yaml 设置为启动应用程序并开始调试是否可以使用 Docker Deskto

随机推荐

如何将winsound.Beep()保存到python中的音频.wav文件中？

我一直在尝试做一些我认为相当简单的事情即将 winsound Beep 8000 1000 保存到名为 LongBeep wav 的 wav 文件中有人可以回复并提供解决方案吗我一直在寻找答案但一无所获这是我的代码 import
Scala HashMap of Lists：更简单的默认值？

我需要一个列表的 HashMap 通常我这样做 val lists mutable HashMap String List Int override def default key String val newList List Int t
不使用 FormsAuthentication.RedirectFromLoginPage 时如何将 Request.IsAuthenticated 设置为 true？

我正在使用表单身份验证并向服务器发送 Aajx 请求进行身份验证根据 json 结果客户端决定去哪里以及做什么这就是我不使用 FormsAuthentication RedirectFromLoginPage 来不干扰 ajax js
从控制台的一行读取整数和字符串

问题是这样的我有两个程序从控制台获取输入但以不同的方式 1 Scanner input new Scanner System in int temp1 input nextInt input nextLine String str in
HTTP Web 请求不维护会话

我有一个程序我想废弃一些有用的学习材料供个人使用该站点还维护一个会话密钥和一些其他密钥如果我尝试进入嵌套页面那么它将结束会话我无法使用网络请求类维护会话密钥如何使用 Web 请求类维护会话请帮忙您需要在您的请求中维护 Coo
Xamarin Forms - 找不到配置文件（ios 捆绑包签名）

我正在使用带有 Visual Studio 社区的 MacBook Pro 我在控制台中收到的错误是 Library Frameworks Mono framework External xbuild Xamarin iOS Xamarin
ASP.Net Core MVC Repository Pattern 意外处置

当我尝试添加评论时出现以下错误 ObjectDisposeException 无法访问已处置的对象当代码运行第二行时 m context Comments Add comment m context SaveChanges 为什么上下文
asp.net 自定义会员资格提供程序：IsOnline 属性

在实现自定义成员资格提供程序时我看到基础数据模型在 USER 表中具有 ISONLINE 列如下所述 http msdn microsoft com en us library 6tc47t75 aspx http msdn micro
Expo Typescript 不会构建项目，不会生成 outDir

我正在尝试构建我的打字稿项目过去它已使用相同的设置成功构建但现在即使没有显示任何错误也无法构建我跑 npx tsc p tsconfig json 我的哪里tsconfig json is compilerOptions modul
使用开发服务器时 Django 不会提供静态文件

我刚刚为我正在开发的网站启动了一个新的开发服务器但我似乎无法让 Django 开发服务器来提供 CSS 和其他内容的静态文件管理站点的 CSS 加载良好我在 virtualenv 沙箱中运行它在 settings py 中我搞乱了
以 selectableItemBackground 作为背景的形状可绘制对象

我有几个按钮我需要椭圆形边框所以我把它放在capsule border xml中
Google Cloud 上运行的 IP 过滤

我有一个 Angular Web 应用程序想使用 Google Cloud 运行进行部署但是我需要该应用程序只能从预定义的 IP 地址列表中可见我可以简单地在Google云平台防火墙下设置ip允许拒绝规则还是需要其他方法提前致谢
从 HTML 表单发布值并在 Flask 视图中访问它们

我有一个 HTML 表单它被发布到 Flask 路由然而 request form是空的如果我尝试通过 id 访问其中一个值则会收到 400 错误如何从 HTML 表单发布值并在 Flask 中访问它们
64 位 BHO 未在 IE 9 64 内加载

我创建了 BHO C 代码的 32 位和 64 位版本 32 位版本可以在 IE 9 32 位中正常加载但 64 位版本可以在 WIndows 7 上的 IE 9 64 中加载我已经仔细检查过 64 位 DLL 确实是 64 位代码
以编程方式更改 iOS 锁定屏幕

我正在构建一个应用程序它必须能够在 iPhone 锁定屏幕上显示我自己的视图我见过很多应用程序可以让你自定义锁屏等等这些都是应用程序商店应用程序所以我猜它一定是可能的我只是不知道在 iOS SDK 中使用什么来尝试实现这个哦还
我们如何自动刷新 LUIS 调度程序模型？

1 如果我们可以使用Azure中的Function App 我们如何让Dispatcher CLI在这个函数中工作是否有任何代码可以运行 NODE JS 并安装 Dispatcher CLI 并运行刷新命令 2 Blob存储中可以使用Co
在 R 中运行几个简单的回归

所以我有一个与世界发展指标和出生统计相关的数据集有 188 行和 65 列我正在尝试采用有目的的选择方法来创建回归模型第一步是查看所有单独的简单线性模型我的目标是在 R 中针对我的响应运行每个变量的回归模型我知道我可以跑lm x
如何将 2 个一维数组转换为一个一维数组，但两个值都应位于一个元素内

我真的不知道如何正确地表达这一点所以我提前道歉假设我有 2 个一维数组 array1 2000 2100 2800 array2 20 80 40 现在我如何将它们转换为 python 中的二维数组如下所示 2dArray 2000
#show 页面上的 ActiveAdmin 嵌套表单

是否可以将嵌套表单添加到 show页面现在我有了我的 admin posts rb ActiveAdmin register Post do show do post h2 post title post comments each do
GKE - 使用自定义指标的 HPA - 无法获取指标

我有自定义指标导出到Google Cloud Monitoring我想根据它来扩展我的部署这是我的 HPA apiVersion autoscaling v2beta1 kind HorizontalPodAutoscaler metad

GKE - 使用自定义指标的 HPA - 无法获取指标

GKE - 使用自定义指标的 HPA - 无法获取指标 的相关文章

随机推荐

热门标签

GKE - 使用自定义指标的 HPA - 无法获取指标的相关文章