如何对 kubernetes 中运行的 Inception 服务的部署进行故障排除

2024-01-08

我正在关注使用 TensorFlow Serving 和 Kubernetes 服务 Inception 模型 https://tensorflow.github.io/serving/serving_inception.html当我尝试从本地主机进行推理时，工作流程和一切都运行良好，直到通过 k8s 提供初始模型的最终服务。

我正在运行 Pod 并输出$kubectl describe serviceinception-service 与中的工作流程建议的一致使用 TensorFlow Serving 和 Kubernetes 服务 Inception 模型 https://tensorflow.github.io/serving/serving_inception.html.

然而，当运行推理时，事情就不起作用了。这是跟踪：

$bazel-bin/tensorflow_serving/example/inception_client --server=104.155.175.138:9000 --image=cat.jpg

Traceback (most recent call last):
File "/home/dimlyus/serving/bazel-
bin/tensorflow_serving/example/inception_client.runfi
les/tf_serving/tensorflow_serving/example/inception_client.py", line 56, in 
tf.app.run()

File "/home/dimlyus/serving/bazel-
bin/tensorflow_serving/example/inception_client.runfi
les/org_tensorflow/tensorflow/python/platform/app.py", line 48, in run
_sys.exit(main(_sys.argv[:1] + flags_passthrough))

File "/home/dimlyus/serving/bazel-
bin/tensorflow_serving/example/inception_client.runfi
les/tf_serving/tensorflow_serving/example/inception_client.py", line 51, in 
main
result = stub.Predict(request, 60.0) # 10 secs timeout

File "/usr/local/lib/python2.7/dist-
packages/grpc/beta/_client_adaptations.py", line 32
4, in call
self._request_serializer, self._response_deserializer)

File "/usr/local/lib/python2.7/dist-
packages/grpc/beta/_client_adaptations.py", line 21
0, in _blocking_unary_unary
raise _abortion_error(rpc_error_call)
grpc.framework.interfaces.face.face.AbortionError: 
AbortionError(code=StatusCode.UNAVAILABLE, details="Connect Failed")

我在 Google Cloud 上运行所有内容。设置是从 GCE 实例完成的，k8s 在 Google 容器引擎内部运行。 k8s 的设置遵循上面链接的工作流程中的说明并使用inception_k8s.yaml https://github.com/tensorflow/serving/tree/master/tensorflow_serving/example/inception_k8s.yaml file.

服务设置如下：

apiVersion: v1
kind: Service
metadata:
  labels:
    run: inception-service
  name: inception-service
spec:
  ports:
  - port: 9000
    targetPort: 9000
  selector:
    run: inception-service
  type: LoadBalancer

任何有关如何解决此问题的建议将不胜感激！

该错误消息似乎表明您的客户端无法连接到服务器。如果没有一些附加信息，就很难排除故障。如果您发布您的部署和服务配置，并提供一些有关环境的信息（它是否在云上运行？哪一个？您的安全规则是什么？负载均衡器？），我们也许能够提供更好的帮助。

但您可以立即检查以下一些事项：

如果您在某种云环境（Amazon、Google、Azure 等）中运行，它们都有安全规则，您需要在运行 Kubernetes 集群的节点上显式打开端口。因此，您的 Tensorflow 部署/服务正在使用的每个端口都应在控制器和工作节点上打开。
您是否只部署了一个Deployment对于应用程序或者也是Service？如果你运行一个Service它是如何暴露的？您是否忘记启用NodePort?

Update：您的服务类型是负载均衡器。因此，GCE 中应该创建一个单独的负载均衡器。您需要获取负载均衡器的IP，并通过负载均衡器的IP访问服务。请参阅此链接中的“查找您的 IP”部分https://kubernetes.io/docs/tasks/access-application-cluster/create-external-load-balancer/ https://kubernetes.io/docs/tasks/access-application-cluster/create-external-load-balancer/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何对 kubernetes 中运行的 Inception 服务的部署进行故障排除的相关文章

Keras 获取中间层的输出

what my model looks like defining the model archictecture model Sequential 1st conv layer model add Conv2D 32 5 5 activa
各种 Istio 端口是如何使用的？

Question 我正在尝试学习 Istio 并且正在设置我的 Istio Ingress Gateway 当我设置它时有以下端口选项如此处所示 https istio io latest docs reference config i
Tensorflow 的 LSTM 输入

I m trying to create an LSTM network in Tensorflow and I m lost in terminology basics I have n time series examples so X
对图像使用 Pixellib 自定义训练时出现 input_image 元形状错误

我正在使用 Pixellib 来训练自定义图像实例分割我创建了一个数据集可以在下面的链接中看到数据集 https drive google com drive folders 1MjpDNZtzGRNxEtCDcTmrjUuB1ics
如何将新的 Kubernetes Minion 添加到当前集群

我有一个运行在 3 台服务器上的 Kubernetes 集群一台主服务器和 2 台服务器我想添加另一个小黄人是否可以添加 Minion 而无需再次进行完整安装到目前为止在寻找执行此操作的指南时我只能找到有关建立整个集群的优秀指南
如何创建 Keras 层来执行 4D 卷积 (Conv4D)？

看起来tf nn convolution应该能够进行 4D 卷积但我无法成功创建 Keras 层来使用此函数我尝试过使用 KerasLambda层来包裹tf nn convolution功能但也许其他人有更好的主意我想利用数据的高维
2 个具有共享 Redis 依赖的 Helm Chart

目前我有 2 个 Helm Charts Chart A 和 Chart B Chart A 和 Chart B 对 Redis 实例具有相同的依赖关系如Chart yaml file dependencies name redis v
这可能是因为 cuDNN 初始化失败，因此请尝试查看上面是否打印了警告日志消息。 [操作：Conv2D]

我在 anaconda 中安装了 TensorFlow GPU 2 0 当我安装它并导入包然后运行我的 CNN 模型时它工作正常但当我尝试运行训练模型时出现错误这是我的错误报告 Epoch 1 50 UnknownError Tr
LSTM 批次与时间步

我按照 TensorFlow RNN 教程创建了 LSTM 模型然而在这个过程中我对批次和时间步长之间的差异如果有的话感到困惑并且我希望得到帮助来澄清这个问题教程代码见下文本质上是根据指定数量的步骤创建批次 wi
使用批量乘法的tensorflow的tensordot中的障碍

我正在张量流中实现 RBM 使用小批量实现参数更新存在障碍有2个张量第一个张量的形状是 100 3 1 第二个张量的形状是 100 1 4 数字 100 是批次大小所以我想将这些张量相乘得到 100 3 4 张量但是当我实现这样的
Kubernetes WatchConnectionManager：执行失败：HTTP 403

我遇到错误Expected HTTP 101 response but was 403 Forbidden 在我使用以下命令设置新的 Kubernetes 集群之后Kubeadm当我提交下面遇到的 pyspark 示例应用程序时只有一个主
Keras 通过设置种子获得不同的结果[重复]

这个问题在这里已经有答案了在keras中每次运行都有很高的方差和不稳定的性能为了解决这个问题根据https keras io getting started faq how can i obtain reproducible res
为什么 tty 在命令完成后挂起？

我想运行这样的命令 kubectl run busybox it rm restart Never image busybox command sh c env 预计运行命令并删除 pod 它打印变量但随后终端冻结尽管 pod 处于完成
没有带有张量板的图表

我正在读一本关于 Tensorflow 的书我发现了这段代码 from future import absolute import from future import division from future import print
Kubernetes 通过基于时间的触发器扩展 Pod

我有一台在 Kubernetes 上运行的服务器来处理每小时的处理作业考虑使用服务来公开 pod 并使用外部 cron 作业来访问负载均衡器以便 kubernetes 可以根据需要自动缩放以处理更高的负载然而在实现中如果 cron
用户“system:anonymous”无法代理命名空间“kube-system”中的服务。:“没有匹配的策略。\n未知用户\“system:anonymous\””

尝试访问集群信息中找到的 Kubernetes 仪表板时出现以下错误 kubectl cluster info 在 Chrome 中以隐身模式也会弹出用户 system anonymous 无法代理命名空间 kube system 中的
检查 grpc 服务器可用性？

有什么方法可以检查吗grpc server无需进行实际的过程调用和实现额外的查询即rpc HealthCheck Input returns Status 大多数客户应该使用通道状态API https github com grpc gr
指定命名空间时，无法使用 nginx-stable 中的 helm 安装 nginx ingress

我有个问题我正在尝试使用 helm 3 安装 nginx 但当我指定命名空间时它不起作用知道为什么吗它无需任何操作即可工作 helm install nginx release nginx stable nginx ingres n
k8s书签解决什么问题？

我正在尝试做什么我正在尝试进行部署并监视 k8s 事件直到部署准备好使用k8s节点API 手表 https github com kubernetes client javascript blob master examples typ
张量流和线程

下面是来自 Tensorflow 网站的简单 mnist 教程即单层 softmax 我尝试通过多线程训练步骤对其进行扩展 from tensorflow examples tutorials mnist import input dat

随机推荐

在 Hive 中将字符串转换为时间戳

我有一个值 2017 09 27T19 25 15 927 07 00 有什么方法可以将其转换为时间戳吗我使用 Hive 1 1 0 select unix timestamp 2017 09 27T19 25 15 927 07 00
使用 HaskellDB 取消映射表记录的基本示例

假设我有以下 PostgreSQL 表定义 CREATE TABLE books id serial NOT NULL title character varying NOT NULL PRIMARY KEY id 以及以下记录定义 dat
jquery wcf 肥皂调用失败

有人知道我可以对 wcf 服务进行 jquerysoap 调用吗我的 JQuery 代码 ajax url http localhost oseop orderingservice svc HelloWorld data txtTestR
Android 上的 Facebook 集成 fbconnect 断开的链接

我正在尝试将 Facebook 集成到我的 Android 应用程序中它可以正常登录 Facebook 但当它尝试将访问令牌传递回应用程序时它只会返回网页位于 fbconnect success access token 访问令牌可
使用 Caliburn.Micro 视图模型优先方法时如何在设计器中显示内容控制？

我在 WPF 应用程序中使用 ViewModel first 方法使用 Caliburn Micro CM 我正在用命令栏和活动项目组成主视图主 viewModel 设置命令栏 viewModel 的属性并正确导航到活动项目运行时一切
如何缩放 UIButton 的 imageView？

我使用以下命令创建了一个名为 button 的 UIButton 实例其中包含图像 UIButton setImage forState Button frame 大于图像的大小现在我想缩小这个按钮的图像我尝试改变button ima
Typescript：如何基于数据结构生成和打印 AST

我正在开始一个新项目作为其界面的一部分我们有一大堆令牌一个带有字符串值的递归对象如下所示 const colors accent f90 primary active fff inactive silver 我们提供了一个实用程序
使用 Eclipse AST

我最近需要修改一些Java代码添加方法更改某些字段的签名和删除方法我认为所有这些都可以通过使用Eclipse SDK的AST来完成我从一些研究中知道如何解析源文件但我不知道如何执行上述操作有谁知道一个好的教程或者有人可以给我一个
kmean 需要三角不等式吗？

我想知道对于 kmeans 中使用的距离度量是否需要三角不等式 k 均值是designed for 欧几里得距离正好满足三角不等式使用其他距离函数是有风险的因为它可能会停止收敛然而原因是not三角不等式但是平均值可能不会最小化距离
Android Listview - 仅当用户停止滚动时将图像加载到项目中

当用户快速滚动浏览项目时开始请求图像来填充这些项目似乎是多余的毕竟用户滚动速度太快它们永远不会被及时下载显示当用户实际暂停滚动时是否有任何类型的方法事件首先触发尝试使用此代码来检测滚动停止 setOnScrollListe
减少 WAV 声音文件大小，而不损失质量

我的应用程序需要播放声音文件我可以使用的唯一跨平台文件格式是 WAVE 我正在使用QSound http doc trolltech com 4 5 qsound html detailsQt 框架这些声音的文件大小非常大我想知道是否
InteractivePopGestureRecognizer 导致应用程序冻结

在我的应用程序中我有不同的控制器当我将controller1推到导航控制器并滑动到后面时一切正常但是如果我推导航控制器1 然后推入控制器1推控制器2并尝试向后滑动我会得到一个冻结的应用程序如果通过后退按钮返回一切正常我怎样才
如何在 Android Studio 运行时获取构建变体？

我想在运行时获取构建变体这是否可能不需要任何额外的配置或代码查看生成的BuildConfig class public final class BuildConfig public static final boolean DEBUG
sqlite3_fts5使用标点符号时出错

我有一个问题字符串变量其中包含我的车在哪里一词当我尝试对此运行选择时它崩溃了 String sql Select from tblHALv2001 WHERE tblHALv2001 MATCH question fts5 附近的
plotly.js 中的分类轴顺序

我有一个plotly js 条形图我试图使 calcategories 轴的顺序正确每个类别都有一个条形但有时它们是绿色的有时是黄色的条形图应按从最高到最低的顺序排列但情节似乎是根据不同的填充对它们进行排序数据 var dat
不可选择的下拉列表

有没有什么方法可以让下拉列表中没有任何项目可供选择所以基本上我只是想用它作为显示隐藏列表的一种方式我不想要任何悬停突出显示也不希望能够更改所选项目您能否建议这是否可能或者如果有人有任何其他想法来实现类似的目标您能否给我指出一
如何更改用户控件的访问修饰符

我在 xaml 中创建了一个用户控件将其命名为 View 在 View xaml cs 中我将类 View 的访问修饰符更改为内部 internal partial class View ViewBase 更改访问修饰符后编译器会显示
如何在 linux (RedHat 6) 上检查 java 版本

I am trying to check what java version I have installed in my linux machine I have tried which java 我得到 usr bin java 但是当
XAML - 设置样式后文本未显示在我的文本框中

因此我在正在开发的应用程序中设置了文本框的样式突然间我看不到绑定到文本框的任何文本我觉得我缺少某种 ContentPresenter 无论如何这是样式
如何对 kubernetes 中运行的 Inception 服务的部署进行故障排除

我正在关注使用 TensorFlow Serving 和 Kubernetes 服务 Inception 模型 https tensorflow github io serving serving inception html当我尝试从本地

如何对 kubernetes 中运行的 Inception 服务的部署进行故障排除

如何对 kubernetes 中运行的 Inception 服务的部署进行故障排除 的相关文章

随机推荐

热门标签

如何对 kubernetes 中运行的 Inception 服务的部署进行故障排除的相关文章