kubernetes 节点关闭/崩溃恢复？

2024-01-28

我们有一个带有主节点 (foo-1) 和两个工作节点（foo-2 和 foo-3）的集群。我们有一个在 foo-3 上运行的 pod（由 Kubernetes 决定）。我们特意关闭 foo-3 作为实验。

我的期望是 Kubernetes 会“看到”关闭，并自动重新启动 foo-2 中的 pod。但是，这似乎并没有发生。事实上，它似乎认为 pod 仍在 foo-3 上运行。

经过五分钟的等待，Kubernetes 终于认识到集群节点已经消失，并通过重新启动 foo-2 上的 pod 来优雅地做出响应。五分钟对我们来说太长了，因为这不是一个复制的应用程序。我们怎样才能使超时时间大大缩短（例如 10 秒）？实际上，如果主机正常关闭（例如打补丁），效果应该是立竿见影的。

有一个--pod-eviction-timeout参数输入kube 控制器管理器 https://kubernetes.io/docs/admin/kube-controller-manager/默认为 5m：

 --pod-eviction-timeout duration    The grace period for deleting pods on failed nodes. (default 5m0s)

如果您想加快驱逐过程，则需要修改它。

但如果你想最大限度地减少 pod 的停机时间，当节点宕机时，你还需要修改以下参数：

kubelet: node-status-update-frequency=4s (default 10s)

kube-controller-manager: node-monitor-period=2s (default 5s)
kube-controller-manager: node-monitor-grace-period=16s (default 40s)
kube-controller-manager: pod-eviction-timeout=30s (default 5m)

当然，您始终可以使用副本 2 进行部署，即使一个节点出现故障，服务也会正常运行。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Kubernetes

kubernetes 节点关闭/崩溃恢复？的相关文章

kubernetes 上的 gitlab-ci 缓存与 minio-service 不再工作

我正在运行 gitlab 10 4 3 和 gitlab runner 10 4 0 作为 kubernetes 部署带有 kubernetes runner 和一个用于缓存的 minio server 我是按照安装的gitlab 文档
列出命名空间中的所有资源

我想查看命名空间中的所有资源 Doing kubectl get all尽管有名称但不会列出服务和入口等内容如果我知道类型我可以明确要求该特定类型但似乎也没有用于列出所有可能类型的命令尤其kubectl get例如不列出自定义类
Azure Kubernetes 服务 (AKS) 使用应用程序网关入口控制器 (AGIC)：如何在 ASP.Net Core 6.0 中实现 HSTS 标头？

一个行动项目来自安全扫描是为了实施HSTSASP Net Core 6 0 WebAPI 中的标头使用应用程序网关入口控制器在 AKS 上部署 WebAPI 应用程序 SSL 终止发生在应用程序网关处应用程序网关入口控制器和 POD 使
Helm 查找始终为空

在部署 Kubernetes 应用程序时我想检查资源是否已存在如果是这样则不应渲染要存档此行为查找功能 https helm sh docs chart template guide functions and pipelines
如何从 Pod 中的容器内部获知 Pod 自己的 IP 地址？

Kubernetes为每个容器分配一个IP地址那么如何从Pod中的容器获取IP地址呢我无法从文档中找到方法编辑我将在 Kubernetes 中运行 Aerospike 集群并且配置文件需要有自己的IP地址我正在尝试使用 conf
如何使用 kubeadm 升级来更改 kubeadm-config 中的某些功能

我想在现有的 kubernetes 集群 v1 10 上安装 kube prometheus 在此之前文档说我需要将控制器调度器的IP地址从127 0 0 1 to 0 0 0 0 并且还推荐使用kubeadm 配置升级 https k
将conf文件嵌入到helm图表中

我是新掌舵者我正在构建一个包含大量conf文件的splunk helm图表我目前在 configmap 中使用类似的东西 apiVersion v1 kind ConfigMap metadata name splunk master
找不到 Kubernetes 持久卷挂载

我正在尝试创建并安装卷但陷入困境这部分创建存储 apiVersion v1 kind PersistentVolumeClaim metadata name pvclaim2 spec accessModes ReadWriteOnce
我如何知道 k8s 中的网络策略覆盖了哪些 pod

我有一个用例我想检查网络策略覆盖哪些 pod 现在我的重点只是 k8s 生成的网络策略做到这一点最简单的方法是什么我知道我们可以检查每个网络策略并从那里过滤掉 pod 但是网络策略可以有多种使用 pod 过滤的方式我不确定是否有办法
如何在 kubernetes 上设置 hostPath 卷权限？

似乎默认情况下 Kubernetes 创建一个 hostPath 卷755对目录的权限是否可以通过 a 将这个值设置为其他值volume规格与手动执行操作相反chmod在相关主机目录上 initContainers name volum
无法访问通过 NodePort 暴露的 Kubernetes 服务

我正在使用 minikube 在最新的 MacOS 上测试 kubernetes 这是我的相关 YAML 命名空间 yml apiVersion v1 kind Namespace metadata name micro labels na
等待 pod 附加或挂载卷的超时已过期

我在裸机上的 ubuntu 上安装 kubernetes 我部署了1个master和3个worker 然后部署 rook 一切工作正常但是当我想在其上部署 wordpress 时我收到此错误无法为 Pod 挂载卷 wordpress
kubernetes：无法从其他机器访问 NodePort

我正在尝试安装 kubernetes 检查kubernetes上执行的容器时出现问题我将服务类型设置为 Nodeport 但无法从运行容器的节点以外的节点进行访问想要从其他计算机访问它请告诉我哪里不同我尝试了externalIPs和
如何将音量挂载到应用程序的源代码中？

我有 kubernetes pod 我将应用程序源代码安装为 git 卷我尝试了各种设置来将源代码放入 pod 中而 git Volume 是我最终得到的设置但现在我遇到了数据问题我的应用程序中有一个文件目录空我需要在其中安装一
如何从 Kubernetes 集群外部连接到 CockroachDB？

我已经设置并部署了一个 Kubernetes 有状态集其中包含三个 CockroachDB Pod 根据文档 https www cockroachlabs com docs orchestrate cockroachdb with ku
动态更新 POD 的节点选择器字段

这些天我一直在围绕 k8s 尝试不同的事情我想知道 POD 规范中的字段 nodeSelector 据我了解我们必须为节点分配一些标签这些标签可以进一步在 POD 规范的 nodeSelector 字段部分中使用基于nodeSele
如何使用 Helm（3 个节点）和生产 SSL 证书在 Kubernetes 上安装 Elasticsearch

我在尝试着使用 Helm 安装 Elasticsearch https github com elastic helm charts tree 7 x elasticsearch how to deploy clusters with se
Kubernetes 在同一子域部署两个微服务导致频繁且随机的 404 错误

我们有一个由 Nodejs 前端和 nginx 后端组成的 Kubernetes 部署我们发现这两个部署单独在 Kubernetes 中工作得很好但是当它们都部署时对前端的请求几乎有 50 的时间返回 404 人们很自然地会认为我们的
为什么java Native Memory Tracking中的内部内存增加

我的应用程序在docker容器中运行它使用scala并使用 OpenJDK 64位服务器VM 构建25 102 b14 混合模式其Xmx设置为16GB 容器内存限制为24Gb 运行一段时间后容器被杀死的时间 Last State Ter
Helm 安装未知标志 --name

当我尝试使用 helm 安装图表时 helm install stable nginx ingress name my nginx 我收到错误错误未知标志 name 但我在很多文档中都看到了上面的命令格式版本 version Buil

随机推荐

Angular 客户端错误记录到服务器

我想将客户端角度错误记录到服务器所以我遵循this https stackoverflow com questions 43530156 angular 2 client side errors and this https stacko
如何以编程方式触发 UIContextMenuInteraction 上下文菜单？

我已将 UIButton 设置为 UINavigationController 内 UIViewController 中的 rightBarButtonItem 并将 iOS13 上下文菜单与其关联长按按钮会按预期显示上下文菜单有没有办
内联样式无需引号即可工作

例如我有这把小提琴 http jsfiddle net qeBZk 您可以清楚地看到我缺少内联样式中的引号但它仍然正确显示据我所知他们从来没有说过不使用引号是允许的那么是这样的 jsFiddle 中的一个错误一个预期的功能如
开发中如何编辑Docker容器中的代码？

我所有网站的代码都在下面 srv在我的容器中我的 Dockerfile 使用 git 下载代码并将其作为映像的一部分以便更轻松地部署到生产环境那么在开发中如何编辑代码呢我认为使用卷是解决方案例如 v docker myconta
活动“死亡”时服务崩溃

我有一个启动服务的活动在我的活动中 startService new Intent this MyService class 在我的服务中 onStart Show notification int icon R drawable ico
在 Vaadin 中获取组件的准确宽度和高度

在vaadin中如果我将宽度和高度设置为未定义那么在使用getHeight getWidth 函数时我将得到 1 如果我使用 sizeful 我会得到 100 但是如何获得组件的准确宽度和高度呢您可以通过调用 javascript 函
jquery：如何找到当前元素之前2个元素的元素

我有一个如下所示的标记 h3 Paragraf3 dummytext h3 p a Quisque id odio Praesent venenatis metus at tortor pulvinar varius Lorem ipsum
Laravel Sail 数据库和用户未创建

我刚刚使用 laravel sail 设置了一个 laravel 项目由于某种原因在构建过程中它没有创建给定的数据库和用户我很困惑为什么因为我觉得我已经配置了所有正确的东西执行时 vendor bin sail artisan m
使用未在 swagger 中公开的 HTTP 内容上传 API 文件

我正在将 swagger 接口实现到现有的 Web API 中当前的 API 控制器公开了一个异步上传函数该函数使用Request Content异步传输图像已使用的代码在中进行了解释this http www c sharpcorn
如何在UIButton中实现两个IBAction而不重叠？

I drag 2 IBA行动 from a UIButton 第一个是 touchDown 事件第二个是拖动 Inside IBAction clickButton UIButton sender NSLog Click Button I
Rabbitmq-设计消息重放服务

我正在尝试设计一种重播机制使用户能够重播队列中的消息对于包含多个队列和多个消费者的交换器我提出的最佳设计是创建一个记录器服务它将创建一个队列并将所有路由键绑定到它消耗来自交换器的所有消息将所有消息保存到数据库订阅者请求重播
选择一个有效的选择。该选择不是可用的选择之一

在我的应用程序中我有一个下拉列表部门它取决于之前从下拉列表学院字段中选择的值我正在使用 ajax 来获取工作正常的新值但是当我尝试保存表单时我得到选择一个有效的选择该选择不是可用的选择之一这是我的模型 from dja
php : 解析 html : 从 body 中提取脚本标签并在之前注入？

我不关心库是什么但我需要一种从库中提取元素的方法页面的内容作为字符串然后我想在之前插入提取的理想情况下我想将提取为两种类型 1 外部具有 src 属性的 2 嵌入式之间有代码的到目前为止我已经尝试过 phpDOM S
KSQL查询线程数

有没有办法指定在 KSQL Server 上运行的 KSQL 查询应消耗的线程数换句话说就是查询的并行性 KSQL Server 上可以运行的应用程序数量有限制吗何时或如何决定横向扩展是的您可以指定ksql streams num
Linux 上的编译器支持 Objective-C 块吗？

如何在Linux上编译以下代码使用 Ubuntu 10 10 Maverick Meerkat include
单点登录、同一服务器上的多个域、Ruby on Rails

如果我有一台具有多个域的服务器那么在同一域上实现单点登录解决方案的首选方法是什么我目前正在使用该设备在不同的域上放置了几百万个 cookie 但我陷入了困境除了实现 SSO 之外我还需要将各种 cookie 迁移到中央域对于各种
MediaStore.INTENT_ACTION_STILL_IMAGE_CAMERA 不会调用 onActivityResult

我试图用意图 MediaStore INTENT ACTION STILL IMAGE CAMERA 来调用相机然而使用StartActivityForResult不打电话onActivityResult 我该如何解决这个问题 get
当 getBluetoothLeAdvertiser 返回一个对象时，为什么 isMultipleAdvertisementSupported() 返回 false？

我正在尝试在我的设备上使用 BLE 传输这是我使用的代码和输出 check BLE support Log i TAG BLE supported getPackageManager hasSystemFeature PackageMan
Numpy *.npz 内部文件结构

任何人都可以分享一些有关 npz 中内部数据组织的信息吗一些文档等就是找不到东西这是文档 npz 文件的格式 http docs scipy org doc numpy reference generated numpy savez
kubernetes 节点关闭/崩溃恢复？

我们有一个带有主节点 foo 1 和两个工作节点 foo 2 和 foo 3 的集群我们有一个在 foo 3 上运行的 pod 由 Kubernetes 决定我们特意关闭 foo 3 作为实验我的期望是 Kubernetes 会看到

kubernetes 节点关闭/崩溃恢复？

kubernetes 节点关闭/崩溃恢复？ 的相关文章

随机推荐

热门标签

kubernetes 节点关闭/崩溃恢复？的相关文章