k8s job机制初探

2023-11-15

k8s的job是用来执行一次性任务的一类资源，相关的还有cronjob，用于执行以下周期性任务。

部署job之后，k8s会起对应pod，当pod的状态为finished之后，job的状态会更新为complete，即这个job任务已经执行完成，pod不在系统中继续运行。

相对于ReplicaSet、ReplicationController等controller而言，k8s的job是当pod完成某项任务之后，退出对应的pod，而ReplicaSet、ReplicationController是保证了k8s集群环境中始终保持有对应数量的pod在运行。因此可以说job是ReplicaSet、ReplicationController等controller等的补充。

下面通过几个例子来看看k8s job机制的使用：

1. 创建一个简单的job，用于计算pi的值，精度为小数点后2000位，对应yaml：

apiVersion: batch/v1
kind: Job
metadata:
name: pi
spec:
  template:
  spec:
  containers:
    - name: pi
    image: perl
    command: ["perl", "-Mbignum=bpi", "-wle", "print bpi(2000)"]
  restartPolicy: Never
  backoffLimit: 4

此时k8s会在node上起一个pod，当pod完成计算任务之后，状态会更新为complete，而job的状态也是complete

上述例子中，当一个pod完成任务之后，job的状态即为complete，也就是completions的值达到1时则认为job已经完成。其实我们通过指定job的completions值，来决定job完成的条件。

2. 创建一个job任务，当completions值达到3时job才完成，并使用并发数量为2，即同一时刻该job有对应两个pod在工作，eg：

[root@calico learn]# cat job-parallel.yaml
apiVersion: batch/v1
kind: Job
metadata:
name: pi
spec:
  parallelism: 2
  completions: 3
  template:
  spec:
    containers:
    - name: pi
      image: perl
      command: ["perl", "-Mbignum=bpi", "-wle", "print bpi(2000)"]
    restartPolicy: Never
    backoffLimit: 4

此时查看pod的状态：

#先创建2个pod用于执行任务
[root@calico learn]# kubectl get pods -o wide
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
pi-2xlxl 0/1 ContainerCreating 0 23s <none> calico-node1 <none> <none>
pi-7wcbj 0/1 ContainerCreating 0 23s <none> calico-node2 <none> <none>
...

#等一会之后，2个pod完成，再起第3个pod来完成第三个completion目标
[root@calico learn]# kubectl get pods -o wide
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
pi-2xlxl 0/1 Completed 0 7m14s 192.168.63.150 calico-node1 <none> <none>
pi-7wcbj 0/1 Completed 0 7m14s 192.168.186.85 calico-node2 <none> <none>
pi-996x8 1/1 Running 0 3m8s 192.168.63.151 calico-node1 <none> <none>

#查看此时job的状态，completions为2/3
[root@calico learn]# kubectl get job -o wide
NAME COMPLETIONS DURATION AGE CONTAINERS IMAGES SELECTOR
pi 2/3 7m26s 7m27s pi perl controller-uid=9736793a-5075-11e9-a970-5254000ebe60
...

#此时3个pod都完成任务，状态都为complete
[root@calico learn]# kubectl get pods -o wide
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
pi-2xlxl 0/1 Completed 0 8m37s 192.168.63.150 calico-node1 <none> <none>
pi-7wcbj 0/1 Completed 0 8m37s 192.168.186.85 calico-node2 <none> <none>
pi-996x8 0/1 Completed 0 4m31s 192.168.63.151 calico-node1 <none> <none> 

#查看此时job的状态，completions为3/3
[root@calico learn]# kubectl get job -o wide
NAME COMPLETIONS DURATION AGE CONTAINERS IMAGES SELECTOR
pi 3/3 8m38s 9m27s pi perl controller-uid=9736793a-5075-11e9-a970-5254000ebe60

在job的yaml中，有个参数为backoffLimit。该参数为job在执行过程中，指定任务执行失败重试的次数，但达到backoffLimit后任务仍未成功，则job的状态会更新为failed。

除了backoffLimit用于限制job执行的次数，job的timeout机制也用于限制job执行的时间，当job超过timeout时间，则job的状态也会更新为failed。注意，当job指定了timeout之后，backoffLimit参数就不生效了。

3. 创建一个带timeout的job，通过在yaml中指定activeDeadlineSeconds：

[root@calico learn]# cat job-timeout.yaml
apiVersion: batch/v1
kind: Job
metadata:
  name: pi-timeout
spec:
  parallelism: 2
  completions: 3
  backoffLimit: 5
  activeDeadlineSeconds: 100
  template:
    spec:
      containers:
      - name: pi
        image: perl
        command: ["perl", "-Mbignum=bpi", "-wle", "print bpi(2000)"]
      restartPolicy: Never

显然该job执行时间会超过100s，因此job会超时失败。

#查看job状态
[root@calico learn]# kubectl get job -o wide
NAME COMPLETIONS DURATION AGE CONTAINERS IMAGES SELECTOR
pi-timeout 0/3 109s 109s pi perl controller-uid=e34174a9-5077-11e9-a970-5254000ebe60

#查看pod状态
[root@calico learn]# kubectl get pods -o wide
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
pi-timeout-5rkvs 1/1 Terminating 0 113s 192.168.186.86 calico-node2 <none> <none>
pi-timeout-6cj5k 1/1 Terminating 0 113s 192.168.63.152 calico-node1 <none> <none>

可以看到，超过100s之后，job并没有完成，此时会把pod删掉。注意，job的删除是级联的（cascading），因此pod和job都会被删掉。

此时查看job的详细信息，可以看到pod状态是0 Running / 0 Succeeded / 2 Failed：

[root@calico learn]# kubectl describe job pi-timeout
Name: pi-timeout
Namespace: default
Selector: controller-uid=e34174a9-5077-11e9-a970-5254000ebe60
Labels: controller-uid=e34174a9-5077-11e9-a970-5254000ebe60
job-name=pi-timeout
Annotations: <none>
Parallelism: 2
Completions: 3
Start Time: Wed, 27 Mar 2019 06:05:45 -0400
Active Deadline Seconds: 100s
Pods Statuses: 0 Running / 0 Succeeded / 2 Failed
Pod Template:
Labels: controller-uid=e34174a9-5077-11e9-a970-5254000ebe60
job-name=pi-timeout
Containers:
pi:
Image: perl
Port: <none>
Host Port: <none>
Command:
perl
-Mbignum=bpi
-wle
print bpi(2000)
Environment: <none>
Mounts: <none>
Volumes: <none>
Events:
Type Reason Age From Message
---- ------ ---- ---- -------
Normal SuccessfulCreate 2m5s job-controller Created pod: pi-timeout-5rkvs
Normal SuccessfulCreate 2m5s job-controller Created pod: pi-timeout-6cj5k
Normal SuccessfulDelete 25s job-controller Deleted pod: pi-timeout-5rkvs
Normal SuccessfulDelete 25s job-controller Deleted pod: pi-timeout-6cj5k
Warning DeadlineExceeded 25s job-controller Job was active longer than specified deadline

在上面的例子中，当pod finished之后（finished指pod的状态是complete或者failed），pod仍然运行在系统上，这会占用系统的资源，对系统造成一定的负担。因此，在k8s 1.12版本之后，引入ttl controller，对应finished状态的pod进行清理。（目前ttl controller也只是对job资源有清理，后续会对其他资源也支持）

当在job的yaml设置ttl后，ttl controller会在pod状态更新为finished之后，经过ttl秒删掉把pod删掉。注意，删除是把pod，job都删掉了

ttl为0时，finished后马上删掉
ttl不为n，经过n秒之后删除finished的pod
ttl不设置，不会删除finished的pod，job

示例：

apiVersion: batch/v1
kind: Job
metadata:
  name: pi-with-ttl
spec:
  ttlSecondsAfterFinished: 100
  template:
  spec:
    containers:
    - name: pi
      image: perl
      command: ["perl", "-Mbignum=bpi", "-wle", "print bpi(2000)"]
    restartPolicy: Never

4. 前面提到，k8s job的删除是级联的，即删掉job之后，也会对应的把pod删掉。那么当我们有时不希望把pod删掉，只对job进行操作呢。比如，pod正在跑现网上的任务，而我们又需要修改job模板，比如job的名字等等，此时我们可以用这个命令：

kubectl delete jobs/old --cascade=false

此命令不会删除pod，只会删除对应的job

5. job的RestartPolicy

job支持的RestartPolicy有两种：OnFailure或Never。而在k8s中，RestartPolicy默认是Always。因此部署job时，一定要指定job的RestartPolicy，否则会有问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

k8s job机制初探的相关文章

k8s部署gitlab最新版并初始化和登录

前提条件是已经部署了k8s环境采用k8s部署gitlab作为devops的测试环境更加简洁和方便 1 准备工作 1 1 创建nfs共享目录在nfs服务器创建共享目录部署的gitlib使用共享目录来进行持久化这样不管在哪个节点运行g
K8s基础10——数据卷、PV和PVC、StorageClass动态补给、StatefulSet控制器

文章目录一数据卷类型 1 1 临时数据卷节点挂载 1 2 节点数据卷节点挂载 1 3 网络数据卷NFS 1 3 1 效果测试 1 4 持久数据卷 PVC PV 1 4 1 效果测试 1 4 2 测试结论二 PV PVC生命周期 2
CNI Plugin 介绍

CNI 插件包括两种类型 CNI Plugin 和 IPAM IP Address Management Plugin CNI Plugin 负责为容器配置网络资源 IPAM Plugin 负责对容器的 IP 地址进行分配和管理 IPAM
k8s系统获取真实客户端ip

k8s部署系统获取真实客户端ip 我们生产中使用的是kong网关环境的架构也不同第一种kong网管后走nginx 第二种kong网管后不走nginx kong网管后走ingress nginx 修改kong的配置配置要信任的原始IP地
二进制部署K8s

一环境需求节点IP 节点名称所需组件 192 168 248 11 k8s master docker etcd apiserver controller manager scheduler kube proxy flannel 19
wireshark 抓包学习TLS握手（ECDHE）

首先放出经典的流程图 TLS 握手共分四个阶段为了便于理解我用wireshark抓了包来分析每一个阶段 Client Hello 第一次握手客户端首先会发一个 Client Hello 消息消息里面有客户端使用的 TLS 版本号支
kubeadm方式部署k8s最新版本V1.26.2

Kubernetes核心概念 Master主要负责资源调度控制副本和提供统一访问集群的入口核心节点也是管理节点 Node是Kubernetes集群架构中运行Pod的服务节点 Node是Kubernetes集群操作的单元用来承载被分配
k8s基础概念、ETCD

原理和k8s结合点 etcd与k8s的交集维护基础概念物理组件逻辑组件网络组件工作负载 1 物理组件 Master Control plane kube apiserver 提供唯一api接口提供集群管理接口用户认证授权
k8s中Endpoint是什么

在Kubernetes K8s 中 Endpoint是一种资源对象用于表示一个Service所依赖的真实后端节点的Pod信息它存储了一组IP地址和端口号的列表这些IP地址和端口号对应着提供相同服务的Pod实例主要作用 Endpoin
Rancher 图形化管理K8S

题外话之前我们一直都是使用命令行来管理K8S的这种做法虽然对程序员来说看起来很炫酷但有时候用起来还是挺麻烦的今天我们来介绍一个K8S可视化管理工具Rancher 使用它可以大大减少我们管理K8S的工作量希望对大家有所帮助简介 R
kubectl常用命令

alias k kubectl alias kc k create f alias kgp k get pods alias kdp k describe pods alias kdep k delete pods alias kl k l
kubeadm配置虚拟机k8s集群

环境 centos7 vm pro windows terminal termius 虚拟机硬件配置 2核2G 实验用具体可根据电脑调整配置3台 master01 node01 node02 通过克隆虚拟机直接复制配置通一项以后建议
k8s基础5——Pod常用命令、资源共享机制、重启策略和健康检查、环境变量、初始化容器、静态pod

文章目录一基本了解二管理命令三 yaml文件参数大全四创建pod的工作流程五资源共享机制 5 1 共享网络 5 2 共享存储六生命周期重启策略健康检查七环境变量八 Init Containe初始化容器九静
k8s Failed to create pod sandbox错误处理

错误信息 Failed to create pod sandbox rpc error code Unknown desc failed to get sandbox image k8s gcr io pause 3 2 failed to
namespace命令空间

目录 1 解决什么问题 2 基本介绍 2 1 定义 2 2 应用场景 3 使用案例 4 资源配额 5 标签 5 1 定义 5 2 pod资源打标签 5 3 查看标签 1 解决什么问题命令空间类似于C 中的命名空间当用户数量较多的集群才
十二. Kubernetes Pod 与探针

目录一 Pod Pod 中的多容器协同 Pod 的组成与paush 重要 Pod 的生命周期 Pod状态与重启策略静态Pod 二探针 1 livenessProbe存活探针 2 readinessProbe就绪探针 3 startup
决战k8s，Kubernetes、Master节点部署组件，部署kube-proxy、测试、部署Dashboard（Web UI）、超细详解，安装篇③完结篇

文章目录下面这些操作在master节点完成创建kubeconfig文件创建kube proxy kubeconfig文件下面这些操作在node节点完成俩个节点上面拉取镜像 systemd管理kubelet组件部署kube pro
K8S暴露端口-dubbo应用远程Debug

1 Dockerfile增加环境变量 ENV JAVA OPTS Xdebug Xrunjdwp transport dt socket address 9901 server y suspend n 2 暴露端口 template ser
从Docker到Kubernetes——Kubernetes设计解读之ReplicationController、Service

文章目录 Kubernetes的设计解读 replication controller 设计解读 replication controller 使用示例 service的设计解读 service的使用示例 Kubernetes的设计解读 r
面经-Bosch博世无锡&UL美华

工作总算有所眉目了太多的总结暂时还没有太多心情来理清楚先来两个面经给可能现在或以后需要的人们1 Bosch 博世无锡柴油系统博世公司业内的人都知道汽车部件的巨无霸最近几年才来到中国虽然比起德尔福有些稍晚但发展前景值得期待无

随机推荐

Downloading C/C++ language components (Linux / x86_64)

Problem The report from vscode as shown in the title cannot be canceled and keep showing there This happens when I am tr
Linux 安装gcc和运行代码（Ubuntu为例）

目录一安装gcc 二 gcc编译运行代码首先检测网络连通性一安装gcc 1 打开虚拟机终端安装gcc 输入 sudo apt install gcc 2 安装完成后检查输入 gcc version 如果出现以下内容则说明安
基于沙猫群优化算法的线性规划求解matlab程序

基于沙猫群优化算法的线性规划求解matlab程序 1 沙猫群优化算法沙猫的中文学名叫沙丘猫俗名沙漠猫与荒漠猫名字相似但却是两种不同的猫科动物沙猫生活在茫茫沙漠里主要分布在分布于非洲北部阿拉伯半岛中部和西南亚沙猫的家园是贫瘠
Node.js 从零开发 web server博客项目[koa2重构博客项目]

web server博客项目 Node js 从零开发 web server博客项目项目介绍 Node js 从零开发 web server博客项目接口 Node js 从零开发 web server博客项目数据存储 Node js
【Python脚本抢红包】用Python写了一个自动抢红包工具，今年过年准备大干一场

话说又要过年了现在过年可没有小时候的味道了小时候只顾着放鞭炮现在只顾着各个群里蹲红包但是手动抢肯定没戏毕竟手can谁也没办法那就只能试试能不能通过编程的方式实现自动化抢红包了跟小编一样财迷的铁汁们可以往下滑了代码文末可取
基于计算机视觉的智能制造：实现对智能制造的实时监控和调度

作者禅与计算机程序设计艺术 1 简介智能制造 Intelligent Manufacturing 是在不断进步的科技和技术领域里将智能技术应用到制造领域中去实现机器设备材料的自动化和精准化过程提升生产效率降低成本节约能源和
ESX虚拟机克隆后提示设备"0"的配置无效

一般是克隆后mac地址与原网卡mac地址不符导致的解决办法下载虚拟机 vmx文件修改其中的跟网卡eth0相关的mac地址跟实际mac相符实在不行就删除网卡0 再添加一块网卡有时候网卡驱动类型不符也不会报类似的错误虚拟网卡一般有三
区块链100讲：Hyperledger Fabric 中的链码（智能合约）

1 链码概念网络运行环境我们已经启动完成现在我们从开发者的角度来认识一下完成交易所必须的智能合约在 Hyperledger Fabric 中被称之为 Chaincode 也就是链上代码的相关知识以便于理解账本中的数据到底是通过什么
Windows 找不到文件 ‘gpedit.msc‘。请确定文件名是否正确后,再试一次。（已解决）

今天在使用命令gpedit msc打开组策略编辑器报错 Windows 找不到文件 gpedit msc 请确定文件名是否正确后再试一次离谱我都没改过设置什么的后来找到解决办法重新安装桌面新建txt文档文档里输入内容 echo
程序员-接单网站

远程工作平台 1 靠山云 https www kaoshanyun com 靠山云平台新型远程办公兼职平台为中高端程序员产品经理和设计师等等互联网相关人员提供稳定的线上工作机会包括自由工作远程工作和兼职工作还支持按需雇佣工作模式
C++ 程序抛异常产生的 core 文件，无法显示正确的函数调用栈信息（备忘）

问题比如如下程序 include
Windows与Mac中idea常用快捷键转换

从 Windows 过度到 Mac 必备快捷键对照表 Mac 键盘符号说明 Command Shift Caps Lock Option Control Return Enter Delete 向前删除键 Fn Delete 上箭头下箭头
Xlua学习笔记

本篇笔记是记录游戏热更新实战案例基于xLua 的学习笔记 1 Xlua的环境搭建 1 导入Xlua插件上Github上下载Xlua插件将Xlua解压将Asset下的所有文件拷贝到当前项目目录Asset下拷贝与Asset同级目录下
关于STM32L系列MCU adc 测地信号不为0

关于STM32L011系列MCU adc 测地信号不为0 Analog模拟adc测试为40或更大如图所示之前请教很多工程师说 adc 引脚没有接到真正的地信号 AD IO 一般 RC 过后到IO或者其它干扰影响但最终也没有解决尝试新
框架——Mybatis中resultType和resultMap的区别

一区别简述 1 Mybatis的结果集是通过反射实现的 2 MyBatis中在查询进行select映射的时候返回类型可以用resultType 也可以用resultMap resultType是直接表示返回类型基础类型包装类型而r
数据结构---填数字

填数字 JAVA实现 C 实现 JAVA实现 public static int myFindABC int total 0 int sum 0 HashMap
大规模部署lxc容器遇到的若干问题

线程数控制启动线程过多会导致资源不足引发的lxc start命令无法执行问题到致大量容器只执行了lxc copy 而无法真正运行具体情况应视服务器硬件条件 cpu 内存在本项目部署中主要瓶颈在于cpu 以及当前服务器状态当前主要是
Nginx Proxy Manger-反向代理神器-Docker一键部署

Nginx Proxy Manger 反向代理神器利用Docker实现一键部署 Lunix发行版推荐使用Debian 10 或者 Ubuntu 20 04或更高版本 Nginx Proxy Manger 是一个反向代理管理系统它基于
vuex存储保存数据、使用数据，超详细解说

之前的项目中使用过一次vuex搭配localstorage存储token 使token持久化保存好长时间不用又把vuex的使用忘的一干二净重新百度搜索自己尝试后实现需求我的业务需求是父页面中嵌套了一个子页面父页面的一个卡片列表区
k8s job机制初探

博客作为学习笔记记录若有理解或表述错误欢迎指出 k8s的job机制 k8s官网参考 k8s的job是用来执行一次性任务的一类资源相关的还有cronjob 用于执行以下周期性任务部署job之后 k8s会起对应pod 当pod的状态为f

k8s job机制初探

k8s job机制初探 的相关文章

随机推荐

热门标签

k8s job机制初探的相关文章