腾讯gpu-manager

2023-11-12

基本原理

vCUDA通过劫持CUDA的显存申请和释放请求，为每个容器管理它的显存使用量，进而实现了显存隔离。唯一需要注意的是申请context并不通过malloc函数，因此无法知道进程在context使用了多少显存。因此vcuda每次都去向GPU查询当前的显存使用量。在算力隔离方面，使用者可以指定容器的GPU利用率。vCUDA将会监控利用率，并在超出限制利用率时做一些处理。此处可以支持硬隔离和软隔离。两者的不同点是，如果有资源空闲，软隔离允许任务超过设置，而硬隔离不允许。

由于使用的是监控调节的方案，因此无法在短时间内限制算力，只能保证长时间的效率公平。所以不适合推理等任务时间极短的场景。

显存隔离是属于硬隔离，容器实际使用量不能超出限制值；算力隔离属于软隔离，其实际使用量会在限制值上下波动，但是平均值基本满足限制条件。

缺陷

不适合推理等任务时间极短的场景
由于该方案是依赖cuda库函数，对少部分cuda版本支持不足

似乎不怎么维护了，issue较多没什么回应

优点

不需要修改默认runc运行时
同时支持碎片和整卡调度，提高GPU资源利用率
支持同一张卡上容器间GPU和显存的使用隔离

参数

tencent.com/vcuda-core 和tencent.com/vcuda-memory 是新增的针对单卡共享的一个资源标记，core对应的是使用率，单张卡有100个core，memory是显存，每个单位是256MB的显存。
如果申请的资源为50%利用率，7680MB显存。tencent.com/vcuda-core 填写50，tencent.com/vcuda-memory 填写成30。
当然我们也同样支持原来的独占卡的方式，只需要在core的地方填写100的整数倍，memory值填写大于0的任意值即可。

部署

kubectl label node master01 nvidia-device-enable=enable

kubectl apply -f gpu-manager-svc.yaml gpu-manager.yaml

# kubectl describe node master01 | grep tencent
  tencent.com/vcuda-core:    100
  tencent.com/vcuda-memory:  32
  tencent.com/vcuda-core:    100
  tencent.com/vcuda-memory:  32
  tencent.com/vcuda-core    0            0
  tencent.com/vcuda-memory  0            0

验证

apiVersion: v1
kind: Pod
metadata:
  name: test-gpu
  annotations:
    tencent.com/vcuda-core-limit: "50"
spec:
  restartPolicy: OnFailure
  containers:
    - name: cuda
      image: nvidia/cuda:10.0-base
      imagePullPolicy: IfNotPresent
      tty: true
      resources:
        requests:
          tencent.com/vcuda-core: 30
          tencent.com/vcuda-memory: 10
        limits:
          tencent.com/vcuda-core: 30
          tencent.com/vcuda-memory: 10

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

腾讯gpu-manager 的相关文章

如何从 Kubernetes 服务背后的 HTTP 请求读取客户端 IP 地址？

我的 Web 应用程序作为 Kubernetes pod 在 SSL 的 nginx 反向代理后面运行代理和我的应用程序都使用 Kubernetes 服务进行负载平衡如所述here http blog kubernetes io 201
超出 CreateConstantBufferView 处虚拟地址的末尾

我正在遵循使用 DirectX12 进行游戏编程 ch 6 代码但在 ID3DDevice CreateConstantBufferView 中我发现 D3D12 错误 D3D12 错误 ID3D12Device CreateCons
Spark 执行器 STDOUT 到 Kubernetes STDOUT

我在 Spark Worker 中运行的 Spark 应用程序将执行程序日志输出到特定文件路径 worker home directory app xxxxxxxx 0 stdout I used log4j properties将日志从
如何将 kubernetes LoadBalancer Ingress URL 发布到 aws Route53

今天当我通过 aws 使用 kubernetes 启动一个应用程序时它公开了一个公开可见的 LoadBalancer Ingress URL 但是要将其链接到我的域以使公众可以访问该应用程序我需要在每个设备上的浏览器中手动进入 aws
Google Kubernetes Engine 中的存储 ReadWriteMany

有没有一种方法能够提供 ReadWriteMany 存储而无需实现存储集群我能够使用 gcsfuse 提供存储但速度非常慢我需要接近 GlusterFS 速度的东西我目前正在使用 GlusterFS 另一种选择 Google Clo
指定命名空间时，无法使用 nginx-stable 中的 helm 安装 nginx ingress

我有个问题我正在尝试使用 helm 3 安装 nginx 但当我指定命名空间时它不起作用知道为什么吗它无需任何操作即可工作 helm install nginx release nginx stable nginx ingres n
kubernetes，提示符在端口转发命令处冻结

我想在在线指南之后设置从本地端口节点到 pod redis master 的端口转发库伯内特斯 https kubernetes io docs tasks access application cluster port forward
让我们加密证书颁发

我正在尝试获取 Let s Encrypt 颁发的证书已经过去了 3 个半小时我不小心最初将我的 SecretName 设置为 echo tls 然后将其切换到我想使用的正确的 pandaist tls 我目前有这个 kubectl g
如何允许 Kubernetes 作业访问主机上的文件

我已经彻底阅读了 Kubernetes 文档但在与主机文件系统上的文件与 K8 作业启动的 pod 内运行的应用程序进行交互时仍然遇到问题即使是最简单的实用程序也会发生这种情况因此我提供了 yaml 配置的精简示例此处引用的本地文件
Kubernetes / kubectl - “必须指定容器名称”，但看起来确实如此？

我正在调试 kubectl 的日志输出其中指出 Error from server BadRequest a container name must be specified for pod postgres operator 49202
如何从清单文件（通常是清单文件与 kubectl 运行）使用 kubectl port-forward

我正在尝试在本地使用 Kubernetes 运行我的第一个应用程序或者我应该说 minikube 我有一个非常基本的 Web 服务器一个本地 docker 镜像和官方 mongodb 我想从 dockerhub 中提取镜像我并不是
阻止 ingress-nginx 负载均衡器上的特定路径

我有许多指向入口控制器 IP 的域我想阻止所有域站点的特定路径有没有办法做到这一点我可以用nginx ingress kubernetes io configuration snippet 对于每个站点但正在寻找同时处理所有站点
Helm 3 图表安装错误：验证数据时出错：未设置 apiVersion

我有一个简单的 helm 图表它将通过 docker 桌面将应用程序部署到我的 kubernetes 本地副本如果我使用 kubectl 一次部署一个 yaml 文件一切都会正常工作但是当我尝试创建 helm 图表以方便部署时出
使用 DigitalOcean 在 Kubernetes 集群上为我的 Nginx-Ingress 生成通配符证书

我遵循了这个 DigitalOcean 指南https www digitalocean com community tutorials how to set up an nginx ingress with cert manager on
OpenCL 内核在 Nvidia GPU 上每个线程使用多少寄存器？

我的第一个问题是如何获取 Nvidia GPU 上 OpenCL 内核代码的寄存器使用信息因为 nvcc 编译器给出了相同的使用信息nvcc ptxas options vCUDA 内核代码的标志我还从 AMD GPU for Open
多个容器 POD 中的一个容器进程崩溃会发生什么情况？

通常在单容器POD中当容器的主进程崩溃时 Pod会重新启动如果有多个容器 POD 如果第二个容器中的一个进程崩溃会发生什么情况 POD 会重新启动吗来自文档here https kubernetes io docs concepts
Kubernetes 反关联规则将 Deployment Pod 分散到至少 2 个节点

我在 k8s 部署中配置了以下反关联性规则 spec selector matchLabels app my app environment qa template metadata labels app my app environmen
Grafana 仪表板不显示 pod 名称，而是显示 pod_name

我已经在 kubernetes 集群上部署了应用程序并使用 prometheus 和 grafana 进行监控对于使用 Grafana 仪表板进行 kubernetes pod 监控 Kubernetes集群监控通过Prometheu
当使用 k8s.io/client-go 库的 kubernetes 部署发生更改时获得通知的最佳方式是什么？

Context 我正在编写一个使用k8s io client go https github com kubernetes client go 图书馆这里是 godocs https godoc org k8s io client go
添加istio出口网关后，Pod无法curl外部网站

我正在关注 Istio 文档 https istio io docs examples advanced egress egress gateway https istio io docs examples advanced egress

随机推荐

selenium元素等待

元素等待 js代码执行渲染期间导致数据标签加载缓慢如果元素没有加载完成直接通过find element去进行定位会出现元素不存在的异常 3种方法 1 time sleep 10 强制性等待不管元素在设置时间范围内是否加载出来都
NOIP中的数学---第3课约数

约数定义思考三秒钟注意约数是成对出现的如果数a能被数b整除 a就叫做 b 的倍数 b就叫做a的约数约数和倍数都表示一个整数与另一个整数的关系不能单独存在最大公约数是指两个或多个整数共有约数中最大的一个例如 24 18 共同的约
Redis缓存知识-穿透、击穿、雪崩

目录一 Redis介绍二 Redis做缓存服务器三缓存穿透击穿雪崩 1 缓存穿透 2 缓存击穿 3 缓存雪崩大家好我是杨叔每天进步一点点关注我的微信公众号程序员杨叔获取更多测试开发技术知识今天分享的内容是 Redi
安卓（Android studio）编写一个计算器，可以连续加减乘除，可加小数点，不包含括号以及加减乘除优先算法。

安卓 Android studio 编写一个计算器可以累加可加小数点不包含括号以及加减乘除优先算法首先需要在res目录下的layout文件下创建一个xml文件进行界面的布局设计接着在Java目录下创建一个Java的class类文件
折纸问题——打印折痕方向

题目请把一段纸条竖着放在桌子上然后从纸条的下边向上方对折1次压出折痕后展开此时折痕是凹下去的即折痕突起的方向指向纸条的背面如果从纸条的下边向上方连续对折2 次压出折痕后展开此时有三条折痕从上到下依次是下折痕下折痕和上折
Zabbix监控httpd服务

Zabbix监控httpd服务一工作要求及目的二 WEB配置步骤 1 进入监控主机列表 2 链接模板 3 查看自定义HTTP端口监控项 4 查看自定义的触发器三客户端测试http服务停止报警 1 停止服务 2 查看web端报警 3
去除百度推广的广告

在百度搜索过的关键字后经常在其他网页看到百度的推广广告超级烦人而且涉及隐私下面是去除方法 C Windows System32 drivers etc下的hosts文件加入 127 0 0 1 cpro baidu com 127
理解目标检测当中的mAP

我们在评价一个目标检测算法的好坏程度的时候往往采用的是pascal voc 2012的评价标准mAP 网上一些资料博客参差不齐缺乏直观易懂的正确说明希望这篇博文能够给大家一点帮助 mAP历史目标检测的mAP计算方式在2010年的
【PBR系列二】辐射度量学理论

本文核心知识主要参照现代计算机图形学入门闫令琪课程课件PPT 后续光线追踪系列辐射度量学知识也源于此处辐射度量学理论在开始之前我们先思考为什么学习辐射度量学辐射度量学是基于物理光照的基础一辐射能和辐射通量辐射能 Radia
员工管理系统服务器,员工管理系统小结 - 四七的个人空间 - OSCHINA - 中文开源技术交流社区...

练习中出现 DAO层 Service层 Controler层 entity 层 utils 层 mapper 层想知道几个之间的关系是如何分层的目的是高内聚低耦合 DAO层接口也叫数据访问层做的是数据持久层的工作负责与数据库
Difference between RTL and Behavioral verilog

原文链接 https electronics stackexchange com questions 63682 difference between rtl and behavioral verilog Answer 1 ehaviora
详解KVM虚拟化原理

详解KVM虚拟化原理 KVM架构 KVM Kernel based Virtual Machine 包含一个为处理器提供底层虚拟化可加载的核心模块kvm ko kvm intel ko或kvm amd ko 使用QEMU QEMU KV
sqlserver登录名和用户名的区别和联系-先存着-后续研究

总括登录名可以理解为进入整个大楼的钥匙用户名可以理解为一个房间的钥匙这里所说的大楼就是sql server服务器而房间就是这个sql server服务器中的具体的库要注意登录名是存在于master数据库的syslogins表中用
底部导航栏怎么写？

底部导航栏需要怎么写 1 回忆一下任何手机商城页面底部导航栏都算固定在下面的不管页面内容有多少不管用户怎么滑动底部导航栏始终在下面 2 点击到导航栏上的图标或者文字时会跳转另一页面 3 点击导航栏上的图标或者文字时所点的图标可
爬取学校网站

完整代码如下可直接copy from bs4 import BeautifulSoup from bs4 import UnicodeDammit import urllib request import threading def im
源码分析Hadoop FileInputFormat如何分片

Hadoop采用的是分布式并行计算的模式来处理大数据在处理时必然要对数据进行分片将数据由大化小将一个大的任务化为几个小的任务这就是hadoop处理大数据的核心思想这里要讨论的是hadoop对数据进行分片的方案这里的分片是逻辑上的
开发文档怎么编写_需求开发之软需编写技巧

一什么是软需软需全称软件需求规格说明书是产品项目在研发过程中必不可少的一份过程文档主要由产品项目的需求人员负责编写编写软需之前一般要先进行用户需求分析二软需的作用软需的编写时间一般是安排在需求确定之后代码编写之前因为
python处理字节流形式的视频

python处理内存中字节流形式的视频在使用python的streamlit库处理上传的文件时碰到一个问题文件上传后是以字节数组的形式存在内存中我在后续需要使用cv2库逐帧操作上传的视频这里就产生一个问题 cv2怎么读取到内存中字节
Android 12 应用兼容性适配指导

一兼容性调试工具 Android 11开始引入了新的工具可针对Android新平台中的行为变更进行测试和调试这些工具是兼容性框架的一部分该框架使得开发者可通过开发者选项或adb命令单独打开和关闭各项变更藉此可在最新android
腾讯gpu-manager

基本原理 vCUDA通过劫持CUDA的显存申请和释放请求为每个容器管理它的显存使用量进而实现了显存隔离唯一需要注意的是申请context并不通过malloc函数因此无法知道进程在context使用了多少显存因此vcuda每次都去向

腾讯gpu-manager

基本原理

缺陷

优点

参数

部署

验证

腾讯gpu-manager 的相关文章

随机推荐

热门标签