AI模型推理（4）—— 认识ServingRuntime

2023-11-17

参考：

Serving Runtimes - KServe Documentation Website

模型推理服务化：如何基于Triton开发自己的推理引擎？ - 知乎

GitHub - triton-inference-server/server: The Triton Inference Server provides an optimized cloud and edge inferencing solution.

GitHub - openai/triton: Development repository for the Triton language and compiler

前言

ServingRuntime（在中文语境里，笔者经常把它叫做“推理运行时”）是KServe的一个核心概念。本文主要讲解ServingRuntime的概念，并重点介绍 Triton 模型服务化框架。

概念讲解

ServingRuntime，笔者对其解释为“加载模型文件、运行推理服务的容器环境”。大白话说就是运行环境里要有能加载模型文件的代码，实际的承载也就是SDK、编译器/解释器这些具体的东西。

Kserve提供了以下几种开箱即用（out-of-the-box）的ServingRuntime，供用户进行使用：

Triton 简介

1、Triton接入层： 图中C API部分。可以看到Triton支持HTTP/REST和GRPC协议。

2、模型仓库：中Model Repository部分。按照Triton的官方文档所述，模型仓库可以是本地的持久化存储介质（磁盘），也可以接入Google Cloud Platform或者AWS S3的模型仓库。还需要注意：Triton的模型仓库支持多模型、也支持模型编排。

3、预编排：图中Pre-Model Scheduler Queues部分。笔者理解这块的核心内容就是模型编排：通过解析请求的URL，从模型仓库查询到编排信息，执行模型编排。

4、前向推理计算： 图中的Framework Backends部分。Triton框架支持TensorFlow, TensorRT, PyTorch, ONNX Runtime推理引擎，也支持用户扩展自己的推理引擎，Triton统一把它们称为“Backend”，笔者翻译为“推理引擎”，请注意：每一种框架都是一种Backend（推理引擎）。Backend（推理引擎）实际上就是各个框架的C++ API，不清楚英伟达有没有做底层的优化。需要注意一点：在Triton以开始启动时，模型仓库中的模型就已经被加载到内存或者显存上了；因此，每一次来推理请求的时候，只需要在内存或者显存中遍历一次模型做前向计算即可（这个是推理服务的常规操作，因为模型的加载非常耗时）。

5、结果返回：对应图中Inference Response部分。即把最终结果返回给客户端。

6、最后，来看Status/Health Metrics Export部分，这块就是Triton支持接入Prometheus监控的地方。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

AI模型推理

人工智能

AI模型推理（4）—— 认识ServingRuntime 的相关文章

Jenkins流水线怎么做？

问CHAT Jenkins流水线怎么做 CHAT回复 Jenkins流水线是一种创建测试和部署应用程序的方法以下是为Jenkins创建流水线的步骤 1 安装Jenkins 首先你需要在你的服务器上安装Jenkins 这个过程可能会根据你
如何利用CHAT做简单的总结体会？

问CHAT 在测试过程中使用appium python自动化的优点和体会 CHAT回复使用 Appium 配合 Python 进行自动化测试主要有以下几点优点 1 跨平台性 Appium 支持 iOS 和 Android 平台的应用自动化
扬帆证券：产业化破题在即人形机器人超预期演进

大模型助力下的拐点特斯拉A股产业链上两笔重磅出资几乎一起现身总规划超百亿元 1月4日拓普集团公告与宁波经济技能开发区办理委员会签署了机器人电驱系统研发生产基地项目出资协议书公司拟出资50亿元建设机器人核心部件生产基地此次出
【信道估计】【MIMO】【FBMC】未来移动通信的滤波器组多载波调制方案（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
深度好文：最全的大模型 RAG 技术概览

本文是对检索增强生成 Retrieval Augmented Generation RAG 技术和算法的全面研究对各种方法进行了系统性的梳理涉及了 RAG 流程中的数据拆分向量化查询重写查询路由等等在做 RAG 的小伙伴一定知道
用通俗易懂的方式讲解：如何用大语言模型构建一个知识问答系统

传统搜索系统基于关键字匹配在面向游戏攻略技术图谱知识库等业务场景时缺少对用户问题理解和答案二次处理能力本文探索使用大语言模型 Large Language Model LLM 通过其对自然语言理解和生成的能力揣摩用户意图并对
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
喜报|华测导航荣获“张江之星”领军型企业称号

近日 2023年度张江之星企业培育名单发布上海华测导航荣获2023年度张江之星领军型企业称号据悉张江之星企业培育是上海科创办为落实关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见张江高新区加快世界领先科技园区
socket网络编程几大模型？看看CHAT是如何回复的？

CHAT回复网络编程中常见的有以下几种模型 1 阻塞I O模型 Blocking I O 传统的同步I O模型一次只处理一个请求 2 非阻塞I O模型 Non blocking I O 应用程序轮询调用socket相关函数检查请求不需
基于java的ssh医院在线挂号系统设计与实现

基于java的ssh医院在线挂号系统设计与实现 I 引言 A 研究背景和动机基于Java的SSH医院在线挂号系统设计与实现的研究背景和动机随着信息技术的迅速发展和应用医院在线挂号系统已成为医院管理的重要组成部分传统的挂号方式存在许多
活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
明日 15:00 | NeurIPS 2023 Spotlight 论文

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入哔哩哔哩直播通道扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍黄若孜腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
作物叶片病害识别系统

介绍由于植物疾病的检测在农业领域中起着重要作用因为植物疾病是相当自然的现象如果在这个领域不采取适当的护理措施就会对植物产生严重影响进而影响相关产品的质量数量或产量植物疾病会引起疾病的周期性爆发导致大规模死亡这些问题需要在初
强烈推荐收藏！LlamaIndex 官方发布高清大图，纵览高级 RAG技术

近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术帮助应对复杂的生产场
如何快速申请GPT账号？

详情点击链接如何快速申请GPT账号一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
手把手教你用 Stable Diffusion 写好提示词

Stable Diffusion 技术把 AI 图像生成提高到了一个全新高度文生图 Text to image 生成质量很大程度上取决于你的提示词 Prompt 好不好前面文章写了一篇文章一份保姆级的 Stable Diffusion
AI在广告中的应用——预测性定位和调整

营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前从而增加他们购买的可能性随着时间的推移营销人员能够深入挖掘越来越精准的客户细分市场他们不仅具备了实现上述目标的能力而且这种能力还在呈指数级提升在AI技术帮助下现在的营销
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据

随机推荐

i.mx287学习笔记9-编译mplayer源码

上面是我的微信和QQ群欢迎新朋友的加入 1 下载资源 mplayer http www mplayerhq hu MPlayer releases 这个我编译没用到但是我看很多帖子都要这个东西不管他也找个资源过来编码库 http
C/C++打开目录、读取目录、获取目录下文件状态

1 程序示例 lstat 或者 stat 需要包含的头文件 include
Composite：组合模式

将对象组合成树形结构以表示部分整体的层次结构组合模式使得用户对单个对象和组合对象的使用具有一致性处理树中的每个节点时其实不用考虑他是叶子节点还是根节点即模糊了简单元素和复杂元素的概念客户端可以像处理简单元素一样来处理复杂元素
BP神经网络识别手写数字项目解析及代码

这两天在学习人工神经网络用传统神经网络结构做了一个识别手写数字的小项目作为练手点滴收获与思考想跟大家分享一下欢迎指教共同进步平常说的BP神经网络指传统的人工神经网络相比于卷积神经网络 CNN 来说要简单些人工神经网络具有复杂
结构体中的函数指针

C语言中的类大家知道C 是面向对象的语言有很多优良特性而在C语言中我们也可以用结构体类似的实现面向对象成员函数既然说了用结构体类似的实现某种类结构体中的变量就可以看做类的变量实现类的成员函数就要用到函数指针了一般的函数指针
Siebel EAI- Web Service 常见错误汇总

由于项目原因部分代码被模糊处理有些问题待补充欢迎指出错误很多试探着理解的研究的不够深入问题1 Error invoking service XXX Service method XXXXX at step Invoke WebSe
C# 文件与Base64的相互转换

一转换工具 1 在线图片转Base64编码 2 BeJson在线JSON校验格式化工具 3 Base64在线加密解密二 Base64转文件代码这个案例是将已经获取到的Base64字符串转换成文件保存到服务器的某个文件路径下面
linux下rdkafka编译,Linux下librdkafka编译安装使用学习

Kafka分为服务端和客户端服务端集群一般称为brokers 客户端分为生产者 producer 和消费者 consumer 开发者通常用客户端从kafka生产消息或消费消息不同的语言使用不同的客户端具体信息参见这个页面 https
nginx配置非80端口

user nobody worker processes 2 events worker connections 1024 http include mime types default type application octet str
leetcode刷题python之有效的括号

class Solution def isValid self s str gt bool dict stack for i in s if i in dict top stack pop if stack else if dict i t
微信小程序：消息提示框（wx.showToast）和交互提示框（wx.showModal）

摘要有时需要提示框来提醒我们相应信息以及交互提示框来让我们是否继续进行操作一消息提示框 1 参数介绍消息提示框只有提示作用不能交互函数是wx showToast 下面列出几个主要且常用参数 2 代码 wx showToast
如何把IE浏览器快速变成灰色来哀悼在汶川地震中遇难的同胞们！

如何把IE浏览器快速变成灰色来哀悼在汶川地震中遇难的同胞们把IE浏览器快速变成灰色只要作以下二点即可第一点在html页面中在body中加入下面语句第二点在css控制表中加入下面语句 html filter progid DXI
c++11中四种类型转换

1 static cast 功能完成编译器认可的隐式类型转换格式type1 a type2 b staic cast
HiveQL中如何排查数据倾斜问题

如果某个key下记录数远超其他key 在join或group的时候可能会导致某个reduce任务特别慢本文分析下join的场景本例子SQL如下查询每个appid打开的次数需要排除掉作弊的imei 说明表cheat imei 750
Basic Level 1016 部分A+B (15分)

题目正整数 A A A的 D A D A DA 为1位整数部分定义为由 A
Unity进阶--声音管理器学习笔记

文章目录声音管理器 using System Collections using System Collections Generic using UnityEngine public class AudioManager MyrSing
自定义注解及应用场景

自定义注解及应用场景深圳蜗牛学苑课程目标理解自定义注解概念掌握自定义注解语法自定义注解场景中的使用熟练掌握自定义注解 AOP的使用方式一自定义注解我们回顾一下方法的重写会发现有 Override 我们把它称为重写的注解
【2】样本不均衡问题及其解决办法

5 损失函数在机器学习中可以通过修改模型中的 class weight 参数从而调节不均衡样本的惩罚权重 5 1 LogisticRegression 逻辑回归模型代码 lr l2 LogisticRegression penalt
Windows内核--子系统(3.5)

到底什么是子系统子系统是用户层概念在Windows内核之上如果想要执行类UNIX应用程序就是POSIX子系统如果要类似OS 2环境就是OS 2子系统如何能模拟出不同子系统呢一般需要子系统用户态应用程序和相关DLL支援对于W
AI模型推理（4）—— 认识ServingRuntime

参考 Serving Runtimes KServe Documentation Website 模型推理服务化如何基于Triton开发自己的推理引擎知乎 GitHub triton inference server server Th

热门标签