vLLM 实战

2023-11-14

引言

随着人工智能技术的飞速发展，以及今年以来 ChatGPT 的爆火，大语言模型 (Large Language Model, LLM) 受到越来越多的关注。

为了实现 LLM 部署时的推理优化，全球各地有众多团队做出了各种优化框架。本文以加州大学伯克利分校开发的 vLLM 框架为例，进行实战探索。

1. 整体介绍

根据公开文档中的实验结果， vLLM 吞吐量比 Hugging Face Transformers 高出 24 倍，比 TGI 高出 3.5 倍。

vLLM 整体框架如下图所示。

其中的关键技术点包括：

KVCache 显存优化
PagedAttention
Continuous Batching

笔者通过实际使用，认为该框架优点如下：

调试方便： 主框架由 Python 实现，便于用户断点调试。
系统设计工整规范： LLMEngine、Scheduler、Worker 结构清晰，初学者可以方便地理清脉络。
推理速度快： 经过理论计算与实测， 8 卡 A100-40G 足以支持千人试用。

2. offline_inference 示例复现分析

(1) 调试环境配置

为方便复现，笔者制作了 dockerfile 用于编译 base 镜像，base 镜像把 vllm 的依赖库都安装好，基于 base 镜像直接再安装 vllm 库即可复现。

docker build -t vllm_ci-benchmark:base -f ci/docker/ci-benchmark-base.dockerfile .

docker build -t vllm_ci-benchmark:v1 -f ci/docker/ci-benchmark.dockerfile .

镜像是基于 nvidia/cuda:11.8.0-cudnn8-devel-ubuntu20.04 (95d242fe9108) (9.83GB) 制作而来，篇幅所限，此处只展示 ci-benchmark.dockerfile 内容。

FROM vllm_ci-benchmark:base

COPY . /code/vllm

RUN cd /code/vllm && \
    python3 -m pip install -e . && \
    rm -rf ~/.cache

而后基于 vllm_ci-benchmark:v1 镜像创建容器，配置 vscode 断点调试环境，便于跟踪 offline_inference 示例的全流程。

(2) 模型下载与复现

提前从 facebook/opt-125m 下载 pytorch_model.bin 格式的模型和源码文件夹，而后将 offline_inference 中的模型路径改为本地路径，复现结果如下图所示。

(3) offline_inference 流程梳理

(a) Create sampling_params

根据用户设置，创建采样参数类对象 sampling_params，只指定 temperature=0.8, top_p=0.95 的情况下，其他默认值如下所示。

SamplingParams(n=1,
               best_of=1,
               presence_penalty=0.0,
               frequency_penalty=0.0,
               temperature=0.8,
               top_p=0.95,
               top_k=-1,
               use_beam_search=False,
               stop=[],
               ignore_eos=False,
               max_tokens=16,
               logprobs=None)

各参数的取值范围见 vllm/sampling_params.py 里相关 _verify_xxx 函数。

(b) Create an LLM

LLM 类对象的构造函数中，首先创建 EngineArgs 类对象 engine_args 如下。

EngineArgs(model='/bigdata/shared/models/huggingface/opt-125m',
           tokenizer='/bigdata/shared/models/huggingface/opt-125m',
           tokenizer_mode='auto',
           trust_remote_code=False,
           download_dir=None,
           use_np_weights=False,
           use_dummy_weights=False,
           dtype='auto',
           seed=0,
           worker_use_ray=False,
           pipeline_parallel_size=1,
           tensor_parallel_size=1,
           block_size=16,
           swap_space=4,
           gpu_memory_utilization=0.9,
           max_num_batched_tokens=2560,
           max_num_seqs=256,
           disable_log_stats=True,
           quant_mode=None)

然后基于 engine_args ，构造 LLM 类内核心变量 llm_engine ，最后添加一个类内计数器 request_counter。

self.llm_engine = LLMEngine.from_engine_args(engine_args)
self.request_counter = Counter()

(c) Generate

在 LLM.generate 的处理过程中，核心操作分为两步。

第一步是调用 LLM._add_request ，通过 LLM.llm_engine.add_request 将用户传入的请求添加到请求列表中，添加完后，请求列表 LLM.llm_engine.scheduler.waiting 中内容如下。

[ \
    SequenceGroup(request_id=0, sampling_params=SamplingParams(n=1, best_of=1, presence_penalty=0.0, frequency_penalty=0.0, temperature=0.8, top_p=0.95, top_k=-1, use_beam_search=False, stop=[], ignore_eos=False, max_tokens=16, logprobs=None), num_seqs=1),
    SequenceGroup(request_id=1, sampling_params=SamplingParams(n=1, best_of=1, presence_penalty=0.0, frequency_penalty=0.0, temperature=0.8, top_p=0.95, top_k=-1, use_beam_search=False, stop=[], ignore_eos=False, max_tokens=16, logprobs=None), num_seqs=1),
    SequenceGroup(request_id=2, sampling_params=SamplingParams(n=1, best_of=1, presence_penalty=0.0, frequency_penalty=0.0, temperature=0.8, top_p=0.95, top_k=-1, use_beam_search=False, stop=[], ignore_eos=False, max_tokens=16, logprobs=None), num_seqs=1),
    SequenceGroup(request_id=3, sampling_params=SamplingParams(n=1, best_of=1, presence_penalty=0.0, frequency_penalty=0.0, temperature=0.8, top_p=0.95, top_k=-1, use_beam_search=False, stop=[], ignore_eos=False, max_tokens=16, logprobs=None), num_seqs=1)
]

第二步是调用 LLM._run_engine，通过 LLM.llm_engine.step()，转到 LLM.llm_engine._run_workers 函数中进行处理。

在 LLM.generate 的处理过程中，LLMEngine, Scheduler, Worker 协作配合，LLMEngine 负责总控，Scheduler 负责调度，Worker 负责执行，脉络清晰，其设计思路很值得学习借鉴。

3. 总结

vLLM 框架通过 PagedAttention 等关键技术，在多 batch 推理时，与传统 Hugging Face Transformers 框架相比，大幅提高了推理速度和吞吐量。

本文针对 vLLM 框架的 offline_inference 示例进行了复现与梳理分析，接下来准备进一步深入探索 PagedAttention 等特性。受限于笔者知识水平，文中可能会存在某些理解身上的偏差，欢迎各位大佬进行交流，共同进步。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

vLLM 实战的相关文章

wms系统与物联网发展趋势密切相关

物联网简称IoT 是指通过各种信息传感器射频识别技术全球定位系统红外感应器激光扫描器等各种装置与技术实时采集任何需要监控连接互动的物体或过程采集其声光热电力学化学生物位置等各种需要的信息通过各类可能的网络接
海德拉暴力破解ssh密码

上一篇博客写到怎么有效地防护ssh密码遭到暴力破解今天给大家介绍下如何暴力破解ssh密码作为一名云计算工程师懂得如何防护比如何攻击更重要 hydra是世界顶级密码破解工具支持几乎所有协议的在线密码破解密码能否被破解取决于密码字典是
华为OD机试真题-优雅子数组Python实现【2023.Q1】

题目内容如果一个数组中出现次数最多的元素出现大于等于K次被称为K 优雅数组 k也可以被称为优雅阈值例如数组1 2 3 1 2 3 1 它是一个3 优雅数组因为元素1出现次数大于等于3次数组1 2 3 1 2就不是一个3 优雅数组
MySQL 日期格式化

本文旨在以最快的速度提供你需要的 MySQL 日期格式化方案 1 将时间格式化为 YYYY mm dd HH ii ss 格式我想你要搜的就是这个哈哈哈 SELECT DATE FORMAT NOW Y m d H i s 效果如图
python中dump与dumps的区别

Python3 JSON模块的使用参考链接 https docs python org 3 library json html 这里只是介绍最常用的dump dumps和load loads import json 自定义了一个简单的数据
flume使用（二）：采集远程日志数据到MySql数据库

本文内容可查看目录本文内容包含单节点单agent 和多节点多agent 采集远程日志说明一环境 linux系统 Centos7 Jdk 1 7 Flume 1 7 0 二安装 linux中jdk mysql的安装不多赘述 fl
Redis清除缓存命令

2019独角兽企业重金招聘Python工程师标准 gt gt gt 方案1 windows操作系统进入redis的安装目录双击redis cli exe 执行 dbsize 执行 flushall 退出方案2 linux操作系统进入
vue-quill-editor富文本编辑器使用及配置更改

quill editor支持了常用的功能但是有2点需要我们自己定制一下 vue集成quill editor很简单网上有很多介绍自行百度下即可 1 图片上传因为编辑器默认是将图片转成base64存储的而我们实际开发需要将图片存在自
怎么给PDF签名？来看看这几个方法吧

年关将至这几天我所在的部门每个人都很忙碌都在对今天年尾的申报文件以及明年的商家合同进行处理今天领导让我将几份商家合同扫描成PDF电子版本同时将负责人签名导入文件中不过由于我之前只接触过扫描文档并不会在电子文件上导入签名于是我
终于搞懂了 @Configuration 和 @Component 的区别

一句话概括就是 Configuration 中所有带 Bean 注解的方法都会被动态代理因此调用该方法返回的都是同一个实例理解调用 Configuration类中的 Bean注解的方法返回的是同一个示例而调用 Component类
寓教于乐——PyGame游戏编程，Python小游戏制作实战教学

Python非常受欢迎的一个原因是它的应用领域非常广泛其中就包括游戏开发而是用Python进行游戏开发的首选模块就是PyGame 1 初识Pygame PyGame是跨平台Python模块专为电子游戏设计包含图像声音等创建在SD
javaScript 实现冒泡排序与快速排序

javaScript 实现冒泡排序与快速排序下面代码是否正确有没有大神帮忙看下谢谢
Pandas数据处理(续)/数据聚合[groupby+sum,mean/apply/transform]

5 数据聚合重点数据聚合是数据处理的最后一步通常是要使每一个数组生成一个单一的数值数据分类处理分组先把数据分为几组用函数处理为不同组的数据应用不同的函数以转换数据合并把不同组得到的结果合并起来数据分类处理的核心 gro
FPGA图像处理——YCbCr灰度转换

之前的单通道灰度转换作为一个图像处理FPGA框架搭建完成后的一个简单效果的测试其图像的层次感有待提高图像处理灰度转换用的更多的还是YCbCr 一 YCbCr YCbCr或Y CbCr有的时候会被写作 YCBCR或是Y CBCR Y 为颜
如何一启动web程序，直接访问某个controller里的方法进而跳转页面

随便写一个JSP页面在页面里面在转发到你要的Action web xml 里面添加
【QT】:QT实现一个信号与多个槽的关联和实现多个信号与一个槽的关联

这个问题很简单我们定义一个按钮就是一个信号而相应的事件就是一个槽而这里用到的方法就是connect connect的两个实例如下 connect ui gt pushButton 3 SIGNAL clicked this SLOT
vue使用高德或百度等地图计算两个经纬度之间的距离

1 计算两个经纬度之间的距离 lng1 lat1 第一个经纬度 lng2 lat2 第二个经纬度 export function calculateDiscount lng1 number lat1 number lng2 number l
C# 中Console.ReadLine() 与 Console.ReadKey() 的区别

C 中Console ReadLine 与 Console ReadKey 的区别在我们封装类时输出控制台会闪退而Console ReadLine 与 Console ReadKey 可以让控制台不会闪退那它们两者之间的区别是什么呢
《Python程序设计》实验一报告

20222108 多乐 2022 2023 2 Python程序设计实验一报告课程 Python程序设计班级 2221 姓名多乐学号 20222108 实验教师王志强实验日期 2022年3月9日必修选修公选课 1 实验内
HDU1085 Holding Bin-Laden Captive!

Problem Description We all know that Bin Laden is a notorious terrorist and he has disappeared for a long time But recen

随机推荐

android studio安装教程完整,Android Studio 安装配置方法完整教程【小白秒懂】

1 安装包下载安装包我们可以在官网下载但为了让大家更方便点击链接直接保存就好啦 2 Android Studio 安装打开安装包点next 点next 这步要注意了这里填安装的路径注硬盘最好满足大于60G 最好是固态硬盘直
UITableView性能优化-一次面试后的反思总结

面试的时候遇到这个问题竟一时没有全答上来于是Google了一下常见的一些譬如Cell重用设计统一Cell 缓存Cell高度 Cell数据资源缓存这些其实平时都在用但因为平时还是缺乏总结回答这么个问题的时候却只想到说重用缓存
js如何获取url的参数

js可以通过window location search来获取url的参数例如 URL ppx pages index jsp a 1 b 2 那么window location search等于 a 1 b 2 如果我们想要去掉问号则
MyBatis_sqlsession.flushStatements(作用总结

MyBatis sqlsession flushStatements 作用总结当有处于事物中的时候 sqlSession flushStatements 起到一种预插入的作用执行了这行代码之后要插入的数据会锁定数据库的一行记录并把数
计算机配置中无可移动设备访问,由于您的计算机尚未建立以太网，wifi或移动数据连接，因此我们无法设置移动热点-...

在热点界面上选择设置移动热点进入设置界面输入密码然后单击保存以修改移动热点的密码如果您无法通过简单的设置解决问题则可以尝试以下方法测试是有效的按win X打开选项框选择管理员命令提示符移动设备连接电脑网络共享打开
Springboot mybatis generate 自动生成实体类和Mapper

Springboot mybatis generate 自动生成实体类和Mapper 一运行运行MyBatisGeneratorApp类即可实现自动生成实体类 mapper接口 mapper xml 二配置步骤 1 pom文件引入依赖
SpringBoot———自动装配原理

SpringBoot 自动装配原理 spring支持两种bean的配置方式基于xml文件和JavaConfig 主启动类上的注解 SpringBootApplication SpringBootApplication里有三个重要注解 Sp
学会Mybatis框架：一篇文章带你掌握双剑合璧的技术【四.MyBatis与Spring集成】

Welcome Huihui s Code World 接下来看看由辉辉所写的关于Mybatis的相关操作吧导读我们都知道 MyBatis是一个优秀的持久层框架它支持定制化SQL 存储过程以及高级映射 Spring是一个全方位的Jav
华为SAN存储在linux下的,操作系统自带多路径

配置多路径文件 DM multipath最重要的一个配置文件为 etc multipath conf 一些操作系统上默认会有一个这样的文件一些操作系统上则需要手动创建可以通过复制文件multipath conf synthetic到 e
jetbrains系列宝藏插件

pycharm宝藏插件一花里胡哨类 1 Background Images Plus设置背景外链图片转存失败源站可能有防盗链机制建议将图片保存下来直接上传 img WLcSsXkm 1650540043327 https cdn
Java：在Windows 10和Ubuntu 14.04中配置Java开发环境（jdk-12.0.2）

在Windows 10中配置Java开发环境下载Java开发工具包jdk jdk的下载地址为 http www oracle com technetwork java javase downloads index html 点击Java
《矩阵分析》代码Ⅲ——Doolittle分解、Crout分解、Cholesky分解求解线性方程组matlab实现

矩阵分析代码 Doolittle分解 Crout分解 Cholesky分解求解线性方程组matlab实现注意三种分解方法求解过程都会用到三角矩阵的回代法小编之前已经写过三角矩阵回代法程序关于代码可参考 https blog csd
告诉我怎么解决这个问题：输入：sudo ./yolov5 -s ../last.wts ../best.engine s 报错：sudo: ./yolov5：找不到命令...

这个问题的原因可能是你没有安装 yolov5 或者是你没有指定正确的安装路径要解决这个问题你需要检查 yolov5 是否已经正确安装并确保你在执行命令时使用了正确的路径如果 yolov5 还没有安装你需要按照 yolov5 的安装
c# 使用udp协议接收消息

两个例子例一引用命名空间 using System Net using System Net Sockets 定义 private UdpClient Reveive IPAddress localIP IPAddress Parse
JVisualVM简介与内存泄漏实战分析

一 JVisualVM能做什么 VisualVM 是Netbeans的profile子项目已在JDK6 0 update 7 中自带 java启动时不需要特定参数监控工具在bin jvisualvm exe 能够监控线程内存情况查看
ubuntu1604 虚拟机启动仅只有桌面文件和壁纸，ctrl+alt+t打不开终端解决办法

使用ctrl alt f1进入tty命令模式然后登陆账号密码最后输入sudo sevice lightdm restart 这样就可以重启桌面如果还是不行的话就重新装unity sudo apt get update sudo apt
网络__未连接到服务器问题

网络未连接到服务器问题错误提示 1004 未能连接到服务器或者 1001 请求超时现象多次切换网络或者断网会出现WiFi 内网下自己的APP中连接不到服务器但是其他APP可以正常连接在4G下连接正常半个小时左右自动连接正
组件分享之后端组件——用于安全高效地构建、更改和版本控制基础架构的工具terraform...

组件分享之后端组件用于安全高效地构建更改和版本控制基础架构的工具terraform 背景近期正在探索前端后端系统端各类常用组件与工具对其一些常见的组件进行再次整理一下形成标准化组件专题后续该专题将包含各类语言中的一些常用组件
有 Docker 谁还在自己本地安装 Mysql ?

引言自己在个人电脑上开发项目或脚本时经常会遇到数据存储的问题咱们工作项目中 Mysql 是常用的业务数据库如果要存储数据难道除了在我们个人电脑安装 Mysql 服务就别无他选了吗 No No 你还有一种选择可以不用在你自己电脑上安
vLLM 实战

引言随着人工智能技术的飞速发展以及今年以来 ChatGPT 的爆火大语言模型 Large Language Model LLM 受到越来越多的关注为了实现 LLM 部署时的推理优化全球各地有众多团队做出了各种优化框架本文以加州大