FasterTransformer :transformer类模型的三种结构

2023-11-12

Transformer是一种基于注意力机制的深度神经网络结构，常用于文本生成、机器翻译等NLP任务。目前常用的Transformer类模型架构主要有三种:

结构	例子	–
仅编码器（EncoderOnly）	bert,T5	输入为一整个句子
仅解码器（DecoderOnly）	GPT	输入为掩码后的句子，不断循环得到结果
Encoder-Decoder	Transformer	编码器负责将输入序列转换为隐藏状态，解码器则将该隐藏状态作为输入，生成输出序列。

在这里插入图片描述

Kernel fuse

如图，可见host启动调用GPU会花费很多时间
在实际计算时，cpu和gpu各自计算，如果kernel很小，则gpu就需要等待cpu
GPU Kernel融合（Kernel Fusion）是一种优化技术，用于将多个GPU内核（Kernel）组合成一个更大的内核，减少内核之间通信和数据传输开销。在GPU编程中，内核是并行执行的函数，用于处理大规模数据集上的计任务。

当存在多个连续的内核时，个内核都需要从全内存中读取数据，并将结果写到全局内存。这涉及到内核之间的数据传输和同步操作，会引入额外延迟和开销而通过融合这些内核，可以减少数据传输和同步次数，从而提整体的性能和效率。

GPU Kernel融合的过程包以下步骤：

识别可以融合的内核：通过分析内核之间的依赖系和数据访问式，确定哪些内核可以被融合。
重组内核代码：将个内核的代码合成一个更的内核函数。
优化内访问：重新安内核中的内访问模式，以最小化全局内存的读写操作。
合并内核参数将多个内的参数合并为一个内核的参数列表。
生成融合后的内核根据融合后的代码和参数生成一个新的内函数。

通过GPU Kernel融合，可以减少内核之间的通信和数据传输开销提高GPU程序性能和效率这对于需要执行多个连续计算任务的应用程序特别有益，例如图像处理、机器学习和科学计算等领域。

在这里插入图片描述

KV Cache

// https://jaykmody.com/blog/gpt-from-scratch/#decoder-block
def generate(inputs, params, n_head, n_tokens_to_generate):
    from tqdm import tqdm

    for _ in tqdm(range(n_tokens_to_generate), "generating"):  # auto-regressive decode loop
        logits = gpt2(inputs, **params, n_head=n_head)  # model forward pass
        next_id = np.argmax(logits[-1])  # greedy sampling
        inputs.append(int(next_id))  # append prediction to input

    return inputs[len(inputs) - n_tokens_to_generate :]  # only return generated ids

GPT类解码器模型,注意力块的输入是q，k，v(和掩码)。实际上可以利用线性变换的线性性质，解码时候q只需要最后一个new_q，前面的没用,用new_q作为q（比如大小为[1,d_k]）。然后，需要计算当前输入令牌的new_k（比如大小为[1,d_k]）和new_v（比如大小为[1,d_k]）。将其附加到现有缓存得到q（比如大小为[n,d_k]）和k（比如大小为[n,d_k]），并将其传递给注意块以进行进一步处理atten(new_q, k, v)。但是这时只能输出最后一个的词概率logits, kvcache = gpt2(inputs, **params, n_head=n_head, kvcache=kvcache) # model forward pass，最终代码如下：

// https://jaykmody.com/blog/gpt-from-scratch/#decoder-block
kvcache = None
for _ in tqdm(range(n_tokens_to_generate), "generating"):  # auto-regressive decode loop
    logits, kvcache = gpt2(inputs, **params, n_head=n_head, kvcache=kvcache)  # model forward pass
    next_id = np.argmax(logits[-1])  # greedy sampling
    inputs = np.append(inputs, [next_id])  # append prediction to input

CG

mem reuse

http://dlsys.cs.washington.edu/pdf/lecture9.pdf

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习

Transformer

人工智能

FasterTransformer :transformer类模型的三种结构的相关文章

【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
用通俗易懂的方式讲解：内容讲解+代码案例，轻松掌握大模型应用框架 LangChain

本文介绍了 LangChain 框架它能够将大型语言模型与其他计算或知识来源相结合从而实现功能更加强大的应用接着对LangChain的关键概念进行了详细说明并基于该框架进行了一些案例尝试旨在帮助读者更轻松地理解 LangChai
【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
利用CHAT写实验结论

问CHAT 通过观察放置在玻璃表面上的单个水滴人们可以观察到水滴充当成像系统探究这样一个透镜的放大倍数和分辨率 CHAT回复实验报告标题利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率一实验目的通过对比和测量研究和探索玻
什么是充放电振子理论？

CHAT回复充放电振子模型 Charging Reversal Oscillator Model 是一种解释ENSO现象的理论模型这个模型把ENSO现象比喻成一个热力学振荡系统在这个模型中 ENSO现象由三个组成部分充电 Char
基于opencv的大米计数统计（详细处理流程＋代码）

在我每周的标准作业清单中有一项是编写计算机视觉算法来计算该图像中米粒的数量因此当我的一个好朋友M给我发了一张纸上的扁豆照片显然是受到上述转发的启发请我帮他数一下谷物的数量时它勾起了我怀旧的回忆因此我在我的旧硬盘上寻找很久以前
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
台积电再被坑，2纳米光刻机优先给Intel和三星，美国太霸道了

外媒指出今年ASML的10台2纳米光刻机分配已经基本确定了 Intel拿到6台三星获得3台台积电只能得到一台考虑到美国对ASML的强大影响力外媒的这些消息应该有较高的可信性 Intel在先进工艺制程方面自从2014年量产14纳米之
性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
2024 人工智能与大数据专业毕业设计(论文)选题指导

目录前言毕设选题选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生
做大模型也有1年多了，聊聊这段时间的感悟！

自ChatGPT问世以来做大模型也有1年多了今天给大家分享这一年后的感悟过去一年应该是AI圈最万千瞩目的一年了大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注以至于有一年的时间好像经
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
回望计算机视觉会议ICCV的31年

作者原野寻踪编辑汽车人原文链接 https zhuanlan zhihu com p 670393313 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心全栈算法技术交流群本文只做
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
3D点云检测神技 | UFO来了！让PointPillars、PV-RCNN统统涨点！

作者 AI驾驶员编辑智驾实验室点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心 3D目标检测技术交流群本文只做学术分享如有侵权联系删文在这篇论文中提出了一个关于在3D点云中检测未
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
自动驾驶离不开的仿真！Carla-Autoware联合仿真全栈教程

随着自动驾驶技术的不断发展研发技术人员开始面对一系列复杂挑战特别是在确保系统安全性处理复杂交通场景以及优化算法性能等方面这些挑战中尤其突出的是所谓的长尾问题即那些在实际道路测试中难以遇到的罕见或异常驾驶情况这些问题暴露了实车
Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

文章目录摘要 1 问题的提出引出当前研究的不足与问题 KGC方法 LLM幻觉现象解决方案 2 数据集和模型构建
AI 赋能绿色制冷，香港岭南大学开发 DEMMFL 模型进行建筑冷负荷预测

近年来城市化进程加速所带来的碳排放量骤增已经严重威胁到了全球环境多个国家均已给出了碳达峰碳中和的明确时间点一场覆盖全球全行业的绿色革命已经拉开序幕在一众行业中建筑是当之无愧的能耗大户其中又以暖通空调 Heating

随机推荐

linux-awk命令

目录 1 linux awk 模糊查询 2 linux awk 取列 2 3 linux awk 多个条件and查询 4 linux awk取列 1 5 linux awk取行 6 linux awk 所有pod日志查询 7 linux a
Windows server 2016 部署用户漫游

所需设备一台Windows server 2016 两台或者以上win7 win10 环境 Windows server 2016 为域控制器 ip地址为192 168 1 1 24 win7 win10加入域控环境开始部署用户漫游创
编程每日一题_C程序设计_逆序的三位数

问题描述问题来源 C语言程序设计浙江大学翁老师改编有多组数据每组数据为一个整型正三位数当输入一组数据时程序输出按位序逆序的数字若输入数字结尾为零时输出不应有前导的零输入格式每个测试有多组数据每组均为一个三位的正整数
[4G&5G专题-130]：RF- 软件架构

作者主页文火冰糖的硅基工坊 https blog csdn net HiWangWenBing 本文网址 https blog csdn net HiWangWenBing article details 119731935 目录第1章
java中的静态变量的作用域_详解JAVA中static的作用

1 深度总结引用一位网友的话说的非常好如果别人问你static的作用如果你说静态修饰类的属性和类的方法别人认为你是合格的如果是说可以构成静态代码块那别人认为你还可以如果你说可以构成静态内部类那别人认为你不错如
MIFARE 处理 7字节UID卡片

免费的东西被人传到CSDN居然收费需要的请参考参考 https www nxp com docs en application note AN10927 pdf
C++小游戏—猜数字

今天我们用C 语言来制作一个小游戏猜数字 include
医学图像数据集下载地址

有些需要富强文明上网 1 ACDC dataset Human Heart Project 2 Brain Tumor Segmentation BraTS 2019 MICCAI s Dataset on Brain Tumor Segm
【Git 教程系列第 27 篇】ssh: connect to host github.com port 22: Connection refused 的解决方案

这是 Git 教程系列第 27 篇如果觉得有用的话欢迎关注专栏文章目录一问题描述二解决方案一问题描述自己的一个 git 项目昨天在公司正常 push 的时候提示文字信息如下 ssh connect to host g
mysql join 循环_MySQL中Join的基本实现原理

在 MySQL 中只有一种 Join 算法就是大名鼎鼎的 Nested Loop Join 他没有其他很多数据库所提供的 Hash Join 也没有 Sort Merge Join 顾名思义 Nested Loop Join 实际上就是
强势出圈！当NFT头像袭来，你pick哪一款?

NFT有多火爆看看余文乐的新头像就知道了余文乐instagram用的头像正是CryptopPunks 加密朋克系列不止余文乐姚明村上隆锡安威廉姆森阿姆撒盐哥等等弄潮儿纷纷打卡加密艺术名人效应对NFT的强势崛起起着强有力
QVector、QList、QLinkedList类用法区别

QVector QList QLinkedList类用法区别 1 QVector 是提供动态数组的一个模板类 QList 是提供列表的一个模板类 QLinkedList 是提供链表的一个模板类 2 QVector
【比赛合集】50+场可报名的数据挖掘奖金赛，任君挑选！

CompHub 实时聚合多平台的数据类 Kaggle 天池和OJ类 Leetcode 牛客比赛本账号同时会推送最新的比赛消息欢迎关注近期CompHub对进行中的比赛增加了是否可报名的识别你可以直接在CompHub中浏览当前可
QLineEdit用正则限制文本框的输入内容+正则表达式语法

参考文章 QLineEdit输入限制使用正则表达式限制输入浮点数 QRegExp rx 0 1 9 0 9 0 5 d 1 4 t 使用正则表达式限制只能输入数字 QRegExp rx 0 9 QRegExpValidator valid
【插入排序算法】

1 请设计直接插入排序算法折半插入排序算法希尔排序算法输出每一趟的排序结果 2 源码 include
MMU基本概念及工作原理

1 什么是MMU MMU是 MemoryManagementUnit 的缩写即内存管理单元针对各种CPU MMU是个可选的配件 MMU负责的是虚拟地址与物理地址的转换提供硬件机制的内存访问授权现代 CPU 的应用中基本上都选择了使
qt creator各个部件显示图片总结

在工作中 UI设计经常需要显示各式各样的图片下面就总结了qt如何在一些部件中显示图片的方式一 QFrame或者QWidget显示图片在属性stylesheet中填写 loginBoxFrame border image url ico
经验分享：使用谷歌浏览器下载想要的任意网页视频/音乐的方法

在上网的时候有些时候看到好看的视频或者需要下载需要的视频音乐尤其是那种在网页上面的视频音乐想要下载但是根本没有下载按钮那怎么下载呢其实步骤很简单只需要电脑上安装的有谷歌浏览器轻松解决这个下载不了网页视频音乐的问题通过
Android 一个动态获取View宽高的方法

使用场景可以为已经绘画出的view 想根据比例动态改变宽高 public class ViewUtil public static void getViewWidth final View view final OnViewListener
FasterTransformer :transformer类模型的三种结构

Transformer是一种基于注意力机制的深度神经网络结构常用于文本生成机器翻译等NLP任务目前常用的Transformer类模型架构主要有三种结构例子仅编码器 EncoderOnly bert T5 输入为一整个句子仅解码