【CUDA学习笔记】OneFlow公众号CUDA算子优化文章学习笔记

这个问题的来源是这样的，博文《如何实现一个高效的 Softmax CUDA kernel？——OneFlow 性能优化分享》（以下简称为“《Softmax优化》”）在描述Softmax的CUDA实现时表示使用了ReduceMax操作，（也就是求某个维度上的最大值），但是根据Softmax的公式，这个操作在数学上其实是没有必要的，那为什么OneFlow会在CUDA实现时使用ReduceMax操作呢？
关于这一点，我们请教了晓雨哥，

【晓雨哥】：
应该是防溢出吧。

于是我们可以知道，先进行ReduceMax操作的目的是为了减去最大值，从而减小每个元素的绝对值，防止指数操作可能产生的数值溢出。

3.5 Dim transformation

《如何实现比PyTorch快6倍的Permute/Transpose算子？》

4 性能优化方法

4.1 CUDA Kernel中 grid_size 和 block_size 的设置优化

《如何设置CUDA Kernel中的grid_size和block_size？》

4.2 访存优化

《OneFlow GPU性能优化方法一：减少全局内存的访问 —— 开源100天，OneFlow送上“百天大礼包”：深度学习框架如何进行性能优化》

4.2.1 Kernel fusion：核函数融合，一次访存，多次计算

5 CUDA高性能计算经典优化问题

① 归约

《CUDA高性能计算经典问题①：归约》

② 前缀和

《CUDA高性能计算经典问题②：前缀和》

③ 矩阵乘法

《关于ChatGPT的一切；CUDA入门之矩阵乘；PyTorch 2.0发布｜AI系统前沿动态》

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

学习

oneflow

人工智能

【CUDA学习笔记】OneFlow公众号CUDA算子优化文章学习笔记的相关文章

用通俗易懂的方式讲解：如何用大语言模型构建一个知识问答系统

传统搜索系统基于关键字匹配在面向游戏攻略技术图谱知识库等业务场景时缺少对用户问题理解和答案二次处理能力本文探索使用大语言模型 Large Language Model LLM 通过其对自然语言理解和生成的能力揣摩用户意图并对
喜报|华测导航荣获“张江之星”领军型企业称号

近日 2023年度张江之星企业培育名单发布上海华测导航荣获2023年度张江之星领军型企业称号据悉张江之星企业培育是上海科创办为落实关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见张江高新区加快世界领先科技园区
什么是充放电振子理论？

CHAT回复充放电振子模型 Charging Reversal Oscillator Model 是一种解释ENSO现象的理论模型这个模型把ENSO现象比喻成一个热力学振荡系统在这个模型中 ENSO现象由三个组成部分充电 Char
让CHAT介绍下V2ray

CHAT回复 V2Ray是一个网络工具主要用于科学上网和保护用户的网络安全它的名字源自Vmess Ray 光线通过使用新的网络协议为用户提供稳定且灵活的代理服务下面是一些V2Ray的主要特性 1 多协议支持 V2Ray 提供了大量
毕业设计：基于卷积神经网络的验证码识别系统机器视觉人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 字符分割算法 2 2 深度学习三检测的实现 3 1 数据集 3 2 实验环境搭建 3 3 实验及结果分析最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实
【毕业设计选题】复杂背景下的无人机(UVA)夜间目标检测系统 python 人工智能深度学习

前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有不少课题是研究生级别难度的对本科同学来说是充满挑战为帮助大家顺利通过和节省时间
性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
强烈推荐收藏！LlamaIndex 官方发布高清大图，纵览高级 RAG技术

近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术帮助应对复杂的生产场
不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！

AI 大模型技术经过2023年的狂飙 2024年必将迎来应用的落地对 IT 同学来讲这里蕴含着大量的技术机会越来越多的企业开始招聘 AI 大模型岗位本文梳理了 AI 大模型开发技术的面试之道从 AI 大模型基础面 AI 大模型进阶
人工智能 AI 如何让我们的生活更加便利

每个人都可以从新技术中获益一想到工作或生活更为便利简捷且拥有更多空余时间谁会不为之高兴呢借助人工智能每天能够多一些空余时间或丰富自己的业余生活为培养日常兴趣爱好增添一点便利从电子阅读器到智能家居再到植物识别应用和智能室内花
AI在保护环境、应对气候变化中的作用

对于AI生命周期数据领域的全球领导者而言暂时搁置我们惯常的AI见解和AI生命周期数据内容产出来认识诸如世界地球日这样的自然环境类活动日似乎是个奇怪的事情我们想要知道数据是否真的会影响我们的地球环境简而言之是确实如此但作为一
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
【GRNN-RBFNN-ILC算法】【轨迹跟踪】基于神经网络的迭代学习控制用于未知SISO非线性系统的轨迹跟踪（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 第1部分 2 2 第2部分
Cortex-M3与M4权威指南

处理器类型所有的ARM Cortex M 处理器是32位的精简指令集处理器它们有 32位寄存器 32位内部数据路径 32位总线接口除了32位数据 Cortex M处理器也可以有效地处理器8位和16位数据以及支持许多涉及64位数据的操作
AI 赋能绿色制冷，香港岭南大学开发 DEMMFL 模型进行建筑冷负荷预测

近年来城市化进程加速所带来的碳排放量骤增已经严重威胁到了全球环境多个国家均已给出了碳达峰碳中和的明确时间点一场覆盖全球全行业的绿色革命已经拉开序幕在一众行业中建筑是当之无愧的能耗大户其中又以暖通空调 Heating

随机推荐

CAS单点登录-自定义认证登录策略(五）

在上一节中我们使用了CAS的提供的JDBC 方式的登录认证基本上能够满足我们多种需求的认证但是如果CAS框架提供的方案还是不能满足我们的需要比如我们不仅需要用户名和密码还要验证其他信息比如邮箱手机号但是邮箱手机信息在另一个数
毕业设计 - 基于stm32的WiFi监控小车

文章目录 1 背景 2 系统设计方案 2 1 实现功能 2 1 1 硬件部分 2 1 2 软件部分 2 1 3 WIFI通信功能 2 2 系统架构 2 2 1 WiFi 通信 2 2 2 电机驱动 2 2 3 摄像头 2 2 4 舵机 2
淘宝商品详情

contact link 待签名参数 uid ttid 231200 taobao android 9 16 0 data 7B 22itemNumId 22 3A 22638728868726 22 7D lng 23 366706 ut
【报错记录】解决CentOS免密失败的问题，以及解决免密问题的排查流程

前言本文相当于对之前的文章进行的补充原创三台CentOS7非root用户间实现相互间的免密登录 DCTANT的博客 CSDN博客现场遇到一台旧服务器与其他服务器免密失败的问题明明 ssh目录中authorized keys中的公钥
图片等比例缩放，javademo

图片等比缩小放大需要将图片适配到现有的目标中思想就是下面代码 int w Integer parseInt width 原始宽 int h Integer parseInt height 原始高 int w1 450 固定宽 int
Ubuntu下如何创建文本文件

找到要创建文件的位置右键单机打开终端输入sudo gedit 文件名字就可以创建成功啦
STM32 USART—串口通信

目录一串口通信协议物理层电平标准 1 RS232标准 2 USB转串口通讯常用 3 原生的串口到串口二串口通信协议软件层三串口功能框图 1 引脚 2 数据寄存器USART DR 3 字符帧组成介绍 4 发送与接收数据 5 串口
python加速之numpy与numba

最近在看深度学习加速计算时发现了numba加速库声称能加速python运行速速度高达百倍首先是测速的工具常规的测速工具是time time 但是在internet上看到有人说这个不准确 python有个强大的代码测速库 timei
linux top进程状态D

什么是D状态运行在KVM虚拟机里的一些进程突然出了问题这些出了问题的进程无法用kill杀掉使用ps可以看到这些进程处于D状态 build kbuild john ps a o pid ppid stat command PID PPI
浅谈Redis网络模型

1 Redis介绍 Redis 是C语言开发的一个开源高性能键值对的内存数据库也是一种NoSQL not only sql 非关系型数据库的数据库可以用来做数据库缓存消息中间件等场景在目前的技术选型中 Redis常常被用来作为数
python使用xpath批量爬取图片

import requests from lxml import etree import os if name main 创建文件夹存放照片 if not os path exists day07图片解析素材 os mkdir day0
C语言输出中文

include
【CSS模块化之路3】使用

CSS是一门几十分钟就能入门但是却需要很长的时间才能掌握好的语言它有着它自身的一些复杂性与局限性其中非常重要的一点就是本身不具备真正的模块化能力系列文章链接 CSS模块化之路1 使用BEM与命名空间来规范CSS CSS模块化之路2
如何对云服务进行安装措施

云服务器系统安全建议 1 修改云服务器系统默认远程登录端口 Linux远程端口修改参考文档 https cloud tencent com developer article 1124500 2 腾讯云平台有安全组功能里面您只需要放行业务
【Shader\j简单\Unity】Flowmap与光栅立体卡片效果

Flowmap与光栅立体卡片效果前言 FlowMap 代码前言实际上是尝试复原ta101第五课的一个小demo 目前还没有开课我也穷既然大纲给出来了如果有时间摸鱼那么就可以慢慢磨前面一大半的章节都比较基础适合我这种菜鸟前期咱
华为云主机被植入挖矿，主机变肉鸡破解实录。

1 主机被植入挖矿主机现象早上一大早来公司发现自己的华为云主机cpu使用一直飙高然后使用top命令查看发现top命令不能用此时得我知道事情不简单了然后使用last查看登录记录发现记录都被清空了然后history也是清空的看不
【华为OD机试真题 python】数字字符串组合倒序【2022 Q4

题目描述数字字符串组合倒序对数字字符数字串字符串以及数字与字符串组合进行倒序排列字符范围由 a 到 z A 到 Z 数字范围由 0 到 9 符号的定义作为连接符使用时作为字符串的一部分例如 20 years 作为一个整
初体验ipad

初体验ipad 今天星期六阳光明媚在去饭堂吃早餐的路上远远看见排球场人群涌动听见舞台上有人在唱歌心想肯定是什么飚歌大赛跟咱无关正准备转头离开突然瞄到 3G体验几个大字由于没戴眼镜看不清就眯着眼睛看了看写着 ipho
群晖服务器性能测试,对群晖DS716+进行性能测试_群晖 DS716+_企业存储技术与评测-中关村在线...

Iometer是一个工作在单系统和集群系统上用来衡量和描述I O子系统的工具可以被配置为模拟任何程序或者基准测试程序的磁盘和网络I O的负载或者用来产生整个综合的I O负载它也可以用来产生并测量单系统或者多系统网络的负载在性能测
【CUDA学习笔记】OneFlow公众号CUDA算子优化文章学习笔记

1 CUDA学习资料合集 OneFlow 岁末年初为你打包了一份技术合订本 2 GPU概念介绍 GPU的硬件结构与执行原理开源100天 OneFlow送上百天大礼包深度学习框架如何进行性能优化 2 1 内存模型 2 1 1 Bank

【CUDA学习笔记】OneFlow公众号CUDA算子优化文章学习笔记

1 CUDA学习资料合集

2 GPU概念介绍

2.1 内存模型

2.1.1 Bank介绍

3 算子优化

3.1 Conv

3.1.1 Img2col：卷积优化算法

3.1.2 Unfold & Fold

为什么这里out在索引时设计成6维的方式来进行操作呢？

3.2 Norm

3.2.2 LayerNorm

3.3 Elementwise operator

3.4 Softmax

（1）OneFlow为什么在Softmax实现时会使用ReduceMax操作呢？

3.5 Dim transformation

4 性能优化方法

4.1 CUDA Kernel中 grid_size 和 block_size 的设置优化

4.2 访存优化

4.2.1 Kernel fusion：核函数融合，一次访存，多次计算

（1）Element-wise kernel fusion

（2）借助 shared memory 合并带有Reduce计算的Kernel

（3）使用bitset优化mask计算

4.1.1 Memory access merging：内存访问合并

以 bitset mask 生成为例讲解访存合并

4.2 计算优化

4.3 延迟隐藏

4.4 优化小技巧