Blas xGEMMBatched launch failed的出现原因

2023-10-27

如果你的cudatoolkit是9.x版本的，在执行两个很大的batch做matmal的时候，可能会报一个很奇怪的错误：

但是实际上你的显存是够的。为什么会报这样的错误呢？

这个问题困扰了我好几天。从网上查阅了很多资料，才发现是cublas的内部的一个保护机制。当你对两个batch做matmul的时候，如果batch的大小大于172800(大概是这么一个数)，就会报错。不太确定cudatoolkit10.x还有没有类似的问题，但是至少cudatoolkit9.x都会遇到这个问题，所以只能想办法把batch改小一点。

注意这里说的batch大小是说矩阵相乘的前面的维度的综合。比如你要做的操作是:

tf.matmul(tf.ones([512, 1024, 4, 2]), tf.ones([512, 1024, 2, 1]))

也会报错的。虽然后面真实相乘的矩阵很小，但是512*1024>172800了，所以会报错。

不信的话，你可以用下面的程序测试一下：

import tensorflow as tf
import numpy as np

config = tf.ConfigProto()
config.gpu_options.allow_growth=True
tf.Session(config=config).close()

def calc():
    N = 15 # works for N <= 14

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Blas xGEMMBatched launch failed的出现原因的相关文章

窗口变化相关消息 OnSize、OnSizing和OnGetMinMaxInfo

最近用到窗口变化的一些东西遇到几个相关的消息函数简要分析作为备忘 3个消息分别是 WM SIZE WM SIZING WM GETMINMAXINFO 分别对应相应的处理函数 OnSize OnSizing OnGetMinMaxIn
Redis 10 大性能优化策略

来源阿里开发者 ID ali tech 一 Redis为什么变慢了 1 Redis真的变慢了吗对 Redis 进行基准性能测试例如我的机器配置比较低当延迟为 2ms 时我就认为 Redis 变慢了但是如果你的硬件配置比较高那
Metasploitable2靶机渗透

Metasploitable2靶机渗透 Metasploitable2介绍 Metasploitable2 虚拟系统是一个特别制作的ubuntu操作系统本身设计作为安全工具测试和演示常见漏洞攻击版本2已经可以下载并且比上一个版本包含更
阿里云服务器安全组放行宝塔端口8888

阿里云服务器安装宝塔面板需要在安全组中开放8888 888 80 443 20 21端口安全组默认只开放22和3389端口阿里云服务器网来详细说下阿里云服务器ECS安全组开放宝塔面板端口的方法教程云服务器安全组开放宝塔端口阿里云服务
SpringBoot + Apache Shrio 构建通用权限系统，提示SecurityUtils.getSubject().getPrincipal() 转换类型错误

构建SimpleAuthenticationInfo 权限配置信息 new SimpleAuthenticationInfo user password getName 参数说明 user 用户信息 password 用户密码 realm
Unity-网络开发（三）

大小端模式什么是大小端模式大端模式是指数据的高字节保存在内存的低地址中而数据的低字节保存在内存的高地址中这样的存储模式有点儿类似于把数据当作字符串顺序处理地址由小向大增加数据从高位往低位放符合人类的阅读习惯小端模式是指数
c语言桶排序对链表,关于算法：如果我们使用链表实现存储桶，存储桶排序的复杂度如何为O(n + k)？...

我很好奇如果我们使用通过链表实现的存储桶为什么存储桶排序的运行时间为O n k 例如假设我们有以下输入 n no of element 8 k range 3 array 2 2 1 1 1 3 1 3 桶将如下所示 1 1 gt 1
虚拟化习题（1）

1 单选题 vmdk后缀的文件是 A 磁盘文件 B 内存文件 C 快照文件 D 磁盘锁文件 2 单选题链接克隆是通过父虚拟机的创建而成因此节省了磁盘空间而且克隆速度非常快但是克隆后的虚拟机性能能会有所下降 A 磁盘 B 镜像 C
【202206-3】角色授权

AC的快乐无与伦比本蒟蒻刚看到这道题时就被超长的题干和复杂的关系唬住了于是学习了各路大神的解法终于AC 成功照虎画猫了现将在此过程中学到的种种知识总结如下作为本小白菜不但小白还有菜的编程笔记 Attention 一 C 中的
第十届全国大学生信息安全竞赛-线上赛 write up（持续更新）

0x00 WEB PHP execise web150 这是一道分值150的web题打开题目链接之后看到题目界面可以看到有一处输入的地方可以输入PHP语句尝试执行以下phpinfo 这里解释下 phpinfo是一个运行指令目的为显
15个常用excel函数公式_（干货）EXCEL常用函数公式大全及举例

今天和大家分享一组常用函数公式的使用方法用心掌握这些函数工作效率会大大提升欢迎转发给更多有需要的人一相关概念一函数语法由函数名括号参数组成例求和函数 SUM A1 B2 参数与参数之间用逗号隔开二运算符 1
渗透测试网络攻防--OSINT和被动侦察

OSINT OSINT 是指可以从公告资源特别是互联网中可以进行信息收集分类进攻性收集目标测试过程中的相关信息防御性收集目标以前的违规信或与之相关的安全信息收集信息范围进攻域名谷歌缓冲子域名 IP地址电子邮件共享主
C语言课程设计：单项选择题标准化考试系统

导入时图片加载异常故本文图例和图片均已隐去只保留了功能结构图程序设计环境 Visual Studio Code Sublime 4 一课程设计任务 1 1课题背景本项目旨在开发一个单项选择题标准化考试系统能够方便地管理试题库抽
电脑能上网却打不开某个网站

电脑能上网却打不开某个网站解决方法方法一打开电脑命令行按住win r键输入cmd 回车查看系统过往DNS地址记录 ipconfig displaydns 回车清除DNS缓存记录 ipconfig flushdns 回车方法二在
SLA(服务等级协议)

SLA Service Level Agreement的缩写意思是服务等级协议是关于网络服务供应商和客户间的一份合同其中定义了服务类型服务质量和客户付款等术语定义SLA Service Level Agreement的缩写意思是
[递归与分治算法][BOJ]1032-邮局选址问题

其实这个题和上一个输油管道问题是异曲同工只不过这个题目要分别求出横坐标和纵坐标的中位数 include
基于预测的云资源弹性伸缩框架 MagicScaler，实现“高QoS，低成本”双丰收

开篇近日由阿里云计算平台大数据基础工程技术团队主导与计算平台MaxCompute团队华东师范大学数据科学与工程学院达摩院合作基于预测的云计算平台资源弹性伸缩框架论文 MagicScaler Uncertainty aware P
python 图片与二进制之间的转换

一 PIL格式图片转成二进制先读取为PIL格式再转为二进制 import io import base64 from PIL import Image def image2byte image 图片转byte image 必须是PIL格
curl wget 不验证证书进行https请求

wget https x x x x get ips no check certificate curl https x x x x get ips k
matlab watershed函数简单实现_薛定宇教授大讲堂（卷）：MATLAB程序设计

00作者简介薛定宇分别在沈阳工业大学东北大学和英国Sussex大学获得学士 1985年硕士 1988年和博士学位 1992年 1997年任东北大学信息学院教授深耕于计算机在数学与自动控制学科的应用主持了国家精品课程建设并于1

随机推荐

海龙科技荣获2011年IP-Guard企业信息安全监管系统深圳地区最高白金代理商

如何在不影响原有工作流程的前提下保护设计图纸财务数据客户信息等关系到公司核心利益的敏感数据如何防止内部用户在使用机密文档时利用剪贴板截屏打印等方式有意或者无意的泄露敏感内容如何防止用户利用QQ MSN Email等私自外发文档造
JS字符串格式化

字符串格式化String prototype format function var values arguments return this replace d g function match index if values lengt
【C++】宏函数的巧用

2023年9月10日周日上午目录怎么定义有多行代码的宏函数示例程序一输出文本示例程序二统计时间怎么定义有多行代码的宏函数如果需要定义多行代码的宏函数可以在宏函数中使用反斜杠来表示该行代码还未结束继续在下一行继续编写代
Linux 如何省去git记忆用户名和密码输入

You can check your credentials storage by the following command vim git credentials 也可以直接编辑该文件 http username password gi
【用户行为分析】-JS端埋点

需求在用户购买会员卡时埋点获取的事件属性包括神策预置属性卡类型卡名称购卡支付金额等数据事件设计实现引入Js SDK 将获取到的代码放入html 的 head 里面靠前的位置处 JS SDK获取方式参考神策官网 http
selenium应对选中元素属性为隐藏的解决方案

一表现形式可以看到在密码输入的位置 style对应的属性是style display none 然后我们使用selenium去对应输入框send keys 的时候就会发现会报错输入不进去内容二问题分析官方文档大白话讲的话意思就
JavaDay07

打印10000以内的所有完全数如果一个正整数等于除了它本身之外所有除数之和这个数就是完全数如6 1 2 3 28 1 2 4 7 14 package com bjpowernode day07 demo01 exercise 打印1
多样性指数介绍

之前了解了shannon diversity index 所以顺便补一下其他多样性指数的概念 I AM 分割线 1 Species richness 系统中物种的观察值是其真实物种丰富度的有偏估计值并且观察值会随着取样的增加非线性的增长
3.1 PTQ与QAT的介绍

1 前言 TensorRT有两种量化模式分别是implicitly量化隐式量化以及explicitly量化显性量化隐式量化 trt7 版本之前只具备 PTQ 一种量化形式 trtexec直接转换各层精度不可控显示量化显性量
Pytorch:dtype不一致(expected dtype Double but got dtype Float)

RuntimeError Expected object of scalar type Double but got scalar type Float for argument 3 mat2 in call to th addmm out
C++使用string的大数运算（1）加法

本次项目目标使用C 完成对于大数的相关运算项目要点 1 大数指的是远超long long int的数据 2 将大数用矩阵进行存储并通过矩阵实现运算 3 本人采用字符串进行存储应注意char的特点比如 char a 161 cout
为硬件保留的存储空间怎么释放出来?

为硬件保留的内存是系统为CPU 显卡声卡 USB 硬盘主板各管理控制芯片等设备保留了部分内存释放方法如下 1 点击开始菜单在搜索框中输入 msconfig 随后上方的搜索结果会显示出 msconfig 的图标直接点击进入 2
PTA4(python)

程序设计04 选择与循环 7 1 身体质量指数高教社 Python编程基础及应用习题6 3 7 2 计算分段函数f x 的值 7 3 程序员买西瓜 7 4 超速处罚加测试数据 7 5 数据比较 7 6 运输打折问题 7 7 jmu p
【Easyexcel】根据模板导出excel

主要实现通过模板导出对应数据生成excel 1 版本 Maven com alibaba easyexcel 3 0 5 2 代码实现 ExportExcelBase 是定义一些非列表的字段如下导出时间等工具类 import co
Windows系统中Apache Http服务器简单使用

1 简介 Apache HTTP服务器是一个开源的跨平台的Web服务器软件它由Apache软件基金会开发和维护 Apache HTTP服务器可以在多种操作系统上运行如Windows Linux Unix等并且支持多种编程语言和技术
基于Swagger3.0的真实项目常用注解

文章目录 entity层 mapper层 Service层 query层 VO层 Convert层 Controller层 entity层作用在类上 Schema 类和字段皆用 Swagger3 0提供的注解用来描述类或字段 Data
什么是决策表？

1 决策表是一种用于表示和分析决策逻辑的表格形式它通常用于制定规则以便根据条件和决策动作来确定适当的行动 2 决策表的主要构成部分是规则规则由条件和动作组成条件是指某些情况或特定事件的发生而动作则是在满足条件的情况下需要执行的行动
给定一个二叉树的根节点 root ，返回它的中序遍历。【LeetCode Hot 100】

力扣热题100之第94题方法一递归法首先我们得知道什么是二叉树的中序遍历左子树节点根节点右子树节点就是遇到节点时优先遍历该节点的左子树等遍历完了再到根节点最后是右子树如下图所示那么这棵二叉树中序遍历的结果就为 4 2
hive详解（函数）

hive函数分为内置函数和自定义函数内置函数 show functions 查看函数 desc function 查看用法排名函数 3种 row number 没有并列相同名次按顺序排同分不同名 rank 有并列相同名次空位 de
Blas xGEMMBatched launch failed的出现原因

如果你的cudatoolkit是9 x版本的在执行两个很大的batch做matmal的时候可能会报一个很奇怪的错误但是实际上你的显存是够的为什么会报这样的错误呢这个问题困扰了我好几天从网上查阅了很多资料才发现是cublas的内

Blas xGEMMBatched launch failed的出现原因

Blas xGEMMBatched launch failed的出现原因 的相关文章

随机推荐

热门标签

Blas xGEMMBatched launch failed的出现原因的相关文章