为什么 pytorch matmul 在 cpu 和 gpu 上执行时得到不同的结果？

2024-04-23

我试图找出 numpy/pytorch、gpu/cpu、float16/float32 数字之间的舍入差异，而我发现的内容让我感到困惑。

基本版本是：

a = torch.rand(3, 4, dtype=torch.float32)
b = torch.rand(4, 5, dtype=torch.float32)
print(a.numpy()@b.numpy() - a@b)

然而，结果如预期全为零

print((a.cuda()@b.cuda()).cpu() - a@b)

得到非零结果。为什么 Pytorch float32 matmul 在 gpu 和 cpu 上执行不同？

一个更令人困惑的实验涉及 float16，如下所示：


a = torch.rand(3, 4, dtype=torch.float16)
b = torch.rand(4, 5, dtype=torch.float16)
print(a.numpy()@b.numpy() - a@b)
print((a.cuda()@b.cuda()).cpu() - a@b)

这两个结果均非零。为什么 numpy 和 torch 处理 float16 数字的方式不同？我知道cpu只能进行float32运算，并且numpy在计算之前将float16转换为float32，但是torch计算也在cpu上执行。

你猜怎么着，print((a.cuda()@b.cuda()).cpu() - a.numpy()@b.numpy()) 得到全零结果！这对我来说纯粹是幻想……

环境如下：

蟒蛇：3.8.5
火炬：1.7.0
numpy：1.21.2
CUDA：11.1
显卡：GeForce RTX 3090

根据一些评论者的建议，我添加了以下平等测试

(a.numpy()@b.numpy() - (a@b).numpy()).any()
((a.cuda()@b.cuda()).cpu() - a@b).numpy().any()
(a.numpy()@b.numpy() - (a@b).numpy()).any()
((a.cuda()@b.cuda()).cpu() - a@b).numpy().any()
((a.cuda()@b.cuda()).cpu().numpy() - a.numpy()@b.numpy()).any()

分别直接执行上述五个打印函数，结果为：

False
True
True
True
False

对于最后一个，我已经尝试过好几次了，我想我可以排除运气的可能性。

正如 @talonmies 所提到的，差异主要是数字上的。 CPU/GPU 及其各自的 BLAS 库的实现方式不同，并且使用不同的操作/操作顺序，因此存在数值差异。

一种可能的原因是顺序操作与减少操作（https://discuss.pytorch.org/t/why- Different-results-when-multiplying-in-cpu-than-in-gpu/1356/3 https://discuss.pytorch.org/t/why-different-results-when-multiplying-in-cpu-than-in-gpu/1356/3），例如(((a+b)+c)+d) 与 ((a+b)+(c+d)) 相比将具有不同的数值属性。

这个问题 https://stackoverflow.com/questions/21020356/matrix-multiplication-on-cpu-numpy-and-gpu-gnumpy-give-different-results还谈到融合操作（乘加）可能会导致数值差异。

我做了一些测试，发现如果我们在计算前将数据类型提升为float32，然后将其降级，GPU在float16模式下的输出是可以匹配的。这可能是由于内部中间铸造或融合操作更好的数值稳定性造成的（torch.backends.cudnn.enabled不要紧）。但这并不能解决 float32 中的情况。

import torch

def test(L, M, N):
    # test (L*M) @ (M*N)
    for _ in range(5000):
        a = torch.rand(L, M, dtype=torch.float16)
        b = torch.rand(M, N, dtype=torch.float16)

        cpu_result = a@b
        gpu_result = (a.cuda()@b.cuda()).cpu()
        if (cpu_result-gpu_result).any():
            print(f'({L}x{M}) @ ({M}x{N}) failed')
            return
    else:
        print(f'({L}x{M}) @ ({M}x{N}) passed')


test(1, 1, 1)
test(1, 2, 1)
test(4, 1, 4)
test(4, 4, 4)

def test2():
    for _ in range(5000):
        a = torch.rand(1, 2, dtype=torch.float16)
        b = torch.rand(2, 1, dtype=torch.float16)

        cpu_result = a@b
        gpu_result = (a.cuda()@b.cuda()).cpu()

        half_result = a[0,0]*b[0,0] + a[0,1]*b[1,0]
        convert_result = (a[0,0].float()*b[0,0].float() + a[0,1].float()*b[1,0].float()).half()

        if ((cpu_result-half_result).any()):
            print('CPU != half')
            return
        if (gpu_result-convert_result).any():
            print('GPU != convert')
            return
    else:
        print('All passed')

test2()

Output:

(1x1) @ (1x1) passed
(1x2) @ (2x1) failed
(4x1) @ (1x4) passed
(4x4) @ (4x4) failed
All passed

你可以看出，当内部尺寸为1，它通过了检查（不需要乘法加法/归约）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 pytorch matmul 在 cpu 和 gpu 上执行时得到不同的结果？的相关文章

以不同顺序对多列上的结构化 Numpy 数组进行排序

我有一个结构化的 numpy 数组 dtype price float counter int values 35 1 36 2 36 3 a np array values dtype dtype 我想按价格排序如果价格相等则按计数器排
测试由于浮点限制而导致的舍入误差

我最近了解到浮点的主要限制之一事实上某些数字无法以二进制正确表示因此可能给出的答案对于您的目的来说不够准确知道round 2 675 2 and round 2 665 2 两者相等2 67我尝试编写一些代码来给出具有此属性的数字列
使用 NaN 计算 numpy 数组中的移动平均值

我正在尝试计算包含 NaN 的大型 numpy 数组中的移动平均值目前我正在使用 import numpy as np def moving average a n 5 ret np cumsum a dtype float ret n
四舍五入到 25、50、75、100

我不是一个数学爱好者所以我很难想出一个将小数四舍五入到 25 50 75 和 100 的计算方法这不会是典型的四舍五入因为小数不会减少但只增加了 Example 如果 11 12 则舍入为 11 25 如果为 11 34 则舍入为 1
numpy 中的分层抽样

在 numpy 中我有一个这样的数据集前两列是索引我可以通过索引将数据集分成多个块即第一个块是 0 0 第二个块是 0 1 第三个块 0 2 然后是 1 0 1 1 1 2 等等每个块至少有两个元素索引列中的数字可能会有所不同我
使用文件处理程序时 numpy savetxt 失败

在Windows 7上使用最新的numpy 1 13 3和PYTHON 3 5 如果我有一个名为points的数组其形状为m x 6 dtype为float32 我可以将数组保存到 foo txt 文件中如下所示 np savetxt
带有指针数组的 cython

我在 python 中有一个 numpy ndarrays 列表具有不同的长度并且需要非常快速地访问 python 中的列表我认为指针数组就可以解决问题我试过 float type t list of arrays no of ar
如何使用 pandas 选择所有非 NaN 列和非 NaN 最后一列？

如果标题有点令人困惑请原谅我假设我有test h5 下面是使用读取该文件的结果df read hdf test h5 testdata 0 1 2 3 4 5 6 0 123 444 111 321 NaN NaN NaN 1 12 2
如何“缩放”numpy 数组？

我想将形状 h w 的数组缩放 n 倍从而得到形状 h n w n 的数组其中假设我有一个 2x2 数组 array 1 1 0 1 我想将数组缩放为 4x4 array 1 1 1 1 1 1 1 1 0 0 1 1 0 0 1 1
让 distutils 在正确的位置查找 numpy 头文件

在我的安装中 numpy 的arrayobject h位于 site packages numpy core include numpy arrayobject h 我编写了一个使用 numpy 的简单 Cython 脚本 cimport
将具有不同大小的行的数据加载到 Numpy 数组中

假设我有一个包含如下数据的文本文件 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 如何将它加载到 numpy 数组中使其看起来像这样 1 2 3 4 5 0 6 7 8 0 0 0 9 1
将索引数组转换为 NumPy 中的 one-hot 编码数组

给定一个一维索引数组 a array 1 0 3 我想将其一次性编码为二维数组 b array 0 1 0 0 1 0 0 0 0 0 0 1 创建归零数组b有足够的列即a max 1 然后对于每一行i 设置a i 第列至1 gt
将非方邻接矩阵导入 Networkx python

我在下面有一些 pandas 数据框形式的数据其中列代表离散技能行代表离散工作仅当工作需要该技能时才存在 1 否则为 0 skill 1 skill 2 job 1 1 0 job 2 0 0 job 3 1 1 我想使用 netwo
当 pandas 是导入时，Cx_freeze TypeError 只能使用 numpy 依赖项将列表（不是“NoneType”）连接到列表

我正在尝试使用 cxfreeze 将以下脚本转换为可执行文件 import datetime from calendar import monthrange from tia bbg import LocalTerminal as Lt i
使用 scipy、python、numpy 进行非线性 e^(-x) 回归

下面的代码为我提供了一条最佳拟合线的平坦线而不是沿着 e x 模型的一条适合数据的漂亮曲线谁能告诉我如何修复下面的代码以使其适合我的数据 import numpy as np import matplotlib pyplot as pl
求解超定系统最小二乘的最快方法

我有一个大小为 m n 的矩阵 A m 阶约为 100K n 阶约为 500 和向量 b 另外我的矩阵是病态的并且等级不足现在我想找出 Ax b 的最小二乘解为此我比较了一些方法 scipy linalg lstsq 时间剩余 14
如何计算总和的平方和？

我有一笔款项需要加快处理速度在一种情况下是 S x y k l Fu ku Fv lv Fx kx Fy ly 另一种情况是 S x y S k l Fu ku Fv lv Fx kx Fy ly 2 注意 S indices 是这些索引
使用 Scipy/Numpy 在浊点的二维插值中仅获取“有效”点

我有一个通过人的背部摄影测量获得的浊点我正在尝试对其进行插值以获得规则网格为此我正在使用scipy interpolate到目前为止取得了良好的成果问题是我正在使用的函数 scipy interpolate griddata 使用平
Python Numpy Reshape错误[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我在尝试重塑 3D numpy 数组时遇到一个奇怪的错误数组 x 的形状为 6 10 300 我想将其重塑为 6 3000 我正
如何调试 numpy 掩码

这个问题与this one https stackoverflow com q 73672739 11004423 我有一个正在尝试矢量化的函数这是原来的函数 def aspect good angle float planet1 goo

随机推荐

捕获文件似乎在数据包中间被缩短 - 如何防止此错误？

在我的应用程序中我打开 Tshark 进程并开始捕获当我想完成捕获时我会终止 Tshark 进程因此有时捕获文件已损坏当我尝试打开此文件时我收到错误捕获文件似乎在数据包中间被剪短如何防止此错误有没有更好的方法来关闭 Tshar
来自 .meta .info .data 的 Tensorflow 冻结推理图并组合冻结推理图

我是张量流新手目前正在努力解决一些问题如何在没有管道配置的情况下从 meta data info 获取冻结推理图我想实时检查预先训练的交通标志检测模型模型包含 3 个文件 meta data info 但我找不到信息如何在没有管道
为什么在 Pandas 中使用 apply 时会出现额外的索引

当我使用apply对于 Pandas 中的用户定义函数看起来 python 正在创建一个附加数组我怎样才能摆脱它呢这是我的代码 def fnc group x group C values out x np where x lt 0
带计数的 EF Core 左连接

我在 MySql 数据库上有 3 个表我想在这 3 个表之间进行左连接并使用 group by 进行计数城市表 Id Name 学校桌 Id CityId Name 学生桌 Id SchoolId Name MySql raw quer
如何在 Azure DevOps 中启用 Docker 层缓存

我正在运行下面的 yaml 脚本来构建 docker 映像并推送到 kubernetes 集群但同时我想在构建 yaml 脚本时在 azure DevOps 中启用 docker 层缓存您能否解释一下如何启用或如何添加azure dev
当数据更改时，ggvis 中的 linked_brush 无法在 Shiny 中工作

我想创建一个闪亮的应用程序它使用 ggvis 绘制交互式图形并使用 linked brush 选择图形中的点绘图数据根据输入而变化但是当我尝试将所有内容放在一起时我收到一条错误消息 Error Length of calculat
使用 AVPlayer 的 MTAudioProcessingTap 和远程 URL 进行 AVFoundation 音频处理

关于以下内容的文档很少AVA音频混合 http developer apple com library mac documentation AVFoundation Reference AVAudioMix Class Reference
Flexbox 中的第一个子级全角

如何将 Flexbox 的第一个子项设置为全角并将所有其他子项设置为flex 1 用于分割空间像这样您可以设置 first child宽度为100 以及其余的孩子 not first child to flex 1 要将它们放在多行上
带有多个闹钟的Android闹钟[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我想创建一个带有多个闹钟的闹钟我想
一种自动取消和重新启动任务的模式

是否有推荐的自我取消和重新启动任务的既定模式例如我正在开发后台拼写检查器的 API 拼写检查会话被包装为Task 每个新会话都应该取消前一个会话并等待其终止以正确地重新使用拼写检查服务提供者等资源我想出了这样的东西 class Sp
Android Web 视图中隐藏在键盘下方的文本框

我创建了一个简单的 iPhone Android 应用程序包含一个普通的 Web 视图这个网络视图调用我的网站在我的网站上有几种输入类型文本或文本区域的表单当它们位于页面底部时我遇到了问题 1 在我的iPhone应用程序中键盘
将内部图像替换为外部图像

用户单击蒙版并上传图像其显示的同一张图片两次 also Edit文本正在图像上显示一旦用户单击编辑文本我们就会显示pop up box 在那里我们可以看到Zoomin Zoomout按钮正在显示 Issue 一旦我们点击这些按钮
如何解决此 Log4J 导入错误（也与类路径相关）？

当我运行以下简单的 log4J 示例时出现错误 import org apache logging log4j core import java io import java sql SQLException import java ut
在SQL Server中将float转换为varchar而不使用科学记数法

在 SQL Server 中将 float 转换为 varchar 无需科学记数法和修剪小数例如我有浮点值1000 2324422 然后它会被转换成varchar一样1000 2324422 可以有任意数量的小数值浮点值是随机出现的
在 python -flask -jinja2 模板中迭代多个列表

我在迭代中遇到问题for loop在 Flask jinja2 模板中的多个列表上我的代码如下所示 Type RS IDs 1001 1002 msgs Success Success rcs 0 1 return render temp
错误：“rake/rdoctask”已过时且不再受支持

突然我开始收到以下错误消息 in Users me rvm gems ruby 1 9 3 p125 mysql2 gems rails 0 9 5 rake aborted ERROR rake rdoctask is obsolete
end()在STL容器中是如何实现的？

因此当我们需要从头到尾遍历容器时我们会写类似的内容 for i v gt begin i v gt end i 假设i是容器的迭代器v 我的问题是什么保证 end 将始终指向容器中最后一个元素之后的一个 STL 如何确保这种行为这种
使用 Django 通过 AJAX URL 传递参数

下面是我的代码 n 在控制台中正确记录如果我手动输入 n 的值一切都会完美运行url url delete photo iddy 2 唉当我尝试使用 n 作为变量如下所示时它给了我一个反向匹配未找到错误有人能帮忙吗 javas
仅具有 getter 的属性与具有 getter 和私有 setter 的属性

这些是一样的吗 public string MyProp get vs public string MyProp get private set 我的意思是在这两个版本中该属性都可以在其自己的类中设置但对于其他类来说是只读的 publi
为什么 pytorch matmul 在 cpu 和 gpu 上执行时得到不同的结果？

我试图找出 numpy pytorch gpu cpu float16 float32 数字之间的舍入差异而我发现的内容让我感到困惑基本版本是 a torch rand 3 4 dtype torch float32 b torch r

为什么 pytorch matmul 在 cpu 和 gpu 上执行时得到不同的结果？

为什么 pytorch matmul 在 cpu 和 gpu 上执行时得到不同的结果？ 的相关文章

随机推荐

热门标签

为什么 pytorch matmul 在 cpu 和 gpu 上执行时得到不同的结果？的相关文章