为什么GPU做矩阵乘法比CPU更快？

2024-01-22

我已经使用 GPU 一段时间了，没有质疑它，但现在我很好奇。

为什么GPU做矩阵乘法比CPU快很多？是因为并行处理吗？但我没有写任何并行处理代码。它自己会自动完成吗？

任何直觉/高级解释将不胜感激！

如何并行计算？

GPU 能够进行大量并行计算。比 CPU 能做的要多得多。看一下这个 1M 个元素的向量加法示例。

使用 CPU 假设您最多可以运行 100 个线程：（100 是很多，但让我们假设一下）

在典型的多线程示例中，假设您在所有线程上并行添加。

这就是我的意思：

c[0] = a[0] + b[0] # let's do it on thread 0
c[1] = a[1] + b[1] # let's do it on thread 1
c[101] = a[101] + b[101] # let's do it on thread 1

我们能够做到这一点是因为 c[0] 的值不依赖于除 a[0] 和 b[0] 之外的任何其他值。因此，每个添加都是独立于其他添加的。因此，我们能够轻松地并行化该任务。

正如您在上面的示例中看到的，100 个不同元素的添加同时进行，节省了您的时间。这样需要 1M/100 = 10,000 步才能添加所有元素。

GPU 并行化的效率如何？

现在考虑一下今天的 GPU 大约有 2048 个线程，所有线程可以在恒定时间内独立执行 2048 个不同的操作。因此给予提升。

在你的矩阵乘法的情况下。你可以并行计算，因为 GPU 有更多的线程，并且每个线程中有多个块。因此许多计算是并行的，从而实现快速计算。

但我没有为我的 GTX1080 编写任何并行处理！它自己做吗？

几乎所有机器学习框架都使用所有可能操作的并行实现。这是通过 CUDA 编程、NVIDIA API 在 NVIDIA GPU 上进行并行计算来实现的。你不明确地写出来，都是在底层完成的，你甚至不知道。

是的，这并不意味着您编写的 C++ 程序会自动并行化，仅仅因为您有 GPU。不，你需要使用CUDA来编写它，然后它才会被并行化，但是大多数编程框架都有它，所以你端不需要它。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

parallelprocessing

GPU

matrixmultiplication

Pytorch

为什么GPU做矩阵乘法比CPU更快？的相关文章

使用批量乘法的tensorflow的tensordot中的障碍

我正在张量流中实现 RBM 使用小批量实现参数更新存在障碍有2个张量第一个张量的形状是 100 3 1 第二个张量的形状是 100 1 4 数字 100 是批次大小所以我想将这些张量相乘得到 100 3 4 张量但是当我实现这样的
TensorFlow：在输入处获取梯度时性能缓慢

我正在使用 TensorFlow 构建一个简单的多层感知器并且我还需要获取神经网络输入损失的梯度或误差信号这是我的代码它有效 cost tf reduce mean tf nn softmax cross entropy with
无法将大小为 1665179 的数组重塑为形状 (512,512,3,3)

该脚本用于进行检测权重文件是 yolov4 coco 预训练模型可以在这里找到 https drive google com file d 1cewMfusmPjYWbrnuJRuKhPMwRe b9PaT view https dri
在Pytorch中计算欧几里得范数..理解和实现上的麻烦

我见过另一个 StackOverflow 线程讨论计算欧几里德范数的各种实现但我很难理解特定实现的原因如何工作该代码可以在 MMD 指标的实现中找到 https github com josipd torch two sample b
如何在anaconda python 3.6上安装tensorflow

我使用 anaconda 包安装了新版本的 python 3 6 但是我无法安装张量流总是收到这样的错误 tensorflow gpu 1 0 0rc2 cp35 cp35m win amd64 whl 在此平台上不受支持如何在 ana
Native TF 与 Keras TF 性能比较

我使用本机和后端张量流创建了完全相同的网络但在使用多个不同参数进行了多个小时的测试后仍然无法弄清楚为什么 keras 优于本机张量流并产生更好稍微但更好的结果 Keras 是否实现了不同的权重初始化方法或者执行除 tf train
Tensorflow `tf.layers.batch_normalization` 不会向 `tf.GraphKeys.UPDATE_OPS` 添加更新操作

以下代码复制粘贴可运行说明了如何使用tf layers batch normalization import tensorflow as tf bn tf layers batch normalization tf constant
mclapply 调用应该嵌套吗？

正在筑巢parallel mclapply是个好主意吗 require parallel ans lt mclapply 1 3 function x mclapply 1 3 function y y x unlist ans Outpu
Keras ImageDataGenerator 相当于 csv 文件

我在文件夹中排序了一堆数据如下图所示我需要构建一个 DataIterator 以便将数据放入神经网络模型中当数据是图像时我找到了很多例子来解决这个问题使用 Keras 类图像数据生成器及其方法流自目录但当数据是 csv 结构时则
Pytorch 与 joblib 的 autograd 问题

将 pytorch 的 autograd 与 joblib 混合似乎存在问题我需要并行获取大量样本的梯度 Joblib 与 pytorch 的其他方面配合良好但是与 autograd 混合时会出现错误我做了一个非常小的例子显示串行
满足条件时终止所有进程

我正在使用星图来运行测试功能当进程首次找到排列 5 2 4 3 1 时终止所有进程的最佳最安全方法是什么 import multiprocessing as mp import time def testing lts code st
在 Keras 上使用回调 Tensorboard 时出现 AttributeError：“Model”对象没有属性“run_eagerly”

我已经使用 Keras 的功能 API 构建了一个模型当我将 Tensorboard 实例添加到 model fit 函数的回调中时它会抛出一个错误 AttributeError Model object has no attribut
ValueError：使用火炬张量时需要解压的值太多

对于神经网络项目我使用 Pytorch 并使用 EMNIST 数据集已经给出的代码加载到数据集中 train dataset dsets MNIST root data train True transform transforms T
可视化 TFLite 图并获取特定节点的中间值？

我想知道是否有办法知道 tflite 中特定节点的输入和输出列表我知道我可以获得输入输出详细信息但这不允许我重建发生在Interpreter 所以我要做的是 interpreter tf lite Interpreter model
ValueError：没有为“dense_input”提供数据

我正在使用以下简单的代码使用tensorflow加载csv并使用keras执行建模无法弄清楚这个错误 import tensorflow as tf train dataset fp tf keras utils get file fna
张量流如何处理无法存储在一个盒子中的大变量

我想通过训练超过十亿特征维度的数据来训练 DNN 模型因此第一层权重矩阵的形状将为 1 000 000 000 512 这个权重矩阵太大无法存储在一个盒子中目前有没有什么解决方案来处理这么大的变量例如将大的权重矩阵划分为多个框 Up
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1
Tensorflow conv2d_transpose 大小错误“out_backprop 的行数与计算的不匹配”

我正在张量流中创建一个卷积自动编码器我得到了这个确切的错误 tensorflow python framework errors InvalidArgumentError Conv2DBackpropInput Number of row
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y

随机推荐

Rails 协会中未找到名为关联的可能拼写错误的问题

这是我的控制器 post Post joins customers select customers posts find params id 我的帖子模型 belongs to customer 我的客户模型 has many posts
如何在 AngularJS 单元测试中模拟 Promise 的结果？

My CompanyService is angular module mean service CompanyService http rootScope q function http rootScope q var company t
从异步 Firestore 查询返回值 swift

我正在尝试查询我的 Firestore 数据库以查看是否使用了所需的用户名该查询有效但是我需要返回一个值如果该值为空或不存在以查看用户名是否已存在我正在尝试使用完成处理程序但它似乎不起作用 func checkUserTaken
Git - 将代码推送到两个遥控器

I have two远程 git 存储库 origin and github 我推我的分支devel到两个存储库 git push u origin devel git push u github devel 但当我这么做的时候 git p
如果用户可以使用 rtl 或 ltr 语言，如何自动更改输入字段的 CSS 方向属性

示例如果我使用阿拉伯语则文本字段方向将为 rtl 如果我想编写新文本并切换到英语则文本字段内的方向 text align left 将自动为 ltr 您可以使用全局 HTML5 属性dir值为auto在这里像这样
在 Google App Engine 中生成唯一且不透明的用户 ID

我正在开发一个应用程序它允许注册用户创建或上传内容并允许匿名用户查看该内容并浏览注册用户的页面以查找该内容这与 Flickr 等网站允许的方式非常相似人们浏览其用户的页面为此我需要一种方法来识别匿名 HTTP GET 请求中的用户
重写公式字符串，将 a^b 替换为 Math.pow(a, b)

我目前正在尝试在 HTML5 上绘制公式
设计帮助 – 多态事件处理

设计问题多态事件处理我目前正在尝试减少当前项目中事件句柄的数量我们有多个通过 USB 发送数据的系统我目前有一个例程来读取消息并解析初始标头详细信息以确定消息来自哪个系统标头有点不同因此我创建的 EventArgs 不一样然后
通过 Oauth 以编程方式从 Gmail 注销

我有一个网站我使用 Oauth 将用户登录到 Gmail 然后检索他们的联系人和其他信息我需要做什么才能确保当用户注销我的网站时他也会自动从 Gmail 注销据我所知 OAuth 中没有注销功能您只需停止在应用程序和 Gmail
如何使用 AngularJS 更新/编辑数据库中的数据

在开发网络应用程序时我刚刚添加了以下更新代码但它不起作用以下所有代码的摘要是单击名为的按钮update 它会显示表格其中应包含单击当前产品的值现在当我以这种形式点击保存时它应该更新数据库但事实并非如此我在用 GET
Files.createDirectory() ：FileAlreadyExistsException

我在使用 Java 7 时遇到了一个看似奇怪的问题Files班级我想在开始编写之前确保我的目录和文件存在以避免FileNotFoundException 并根据Javadocs http docs oracle com javase 7
带线程的 Python 超时上下文管理器

I have timeout上下文管理器与信号完美配合但在多线程模式下会引发错误因为信号仅在主线程中工作 def timeout handler signum frame raise TimeoutException contextma
Django Rest框架-调用另一个基于类的视图

我仔细研究了几个类似的帖子并且从同一项目中的另一个应用程序调用应用程序的基于类的视图 https stackoverflow com questions 46606247 calling a class based view of an
shell脚本-检查mongodb服务器是否正在运行

我有一个 shell 脚本来执行一些 mongo db 操作 e g mongo testdb eval db dropDatabase 但是如果 mongodb 服务器没有运行我会得到 MongoDB shell version 2
访问 WPF DataGrid“空”或“行列”标头

我试图访问 Net3 5 WPF DataGrid 中行标题和列标题交叉处的标题乔什史密斯 Josh Smith 在有关不同网格控件的文章中将其称为空标题我将其称为 RowColumn 标题因为它位于列标题和行标题的第一个位置并
使用 Beta API 创建新会议时出现“onlinemeeting 不能为空”错误

我正在尝试创建一个新会议文档 https developer microsoft com en us graph docs api reference beta api application post onlinemeetings POS
location.href 不起作用

我早些时候使用过 location href 但现在它没有重定向到页面这是我的代码 function AuthenticateUserWithPage var UId amwayId val username var UPw amwayP
Eclipse - Galileo IDE 在构建之前强制保存更改的文件？

当我使用以前版本的 Eclipse 例如 Ganymede Europa 时如果我编辑了一个文件然后尝试构建 Eclipse 会提示我先保存由于我更新到 Galileo 构建 ID 20090920 1017 并刚刚检查更新当我构建时
如何使用 font-awesome 在 angular5 视图中显示评论星星

我在数据库中有评论星级值例子2 5对于一个项目我想使用 font awesome 在模板中显示它 ul class rating inline ul li i class fa fa star amber text i li li i
为什么GPU做矩阵乘法比CPU更快？

我已经使用 GPU 一段时间了没有质疑它但现在我很好奇为什么GPU做矩阵乘法比CPU快很多是因为并行处理吗但我没有写任何并行处理代码它自己会自动完成吗任何直觉高级解释将不胜感激如何并行计算 GPU 能够进行大量并行计算比

热门标签