GPU计算

2023-11-10

文章目录

GPU计算

GPU计算

1. GPU和CPU的区别

设计目标不同，CPU基于低延时，GPU基于高吞吐。

CPU：处理各种不同的数据类型，同时又要逻辑判断又会引入大量的分支跳转和中断的处理
GPU：处理类型高度统一的、相互无依赖的大规模数据，不需要被打断的纯净的计算环境

什么类型的程序适合在GPU上运行?

计算密集型
易于并行的程序

2. GPU的主要参数解读

显存大小：当模型越大或者训练时的批量越大时，所需要的显存就越多。
FLOPs：每秒浮点运算次数（亦称每秒峰值速度）是每秒所运行的浮点运算次数（英语：Floating-point operations per second；缩写：FLOPS）的简称，被用来估算电脑性能，尤其是在使用到大量浮点运算的科学计算领域中。
显存带宽：显存在一个时钟周期内所能传送数据的位数；位数越大则瞬间所能传输的数据量越大。

3. 如何在pytorch中使用GPU

模型转为cuda
数据转为cuda
输出数据去cuda，转为numpy

在这里插入图片描述

如果有可用的数个GPU：可以设置dev="cuda:0"或dev="cuda:1"。需要注意的是，如果使用多卡进行训练和预测，可能会出现部分计算结果丢失的情况。在有GPU条件下，可以尝试“训练用单卡，预测用多卡”、“训练用多卡、预测用单卡”等几种情况下的结果。

4. 市面上主流GPU的选择

参考：https://www.bybusa.com/gpu-rank

https://zhuanlan.zhihu.com/p/61411536

http://timdettmers.com/2020/09/07/which-gpu-for-deep-learning/

使用主机机箱配置或者（云）服务器，不要使用笔记本。

入门免费：Colab，Kaggle（RTX 2070）

针对不同深度学习架构，GPU参数的选择优先级是不一样的，总体来说分两条路线：

卷积网络和Transformer：张量核心>FLOPs（每秒浮点运算次数）>显存带宽>16位浮点计算能力

循环神经网络：显存带宽>16位浮点计算能力>张量核心>FLOPs

欢迎各位关注我的个人公众号：HsuDan，我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习

软件工具

Pytorch

GPU计算的相关文章

Pytorch 说 CUDA 不可用（在 Ubuntu 上）

我正在尝试在我拥有的笔记本电脑上运行 Pytorch 这是一个较旧的型号但它确实有 Nvidia 显卡我意识到这可能不足以实现真正的机器学习但我正在尝试这样做以便我可以了解安装 CUDA 的过程我已按照上面的步骤操作安装指南 ht
torch.unique() 中的参数“dim”如何工作？

我试图提取矩阵每一行中的唯一值并将它们返回到同一个矩阵中重复值设置为 0 例如我想转换 torch Tensor 1 2 3 4 3 3 4 1 6 3 5 3 5 4 to torch Tensor 1 2 3 4 0 0 0 1 6
PoseWarping：如何矢量化此 for 循环（z 缓冲区）

我正在尝试使用地面真实深度图姿势信息和相机矩阵将帧从视图 1 扭曲到视图 2 我已经能够删除大部分 for 循环并将其矢量化除了一个 for 循环扭曲时由于遮挡视图 1 中的多个像素可能会映射到视图 2 中的单个位置在这种情况下
如何使用 torch.stack？

我该如何使用torch stack将两个张量与形状堆叠a shape 2 3 4 and b shape 2 3 没有就地操作堆叠需要相同数量的维度一种方法是松开并堆叠例如 a size 2 3 4 b size 2 3 b torc
查找张量中沿轴的非零元素的数量

我想找到沿特定轴的张量中非零元素的数量有没有 PyTorch 函数可以做到这一点我尝试使用非零 http pytorch org docs master torch html highlight nonzero torch nonzer
如何在 google colab 中运行 matlab .m 文件

我目前正在尝试运行这个存储库https github com Fanziapril mvfnet https github com Fanziapril mvfnet这需要一个步骤 Run the Matlab ModelGeneratio
为什么我在这里遇到被零除的错误？

所以我正在关注这个文档中的教程 https pytorch org tutorials beginner data loading tutorial html在自定义数据集上我使用的是 MNIST 数据集而不是教程中的奇特数据集这是D
torchvision.transforms.Normalize 是如何操作的？

我不明白如何标准化Pytorch works 我想将平均值设置为0和标准差1跨越张量中的所有列x形状的 2 2 3 一个简单的例子 gt gt gt x torch tensor 1 2 3 4 5 6 7 8 9 10 11 12 gt
一次热编码期间出现 RunTimeError

我有一个数据集其中类值以 1 步从 2 到 2 i e 2 1 0 1 2 其中 9 标识未标记的数据使用一种热编码 self one hot encode labels 我收到以下错误 RuntimeError index 1 is
尝试理解 Pytorch 的 LSTM 实现

我有一个包含 1000 个示例的数据集其中每个示例都有5特征 a b c d e 我想喂7LSTM 的示例以便它预测第 8 天的特征 a 阅读 nn LSTM 的 Pytorchs 文档我得出以下结论 input size 5 hid
从打包序列中获取每个序列的最后一项

我试图通过 GRU 放置打包和填充的序列并检索每个序列最后一项的输出当然我的意思不是 1项目但实际上是最后一个未填充的项目我们预先知道序列的长度因此应该很容易为每个序列提取length 1 item 我尝试了以下方法 impor
Blenderbot 微调

我一直在尝试微调 HuggingFace 的对话模型 Blendebot 我已经尝试过官方拥抱脸网站上给出的传统方法该方法要求我们使用 trainer train 方法来完成此操作我使用 compile 方法尝试了它我尝试过使用 Py
如何更新 PyTorch 中神经网络的参数？

假设我想将神经网络的所有参数相乘PyTorch 继承自的类的实例torch nn Module http pytorch org docs master nn html torch nn Module by 0 9 我该怎么做呢 Let n
Pytorch CUDA 错误：没有内核映像可用于在带有 cuda 11.1 的 RTX 3090 设备上执行

如果我运行以下命令 import torch import sys print A sys version print B torch version print C torch cuda is available print D torc
Pytorch GPU 使用率低

我正在尝试 pytorch 的例子https pytorch org tutorials beginner blitz cifar10 tutorial html https pytorch org tutorials beginner b
Pytorch“展开”等价于 Tensorflow [重复]

这个问题在这里已经有答案了假设我有大小为 50 50 的灰度图像在本例中批量大小为 2 并且我使用 Pytorch Unfold 函数如下所示 import numpy as np from torch import nn from
保存具有自定义前向功能的 Bert 模型并将其置于 Huggingface 上

我创建了自己的 BertClassifier 模型从预训练开始然后添加由不同层组成的我自己的分类头微调后我想使用 model save pretrained 保存模型但是当我打印它并从预训练上传时我看不到我的分类器头代码如下
如何在 PyTorch 中对子集使用不同的数据增强

如何针对不同的情况使用不同的数据增强转换 Subset在 PyTorch 中吗例如 train test torch utils data random split dataset 80000 2000 train and test将具
在Pytorch中计算欧几里得范数..理解和实现上的麻烦

我见过另一个 StackOverflow 线程讨论计算欧几里德范数的各种实现但我很难理解特定实现的原因如何工作该代码可以在 MMD 指标的实现中找到 https github com josipd torch two sample b
TensorFlow 相当于 PyTorch 的 Transforms.Normalize()

我正在尝试推断最初在 PyTorch 中构建的 TFLite 模型我一直在遵循PyTorch 实现 https github com leoxiaobin deep high resolution net pytorch blob 1ee

随机推荐

在centos7.6编译kurento

一前期准备 1 1 升级boost库我升级的版本1 65 0 解决后面编译找不到宏定义错误 boost库需要手动编译网上一大坨 1 2 安装按各种依赖库通过yum安装即可 libevent libevent devel gettex
【C语言】初阶测试 (带讲解)

目录选择题 1 下列程序执行后输出的结果为 2 以下程序的输出结果是 3 下面的代码段中执行之后 i 和 j 的值是什么 4 以下程序的k最终值是 5 以下程序的最终的输出结果为 6 下列描述中正确的是 7 C 语言规定在一个源程序
Java经典面试题详解：nextclouddocker部署

kafka面试基础 17 1 Kafka的用途有哪些使用场景如何 2 Kafka中的ISR AR又代表什么 ISR的伸缩又指什么 3 Kafka中的HW LEO LSO LW等分别代表什么 4 Kafka中是怎么体现消息顺序性的 5 Ka
什么是lambda函数？使用lambda函数有什么好处？

一什么是lambda函数 Python支持一种有趣的语法它允许你快速定义单行的最小函数这些叫做lambda的函数是从Lisp中借用来的可以被用在任何需要函数的地方 lambda 函数是一个可以接收任意多个参数包括可选参数并且返回
使用C/C++编程控制LEGO EV3

环境搭建 1 安装Eclipse 选择Eclipse IDE for C C Developers 网址 http www eclipse org downloads 2 安装c4ev3 网址 https c4ev3 github io 该
Vue项目更改项目图标

Vue项目更改图标 Vue新建项目后会有默认图标如下图左上角方法一替换图标图片找到public文件下的favicon ico 把自己的图标替换掉favicon ico 修改成功方法二更换图标路径找到public文件把要加的图
vray渲染不了全白_救急！！！ vray for sketchup 渲染出来全白！！求解决。。。重金...

你说的白强是不是打的VR灯光啊如果是把VR灯光勾成不可见另外总体看你的灯光太亮了调低即可追问有时候我用Vray渲染它有一个等待的时间但是等完了又什么都没生成就像我刚才没使用一样这个是为什么呢难道是有些不合理的地方比如我在
c++模板元

模版元主要解决递归加速单纯的递归会反复调用函数等待返回所需时间多模版元编译的时候慢代码会增加把运行时间节约在编译时 template
深度解析V-REP Remote API (MATLAB) 的应用

OS Win10 x64 V REP V REP PRO EDU 3 5 0 MATLAB 2016b 下面我们来聊一聊V REP中MATLAB远程API的应用如果你只对V REP有基本了解对V REP的远程API不熟悉强烈建议你先阅
LeetCode高频算法刷题记录10

文章目录 1 旋转图像中等 1 1 题目描述 1 2 解题思路 1 3 代码实现 2 组合总和中等 2 1 题目描述 2 2 解题思路 2 3 代码实现 3 回文链表简单 3 1 题目描述 3 2 解题思路 3 3 代码实现 4 字符
基于YOLOv5的血细胞识别和计数

VOC格式标注转为yolov5格式原数据格式是xml文件对目标细胞注释现在需要将这种注释转换为yolov5所需的格式即每个图像对应一个txt文件文件中存储该图像中全部细胞的类别和坐标一行存储一个细胞的信息如下图编写脚本进行注释
[Unity]各种Debug方法笔记

无论是萌新还是Dalao 遇到Bug总是难免的拒绝反驳所以一些好的Debug方法就显得尤为重要这篇文章既写给自己也给看到文章的大家一个参考内容主 quan 要 bu 是脚本的Debug方法 ps 如有出错漏记得以我能看到的方式指出
COCO数据处理(二)根据自己提取的类的json文件生成对应的mask二值图并画在原图上

文章目录 COCO数据集根据json文件生成mask二值图文件目录目录说明代码一生成mask图代码二将mask图画在原图上效果图 COCO数据集根据json文件生成mask二值图文件目录目录说明 data coco a
java中JDBC当中请给出一个DataSource的HelloWorld例子

马克 to win 在前面的jdbc的Helloworld程序当中我们用DriverManager来获取数据库连接事实上通过这种方法获取数据库连接是比较耗费计算机资源的当然了这也是没有办法的事儿就像我们买贵书必须花大价钱一样
【Android】App开发-布局篇

UI的开发离不开各个组件的精准布局在我们学习了控件之后控件篇我们就需要对这些控件进一一排布让它们在各个指定的位置目录 LinearLayout线性布局 RelativeLayout布局 FrameLayout布局 TableLay
【Python爬虫】将爬下来的数据保存到redis数据库里面

redis库中的Redis类对Hash数据类型操作的常用方法方法名具体说明 hset name key value 哈希中添加一个键值对 hmset name mapping 设置哈希中的多个键值对 hmget name keys ar
逻辑架构和物理架构

逻辑架构和物理架构理论上划分了5种架构视图分别是逻辑架构开发架构运行架构物理架构数据架构逻辑架构逻辑架构关注的是功能包含用户直接可见的功能还有系统中隐含的功能或者更加通俗来描述逻辑架构更偏向我们日常所理解的分层
HTML学习（二）HTML基础

以这个为例 h1 我的第一个标题 h1 p 我的第一个段落 p DOCTYPE 前用来申明这是一个html 这里的html不区分大小写 HTML标题 HTML 标题 Heading 是通过 h1 h6 标签来定义的 h1 1级标题 h1 H
R语言优雅地修改列名称

R语言优雅地修改列名称在R语言中修改数据框 DataFrame 或矩阵 Matrix 的列名称是一项常见的任务通过优雅地修改列名称可以提高代码的可读性和可维护性在本文中我将介绍几种优雅的方法来修改列名称并提供相应的源代码示例
GPU计算

文章目录 GPU计算 1 GPU和CPU的区别 2 GPU的主要参数解读 3 如何在pytorch中使用GPU 4 市面上主流GPU的选择 GPU计算 1 GPU和CPU的区别设计目标不同 CPU基于低延时 GPU基于高吞吐 CPU 处理

GPU计算

文章目录

GPU计算

1. GPU和CPU的区别

2. GPU的主要参数解读

3. 如何在pytorch中使用GPU

4. 市面上主流GPU的选择

GPU计算 的相关文章

随机推荐

热门标签

GPU计算的相关文章