为什么矢量化通常比循环更快？

2024-04-17

为什么在执行操作的硬件的最低级别和所涉及的一般底层操作（即：运行代码时所有编程语言的实际实现通用的事情），矢量化通常比循环快得多？

计算机在循环时会做什么而在使用矢量化时不会做什么（我指的是计算机执行的实际计算，而不是程序员编写的计算），或者它有什么不同的做法？

我一直无法说服自己为什么差异如此之大。我可能会相信矢量化代码在某处减少了一些循环开销，但计算机仍然必须执行相同数量的操作，不是吗？例如，如果我们将一个大小为 N 的向量乘以一个标量，那么我们将执行 N 次乘法，不是吗？

矢量化（通常使用该术语）是指 SIMD（单指令、多数据）操作。

从本质上讲，这意味着一条指令对多个操作数并行执行相同的操作。例如，要将大小为 N 的向量乘以标量，我们将 M 称为它可以同时操作的大小的操作数的数量。如果是这样，那么它需要执行的指令数量大约为 N/M，其中（使用纯标量操作）它必须执行 N 个操作。

例如，Intel当前的AVX 2指令集使用256位寄存器。它们可用于保存（并操作）一组 4 个 64 位操作数，或 8 个 32 位操作数。

因此，假设您正在处理 32 位单精度实数，这意味着一条指令可以一次执行 8 次运算（在您的情况下为乘法），因此（至少在理论上）您可以使用以下命令完成 N 次乘法只有N/8乘法指令。至少，从理论上讲，这应该允许操作完成速度大约是一次执行一条指令所允许的速度的 8 倍。

当然，确切的好处取决于每条指令支持多少个操作数。 Intel 的第一次尝试仅支持 64 位寄存器，因此要同时操作 8 个项目，这些项目每个只能是 8 位。他们目前支持 256 位寄存器，并且已经宣布支持 512 位（他们甚至可能在一些高端处理器中提供这种支持，但至少在普通消费处理器中还没有提供）。温和地说，充分利用此功能也并非易事。安排指令以使您实际上拥有 N 个可用操作数并在正确的时间将其放置在正确的位置并不一定是一项简单的任务（根本）。

从长远来看，（现在已经很古老的）Cray 1 正是通过这种方式获得了很大的速度。它的向量单元在 64 个寄存器组上运行，每个寄存器为 64 位，因此每个时钟周期可以执行 64 次双精度运算。在最佳矢量化代码上，它比您仅根据其（低得多）时钟速度所预期的速度更接近当前 CPU 的速度。充分利用这一点并不总是那么容易（而且仍然不是）。

Keep in mind, however, that vectorization is not the only way in which a CPU can carry out operations in parallel. There's also the possibility of instruction-level parallelism, which allows a single CPU (or the single core of a CPU) to execute more than one instruction at a time. Most modern CPUs include hardware to (theoretically) execute up to around 4 instructions per clock cycle¹ if the instructions are a mix of loads, stores, and ALU. They can fairly routinely execute close to 2 instructions per clock on average, or more in well-tuned loops when memory isn't a bottleneck.

当然，还有多线程——在（至少逻辑上）单独的处理器/内核上运行多个指令流。

因此，现代 CPU 可能有 4 个内核，每个内核每个时钟可以执行 2 个向量乘法，并且每个指令可以对 8 个操作数进行操作。因此，至少在理论上，每个时钟可以执行 4 * 2 * 8 = 64 次操作。

有些指令具有更好或更差的吞吐量。例如，FP 增加的吞吐量低于 FMA，或者在 Skylake 之前在 Intel 上倍增（每个时钟 1 个向量，而不是 2 个向量）。但是像 AND 或 XOR 这样的布尔逻辑每个时钟吞吐量有 3 个向量；构建 AND/XOR/OR 执行单元并不需要很多晶体管，因此 CPU 会复制它们。使用高吞吐量指令时，总管道宽度（解码并发出到核心无序部分的前端）上的瓶颈很常见，而不是特定执行单元上的瓶颈。

但是，随着时间的推移，CPU 往往会拥有更多可用资源，因此这个数字会上升。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么矢量化通常比循环更快？的相关文章

比较 .NET 中的两个字节数组

我怎样才能快速做到这一点当然我可以这样做 static bool ByteArrayCompare byte a1 byte a2 if a1 Length a2 Length return false for int i 0 i
Big O 用于有限、固定大小的可能值集

这个问题 https stackoverflow com questions 12305028 java what is the best way to find first duplicate character in a string引
网站性能衡量

我需要一个免费的工具来测量网站的性能并且不需要对代码 jsp asp 页面进行任何更改感谢所有帮助对于绩效衡量我建议您YSlow http developer yahoo com yslow 它是一个 Firefox 插件集成了
查找二维空间中圆内的所有点

我表示我的 2D 空间考虑一个窗口其中每个像素显示为 2D 数组中的一个单元格即 100x100 的窗口由相同维度的数组表示现在给定窗口中的一个点如果我画一个半径的圆r 我想找到该圆圈中的所有点我想我应该检查半径周围方形区域中的
使用 perf 查找线程瓶颈并优化挂机时间

对 cpu 周期进行采样perf record如果核心利用率大致恒定则对于寻找优化候选非常有用但对于具有并行性不同的多个阶段的代码计算 cpu 周期将重点强调并行阶段而低估影响挂机时间的顺序或有限并行阶段简而言之天真的 perf
在 R 中不循环地对连续的列表元素对应用函数

我试图找到一种有效的即避免使用循环方法来应用一个函数该函数迭代地将列表的当前和前一个或下一个元素作为参数并返回结果列表其长度必然是短 1 个元素作为一个具体的例子我有一个在某些图中定义路径的顶点列表 vlist lt c
原始 ssh 连接（低级）

作为一个小型大型业余爱好项目我开始用 C 制作一个非常原始的 ssh 2 0 客户端这是为了探索和更好地理解 DH 并帮助加深我对加密的熟悉程度根据 RFC 4253 我已经开始这样的初始连接省略不相关的变量预设等 Rando
MongoDB聚合查询性能提升

我最近开始将数据从 Microsoft SQL Server 转移到 MongoDB 以获得可扩展性就移民而言一切都很好该文档有 2 个重要字段 customer timestamphash 年月日我们在安装 MongoDB 的 Az
LockBits 性能关键代码

我有一个方法需要尽可能快它使用不安全的内存指针这是我第一次尝试这种类型的编码所以我知道它可能会更快
什么是样板代码、热点代码和热点？

我知道这些术语是在性能实现优化的背景下使用的最近一直在研究这个问题并尝试过搜索但没有得到任何例子清楚地阐述描述这些概念以及在现实世界开发场景中实现这些问题概念有人可以彻底解释这些术语示例场景以及可能使用这些概念和术语的地方
我可以在 pandas 中执行动态行累加吗？

如果我有以下数据框如下导出 df pd DataFrame np random randint 0 10 size 10 1 0 0 0 1 2 2 8 3 1 4 0 5 0 6 7 7 0 8 2 9 2 有没有有效的方法cumsum
在 O(n) 时间内运行的指数乘法算法？

我正在读一本算法教科书我被这个问题难住了假设我们要计算值 x y 其中 x 和 y 为正数分别具有 m 和 n 位的整数解决该问题的一种方法是执行 y 1 乘以 x 你能给出一个仅使用 O n 乘法步骤的更有效的算法吗这会是一个分
内容长度标头与分块编码

我正在尝试权衡设置的利弊Content LengthHTTP 标头与使用分块编码从我的服务器返回可能大文件的比较使用持久连接需要其中之一来符合 HTTP 1 1 规范我看到了的优点Content Length标头是下载对话框可以显
在 R 中替换数据帧中最低列表值的最有效方法

我有一个数据框 df 其中包含为每个受试者记录的数字列表向量用于测试项目的两次重复 subj item rep vec s1 1 1 2 1 4 5 8 4 7 s1 1 2 1 1 3 4 7 5 3 s1 2 1 6 5 4 1 2
什么是 __ext_vector_type__ 和 simd？

我正在使用 Apple Metal API 以及所谓的simd图书馆标题中有这样的代码 typedef attribute ext vector type 3 float vector float3 我很好奇它实际上做了什么以及为什么编译
就性能而言，在页面上显示 1000 张图像的最佳方法是什么？

我试图在一个页面上显示 1000 个相当小的图像确实很多但超出了我的控制范围当一次性加载所有图像时一次渲染 1000 张图像性能显然会受到严重影响我尝试在滚动时应用图像 src 大量 250px 滚动 25 个图像加载等然后尝
为什么 Chrome 审核建议我最小化 Cookie 大小？

如何最小化请求的 cookie 大小 Chrome 似乎警告我我的 cookie 大小为 41B 这根本不是很多但是它警告我有什么原因吗这是一个 PHPSESSID cookie 我真的不知道如何最小化它有任何想法吗我的请求响应
对大数据块进行反应非阻塞渲染

最近我开始学习反应并想知道是否有某种模式可以用于大数据的非阻塞 UI 线程渲染比方说我们采取这个例子 https www mendix com tech blog making react reactive pursuit high p
Lockfree 标准集合和教程或文章

有人知道用于无锁常用数据类型的实现即源代码的好资源吗我正在考虑列表队列等锁定实现非常容易找到但我找不到无锁算法的示例以及 CAS 的工作原理以及如何使用它来实现这些结构查看 Julian M Bucknall 的博客他详细
HTML if 语句在 CDN 失败时加载本地 JS/CSS

当从 CDN 或任何外部服务器加载 CSS JS 文件时有可能即使概率很低由于外部故障而丢失该文件在这种情况下 html 页面将因缺乏适当的 CSS 和 JS 而被损坏有没有一种实用的方法可以在 CDN 故障时加载本地版本 IF

随机推荐

LinqToExcel：Excel 列中的不同值

对于各位专家来说这可能是一件非常简单的事情但我对 C 4 和 INTEROP 并不熟悉因此我很困惑这是我的问题我有一个包含重复数据的 Excel 列我想将其修剪为仅具有唯一值数据如下所示 ColA ColB 10 Adam
角度表单验证 ng-disabled 不起作用

我正在尝试在我的博客文章表单中使用角度表单验证更具体地说是禁用 ng 的表单由于某些原因我无法弄清楚提交按钮没有被禁用除非所有三个输入字段都有效否则它应该被禁用谢谢您的帮助这是我的博客模板 div div class cont
如何在 Google 电子表格中插入列？

我想将新数据添加到工作表的开头开头所以我必须在工作表中添加一个新的 A1 列但我找不到任何 PHP 的 API 示例现在我用这个附加数据 body new Google Service Sheets ValueRange value
如果未使用 scp 命令指定目标路径，则文件位置

要将文件夹从本地计算机复制到我使用的服务器 scp r local folder user server path 现在我忘了第一次指定目标路径 scp r local folder user server 现在有人知道该文件夹是否已被复制
如何在视频标签中播放AVI文件？

我想知道是否可以让浏览器在一个文件中播放 AVI 文件video tag 我在网上找到的所有谈论它的内容都集中在 MP4 和 Ogg 格式但没有人谈论 AVI 格式我发现的唯一解决方案是放弃video标记并使视频可以使用 JW Play
Lua 如何创建可用于变量的自定义函数？

对于像 io close 这样的方法你可以像这样使用它 file close 有没有办法创建一个像这样工作的自定义函数您可以在变量上调用它对我来说我尝试使用它通过使用 string find 查找空格来将参数与文本文件分开所以在文
如何在 Node.js 中进行 Base64 编码？

Node js 是否有内置 Base64 编码我问这个的原因是final from crypto只能输出十六进制二进制或ASCII数据例如 var cipher crypto createCipheriv des ede3 cbc e
对于某些版本的 PHP，“未指定输入文件”

我安装了多个版本的 PHP 我写的基本上它是一个 ApacheLounge 安装在 Windows 10 上通过 FastCGI 与 PHP 进行通信这曾经让我在不同的虚拟主机上同时运行这些 PHP 版本 Apache 通过 Fas
如何可视化来自谷歌协议缓冲区的数据？

我想使用谷歌协议缓冲区存储数据另一种序列化格式也可以然后有一个用户界面来浏览该数据是否有 C 框架 API 可以让我做到这一点例如它可以使用protobuf的反射接口然后将数据填充到Qt的QTableView 或从其他工具包中
从 C 中的 long 中提取单个数字

我正在为我的 C 课程第一门编程课程做作业作业的一部分是编写代码让用户输入一个最多9位数的数字程序需要判断这个数字是递增真递增递减真递减增减实减实增不减不增共7个选项由于这是我们的第一个作业我们不允许使用课堂上
与 Jenkins 工作流程/管道并行运行阶段

请注意问题是基于旧的现在称为脚本化管道格式当使用声明式管道时并行块可以嵌套在阶段块内请参阅声明式管道 1 2 的并行阶段 https jenkins io blog 2017 09 25 declarative 1 我想知
Android 中卡片视图内带有三个点的小部件的名称是什么？

带有三个点的小部件是什么如何将其添加到我的应用程序中这根本不是一个小部件它是一个ImageButton 无边框风格使用包含一个的溢出图标PopupMenu 如需文档教程访问http developer android com gui
ASP.NET-Core 2.0 在应用程序启动后添加/删除路由

我需要添加删除通过 IApplicaitonBuilder 在 Startup 类的 Configure 方法期间注册的自定义路由启动后我在 UseMvc 命令中调用 MapRoute 方法将一堆自定义路由注册到我的控制器这些路由
ListBox不显示绑定数据

在我的 Xaml 中我有这个
将 Bootstrap 导航栏中的元素居中

无论我尝试什么我都无法将 Bootstrap 导航栏中的某些内容居中有什么解决方案吗我尝试添加一个div 使用margin 0 auto or margin right auto margin left auto used cente
opencv中的矩阵类型转换

我正在尝试使用滤波器对图像进行卷积并借助 opencv 中的 filter2D 函数将其存储到 CV 64F 类型的矩阵中但目标矩阵的类型发生了变化我尝试借助 allocateTo 0r ConvertTo 函数将其更改回 CV 64
了解随机起始权重对神经网络性能的影响

使用 R 和包neuralnet 我尝试对数据进行建模如下所示这些是几天内以 10 分钟为间隔的温度读数上面是 2 天的截图使用下面的代码我将神经网络拟合到数据可能有更简单的方法来对这些精确数据进行建模但将来数据可能看起来完全
无需安装即可使用Python

我有一个安装程序它使用 Python 脚本来安装多个组件我不想在用户计算机上安装 Python 如果用户还没有安装 Python 并且我也不希望安装 Python 成为使用我的安装程序的先决条件有没有一种方法可以在不使用安装程序的情况
范围之间的随机日期时间 - 不统一输出

我实现了下面的 RandomDate 但我总是不断获取接近 From 日期的值我可能在这里错过了一些东西 public static DateTime GetRandomDate DateTime from DateTime to var
为什么矢量化通常比循环更快？

为什么在执行操作的硬件的最低级别和所涉及的一般底层操作即运行代码时所有编程语言的实际实现通用的事情矢量化通常比循环快得多计算机在循环时会做什么而在使用矢量化时不会做什么我指的是计算机执行的实际计算而不是程序员编写的计算或者它有

为什么矢量化通常比循环更快？

为什么矢量化通常比循环更快？ 的相关文章

随机推荐

热门标签

为什么矢量化通常比循环更快？的相关文章