warp 如何与原子操作一起工作？

2024-03-16

warp 中的线程在物理上并行运行，因此如果其中一个（称为线程 X）启动原子操作，其他线程会做什么？等待？这是否意味着，当线程 X 被推入原子队列时，所有线程都将等待，获得访问权限（互斥体）并对受该互斥体保护的内存执行一些操作，然后再释放互斥体？

有没有办法让其他线程执行某些工作，例如读取一些内存，以便原子操作将隐藏其延迟？我的意思是，15 个空闲线程……我猜这不太好。 Atomic 真的很慢，是吗？我怎样才能加速它？有什么模式可以使用吗？

共享内存的原子操作是否会锁定一个存储体或整个内存？例如（没有互斥体），有__shared__ float smem[256];

线程1运行atomicAdd(smem, 1);
线程2运行atomicAdd(smem + 1, 1);

这些线程与不同的存储体一起工作，但通常共享内存。它们是并行运行还是会排队？如果 Thread1 和 Thread2 来自单独的线程束或通用线程束，则此示例有什么区别吗？

我数了一下大概有10个问题。这使得回答变得相当困难。建议您每个问题问一个问题。

一般来说，warp 中的所有线程都执行相同的指令流。那么我们可以考虑两种情况：

没有条件（例如 if...then...else）在这种情况下，所有线程都执行相同的指令，这恰好是原子指令。然后所有 32 个线程都将执行一个原子操作，尽管不一定在同一位置。所有这些原子都将由 SM 处理，并在某种程度上将序列化（如果它们更新相同的位置，它们将完全序列化）。
带条件句例如，假设我们有if (!threadIdx.x) AtomicAdd(*data, 1);然后线程 0 将执行原子操作，并且其他人则不会。看起来我们可以让其他人去做其他的东西，但是锁步扭曲执行不允许这样做。 Warp 执行被序列化，使得所有线程都采用if (true)path 将一起执行，并且所有执行该路径的线程if (false)path 会一起执行，但是 true 和 false 路径将被序列化。再说一次，我们真的不能有不同的 warp 中的线程执行不同的指令同时地.

其本质是，在扭曲中，我们不能让一个线程执行原子操作，而其他线程同时执行其他操作。

您的许多其他问题似乎期望内存事务在它们起源的指令周期结束时完成。事实并非如此。对于全局内存和共享内存，我们必须在代码中采取特殊步骤，以确保以前的写入事务对其他线程可见（这可以被认为是事务完成的证据）。实现此目的的一种典型方法是使用屏障指令，例如__syncthreads() or __threadfence()但如果没有这些屏障指令，线程就不会“等待”写入完成。读取（依赖于读取的操作）可能会停止线程。写入通常不能阻止线程。

现在我们来看看您的问题：

那么如果其中一个启动原子操作，其他会做什么呢？等待？

不，他们不会等待。原子操作被分派到 SM 上处理原子的功能单元，并且所有线程一起继续同步进行。由于原子通常意味着读取，是的，读取可以使扭曲停止。但线程不会等到原子操作完成（即写入）。然而，随后读取该位置could再次停止扭曲，等待原子（写入）完成。在保证更新全局内存的全局原子的情况下，如果原始 SM 中的 L1（如果启用）和 L2 包含该位置作为条目，它将使它们无效。

有没有办法让其他线程执行某些工作，例如读取一些内存，以便原子操作将隐藏其延迟？

事实并非如此，原因就如我在开头所说的那样。

Atomic 真的很慢，是吗？我怎样才能加速它？有什么模式可以使用吗？

是的，如果原子主导了活动（例如朴素的归约或朴素的直方图），原子可以使程序运行得更慢。一般来说，加速原子操作的方法是不使用它们，或者谨慎地使用它们，以这样的方式：不主导程序活动。例如，简单的归约将使用原子将每个元素添加到全局总和中。智能并行缩减将根本不使用原子来完成线程块中完成的工作。在线程块缩减结束时，可以使用单个原子将线程块部分和更新为全局和。这意味着我可以快速并行减少任意数量的元素，可能需要 32 个原子添加或更少。这种对原子的节约使用在整个程序执行中基本上不会被注意到，除了它使得并行减少能够在单个内核调用而不是 2 个内核调用中完成。

共享内存：它们是并行运行还是排队？

他们将排队。其原因是，可以在共享内存上处理原子操作的功能单元数量有限，不足以在单个周期内服务于 warp 的所有请求。

我避免尝试回答与原子操作的吞吐量相关的问题，因为据我所知，这些数据在文档中没有得到很好的指定。如果您发出足够多的同步或接近同步的原子操作，则由于为原子功能单元提供数据的队列已满，某些扭曲可能会在原子指令上停滞。我不知道这是真的，也无法回答相关问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

warp 如何与原子操作一起工作？的相关文章

在 C/C++ 中获得正模数的最快方法

通常在我的内部循环中我需要以环绕方式索引数组因此例如如果数组大小为 100 并且我的代码要求元素 2 则应该给它元素 98 高级语言例如 Python 可以简单地使用my array index array size 但由于某
如何保证对象只有一个线程

我有以下代码 class Service public void start creates thread which creates window and goes to message loop void stop sends WM C
在 Xamarin 中隐藏软键盘

如何隐藏软键盘以便在聚焦时显示Entry在 Xamarin forms 便携式表单项目中我假设我们必须为此编写特定于平台的渲染器但以下内容不起作用我创建自己的条目子类 public class MyExtendedEntry Entr
为什么这个没有特殊字符的正则表达式会匹配更长的字符串？

我正在使用此方法来尝试查找匹配项例如 Regex Match A2 TS OIL TS OIL RegexOptions IgnoreCase Success 我得到了真实的结果我很困惑我认为这应该返回 false 因为模式中没有特殊
ASP.Net Core 内容配置附件/内联

我正在从 WebAPI 控制器返回一个文件 Content Disposition 标头值自动设置为附件例如处置附件文件名 30956 pdf 文件名 UTF 8 30956 pdf 当它设置为附件时浏览器将要求保存文件而不是打
从 WebBrowser 控件 C# 获取滚动值

我试图在 WebBrowser 控件中获取网页的 Y 滚动索引但无法访问内置滚动条的值有任何想法吗对于标准模式下的 IE 使用文档类型正如你所说 scrollTop是的财产元素而不是 HtmlDocument htmlDoc th
std::forward_as_tuple 将参数传递给 2 个构造函数

我想传递多个参数以便在函数内构造两个对象以同样的方式std pair
给出 5 个参数，但在终端中只得到 3 个参数

我想将一个文件传递给一个c 程序如果我在 IDE 中执行此操作 test string string lt test txt return argc 5 但在终端上我刚刚得到argc 3 看来这是因为什么是 lt 意思是我正在使用
AES 输出是否小于输入？

我想加密一个字符串并将其嵌入到 URL 中因此我想确保加密的输出不大于输入 AES 是可行的方法吗不可能创建任何始终会创建比输入更小的输出的算法但可以将任何输出反转回输入如果您允许不大于输入那么基本上您只是在谈论同构算法alwa
无法在内存位置找到异常源：cudaError_enum

我正在尝试确定 Microsoft C 异常的来源 test fft exe 中 0x770ab9bc 处的第一次机会异常 Microsoft C 异常内存位置 0x016cf234 处的 cudaError enum 我的构建环境是 I
运行选定的代码生成器时出错：“未将对象引用设置到对象的实例。”错误？

我已经尝试了所有解决方案例如修复 VS 2013 但没有用当您通过右键单击控制器文件夹来创建控制器并添加控制器时然后右键单击新创建的控制器的操作并选择添加视图当我尝试创建视图时就会发生这种情况它不是一个新项目而是一个现有项目
如何通过 JsonConvert.DeserializeObject 在动态 JSON 中使用 null 条件运算符

我正在使用 Newtonsoft 反序列化已知的 JSON 对象并从中检索一些值如果存在关键在于对象结构可能会不断变化因此我使用动态来遍历结构并检索值由于对象结构不断变化我使用 null 条件运算符来遍历 JSON 代码看起来像这
如何分析组合的 python 和 c 代码

我有一个由多个 python 脚本组成的应用程序其中一些脚本正在调用 C 代码该应用程序现在的运行速度比以前慢得多因此我想对其进行分析以查看问题所在是否有工具软件包或只是一种分析此类应用程序的方法有一个工具可以将 python
ASP.NET MailMessage.BodyEncoding 和 MailMessage.SubjectEncoding 默认值

很简单的问题但我在 MSDN 上找不到答案查找 ASP NET 将用于的默认值 MailMessage BodyEncoding and MailMessage SubjectEncoding 如果你不在代码中设置它们 Thanks F
在 EnvDTE 中调试时捕获 VS 局部变量

是否可以使用 EnvDTE 进行 vsix Visual Studio 扩展来捕获本地和调试窗口使用的调试数据或者可以通过其他方法吗我想创建一个自定义的本地窗口我们可以修改它以根据需要显示一些较重的内容而无需为高级用户牺牲原始的本地
IEnumerable.Except 不起作用，那么我该怎么办？

我有一个 linq to sql 数据库非常简单我们有 3 个表项目和用户有一个名为 User Projects 的连接表将它们连接在一起我已经有了一个获得的工作方法IEnumberable
使用restsharp序列化对象并将其传递给WebApi而不是序列化列表

我有一个看起来像的视图模型 public class StoreItemViewModel public Guid ItemId get set public List
新任务中使用的依赖注入服务

我在需要时使用依赖项注入来访问我的服务但我现在想要创建一个并发任务但这会由于依赖项注入对象及其生命周期而导致问题我读过这篇文章标题防止多线程 Link http mehdi me ambient dbcontext in ef6
跨多个域的 ASP.NET 会话

是否有合适的 NET 解决方案来在多个域上提供持久服务器会话即如果该网站的用户在 www site1 com 下登录他们也将在 www site2 com 下登录安全是我们正在开发的程序的一个问题 Thanks 它是否需要在会话中
Java 和/C++ 在多线程方面的差异

我读过一些提示多线程实现很大程度上取决于您正在使用的目标操作系统操作系统最终提供了多线程能力比如Linux有POSIX标准实现而windows32有另一种方式但我想知道编程语言水平的主要不同 C似乎为同步提供了更多选择例如互斥锁

随机推荐

WP 数据库错误查询 SELECT wp_ 的“字段列表”中未知列“wp_”

请不要关闭这个问题它不是重复的并且解释如何在 MySQL 上使用引号的建议链接对我没有任何作用因为这个问题是在 WP 脚本内谢谢我正在尝试在 WP 5 4 1 上安装cleanWindows 2019 Server 虚拟机我没用
AWS aws.push ImportError：Ubuntu 中没有名为 boto 的模块

我正在尝试遵循本教程 http docs aws amazon com elasticbeanstalk latest dg create deploy Ruby rails html http docs aws amazon com el
AutoFixture 无法创建声明（使用 .NET Framework 4.6）

我刚刚安装了VS2015 同时安装了 NET Framework 4 6 突然AutoFixture 3 30 8无法创建Claim目的我猜测新的 NET Framework 版本 4 6 会导致 AutoFixture 内部出现一些问题
Flyway OutOfOrder 未按预期工作

我正在尝试使用 maven 在生产支持分支即 V3 1 上应用乱序迁移 3 1 分支有 12 个迁移从 3 1 0 1 到 3 1 0 12 前 11 个已应用在我的开发环境中我已经应用了来自下一个版本 3 3 的两个迁移信息
收到错误“输入数组比该表中的列数长”

Code Public Function comb1 ByVal SName As String As DataTable Dim dt As New DataTable cmd New SqlCommand Select Distinct
如何停止警告：您似乎正在使用 Firebase JS SDK 的开发版本？

It looks like you re using the development build of the Firebase JS SDK When deploying Firebase apps to production it is
你可以在 ruby 中重新定义一个类吗？或者这只是在irb中

我启动了 irb 然后输入类点结尾然后我又输入了一遍但添加了一些其他内容 Irb 并没有抱怨我正在定义一个已经存在的类实际上你并没有重新定义Point类而是重新打开了它一个小代码片段来说明差异 class Point def
C++：具有虚基但没有虚函数的类是多态的并且具有 VTable 吗？

考虑以下代码 include
UnmarshaException 意外元素，预期元素为（无）

当我想反序列化我已经从字节数组序列化的 JAXBElement 时我遇到了问题我得到了例外 Exception in thread main javax xml bind UnmarshalException unexpected el
TextBox 上的 MinLines 和 MaxLines 不起作用

谁能解释为什么下面的 TextBox 最初不显示为 3 行高当我开始输入文本时它显示 1 行高然后调整为 3 行编辑这是更多的表格
如何从测试中访问 Flutter 环境变量？

我一直在使用 flutter dotenv 加载保存在的环境变量 env整个应用程序到目前为止都运行良好当我尝试编写测试时我似乎无法从测试文件访问这些测试 import package flutter dotenv flutter do
如果文本框突然有值如何无法按钮

任何人都可以帮助我如何禁用我的按钮如果我texbox突然充满了文本而没有单击文本框来输入内容我的问题是我的代码无法工作有谁知道该怎么做
使用curl将工件包上传到sonatype：500服务器错误

我想上传一个工件包 jar 到https oss sonatype org https oss sonatype org与curl命令 curl verbose user SONATYPE USER SONATYPE PASSWORD fo
useContext React JS 延迟

在我的 React 应用程序中当用户登录时会生成一个令牌 JWT 然后将其存储在 LocalStorage 中一切完成后为了维护不同路由的用户登录我使用 useContext 我想在用户登录时显示注销按钮实际上它会出现但 2
检测 WebView 内的可用内存

我正在构建一个应用程序其中包含WebView运行一些 JavaScript 代码 JavaScript 代码的分配量很大可能需要大量内存有时所需的内存量超出了 JavaScript 所需的内存量导致 WebView 的 Chrom
mysql_connect()：标头和客户端库次要版本不匹配库：100005

自从上周五执行定期包更新以来我的网络服务器遇到了一个相当棘手的问题我在使用 mysql connect 时遇到错误 Warning mysql connect Headers and client library minor versi
精确定位 magento 1.6.2 中两个页面之间的差异和更改

我有两个页面应该使用完全相同的模板和布局正确的项目布局如下所示 http dokha co index php medwakh custom medwakh from white horse studios 13 html http do
处理大量数据的WCF服务的最佳实践？

我们有一个 WCF 服务用于查询底层数据存储现在是 SQL Server 2005 该服务可能会返回相当大量的数据我们的实体类有 60000 多个实例其中包含约 20 个属性这些属性大多是基元例如 string int Date
将 azure 应用程序服务/网站限制为域

我有一个在 azure 应用程序服务上运行的 WCF 服务我想将此 WCF 限制为一些天蓝色网站外部 IP 和一些其他部署我在 WCF web config 中使用 IPSecurity 标记我的问题是 IP 限制有效但我允许访问
warp 如何与原子操作一起工作？

warp 中的线程在物理上并行运行因此如果其中一个称为线程 X 启动原子操作其他线程会做什么等待这是否意味着当线程 X 被推入原子队列时所有线程都将等待获得访问权限互斥体并对受该互斥体保护的内存执行一些操作然后再释放互

warp 如何与原子操作一起工作？

warp 如何与原子操作一起工作？ 的相关文章

随机推荐

热门标签

warp 如何与原子操作一起工作？的相关文章