x86 中的原子测试和设置：内联 asm 或编译器生成的锁 bts？

2023-12-04

以下代码在为 xeon phi 编译时会抛出异常Error: cmovc is not supported on k1om.

但它确实可以为常规至强处理器正确编译。

#include<stdio.h>
int main()
{
    int in=5;
    int bit=1;
    int x=0, y=1;
    int& inRef = in;
    printf("in=%d\n",in);
    asm("lock bts %2,%0\ncmovc %3,%1" : "+m" (inRef), "+r"(y) : "r" (bit), "r"(x));
    printf("in=%d\n",in);
}

编译器-icc (ICC) 13.1.0 20130121

相关问题：对 tbb 原子变量进行位测试和设置 (BTS)

IIRC，第一代 Xeon Phi 基于 P5 内核（Pentium 和 Pentium MMX）。cmov直到 P6（又名 Pentium Pro）才推出。所以我认为这是正常的。

只需让编译器通过编写普通的三元运算符来完成其工作即可。

Second, cmov是一个比这更糟糕的选择setc，因为您想根据进位标志生成 0 或 1。请参阅下面我的 asm 代码。

另请注意bts使用内存操作数是非常慢的，所以你不希望它生成该代码，尤其是。在将 x86 指令解码为 uop 的 CPU 上（如现代 Xeon）。根据http://agner.org/optimize/, bts m, r比bts m, i即使在 P5 上，也不要这样做。

只需询问编译器即可in要在寄存器中，或者更好的是，不要为此使用内联汇编。

由于 OP 显然希望它能够自动工作，所以最好的解决方案是使用 C++11std::atomic::fetch_or，并将其留给编译器来生成lock bts.

std::atomic_flag has a test_and_set功能，但不知道是否有办法将它们紧密地包装在一起。也许作为结构中的位域？不过不太可能。我也没有看到原子操作std::bitset.

不幸的是，当前版本的 gcc 和 clang 不会生成lock bts from fetch_or，即使可以使用更快的立即操作数形式。我想出了以下内容（神螺栓链接):

#include <atomic>
#include <stdio.h>

// wastes instructions when the return value isn't used.
// gcc 6.0 has syntax for using flags as output operands

// IDK if lock BTS is better than lock cmpxchg.
// However, gcc doesn't use lock BTS even with -Os
int atomic_bts_asm(std::atomic<unsigned> *x, int bit) {
  int retval = 0;  // the compiler still provides a zeroed reg as input even if retval isn't used after the asm :/
  // Letting the compiler do the xor means we can use a m constraint, in case this is inlined where we're storing to already zeroed memory
  // It unfortunately doesn't help for overwriting a value that's already known to be 0 or 1.
  asm( // "xor      %[rv], %[rv]\n\t"
       "lock bts %[bit], %[x]\n\t"
       "setc     %b[rv]\n\t"  // hope that the compiler zeroed with xor to avoid a partial-register stall
        : [x] "+m" (*x), [rv] "+rm"(retval)
        : [bit] "ri" (bit));
  return retval;
}

// save an insn when retval isn't used, but still doesn't avoid the setc
// leads to the less-efficient setc/ movzbl sequence when the result is needed :/
int atomic_bts_asm2(std::atomic<unsigned> *x, int bit) {
  uint8_t retval;
  asm( "lock bts %[bit], %[x]\n\t"
       "setc     %b[rv]\n\t"
        : [x] "+m" (*x), [rv] "=rm"(retval)
        : [bit] "ri" (bit));
  return retval;
}


int atomic_bts(std::atomic<unsigned> *x, unsigned int bit) {
  // bit &= 31; // stops gcc from using shlx?
  unsigned bitmask = 1<<bit;
  //int oldval = x->fetch_or(bitmask, std::memory_order_relaxed);

  int oldval = x->fetch_or(bitmask, std::memory_order_acq_rel);
  // acquire and release semantics are free on x86
  // Also, any atomic rmw needs a lock prefix, which is a full memory barrier (seq_cst) anyway.

  if (oldval & bitmask)
    return 1;
  else
    return 0;
}

正如中所讨论的在 x86 汇编中将寄存器设置为零的最佳方法是什么：xor、mov 或 and？, xor/设置标志/setc当需要结果为 0 或 1 值时，这是所有现代 CPU 的最佳序列。我实际上还没有考虑过 P5，但是setccP5 速度很快，所以应该没问题。

当然，如果你想对此进行分支而不是存储它，那么内联汇编和 C 之间的边界是一个障碍。花费两条指令来存储 0 或 1，只是为了对其进行测试/分支，这是非常愚蠢的。

如果可以的话，gcc6 的标志操作数语法当然值得研究。（如果您需要一个针对 Intel MIC 的编译器，则可能不需要。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

x86 中的原子测试和设置：内联 asm 或编译器生成的锁 bts？的相关文章

长多字节 NOP：通常理解的宏或其他符号

x86 和 x86 64 处理器不仅具有单字节这不是什么大秘密NOP指令还包括各种类型的多字节类 NOP 指令这些是我设法找到的 AMD 推荐参考 AMD 系列 15h 处理器的 AMD 软件优化指南文档 47414 http s
为什么 Linux perf 使用事件 l1d.replacement 来处理 x86 上的“L1 dcache misses”？

在英特尔 x86 上 Linux用途 https stackoverflow com a 52172985 149138事件l1d replacements来实施其L1 dcache load misses event 该事件定义如下计数
SIMD 和 VLIW 指令是一样的吗？

SIMD 单指令多数据和 VLIW 超长指令字到底有什么区别其中一个是另一个的子集吗或者它们是两个完全不同的东西完全不相关且正交一台机器可以有一个或两个或者两者都没有 SIMD 指令可以作为扩展添加到 VLIW ISA 但 V
英特尔的最后分支记录功能是英特尔处理器独有的吗？

最后分支记录是指存储与最近执行的分支相关的源地址和目标地址的寄存器对 MSR 的集合它们受英特尔酷睿 2 英特尔至强和英特尔凌动处理器系列的支持 http css csail mit edu 6 858 2012 readings ia3
将字段中的位扩展到掩码中所有（重叠+相邻）集位的最快方法？

假设我有 2 个名为 IN 和 MASK 的二进制输入实际字段大小可能是 32 到 256 位具体取决于用于完成任务的指令集每次调用时两个输入都会改变 Inputs IN 1100010010010100 MASK 000111101
使用 Gas 生成与位置无关的代码 (-fPIC)

我尝试在 x86 64 上创建共享库但失败问题归结为以下代码请不要介意它没有多大意义 section data newline ascii n section text globl write newline type write n
PAE（物理地址扩展）如何实现大于4GB的地址空间？

维基百科文章的摘录物理地址扩展 http en wikipedia org wiki Physical Address Extension x86 处理器硬件架构通过用于选择附加内存的附加地址线进行了增强因此物理地址大小从 32 位增加到
Android NDK 代码中的 SIGILL

我在市场上有一个 NDK 应用程序并获得了有关以下内容的本机崩溃报告 SIGILL信号我使用 Google Breakpad 生成本机崩溃报告以下是详细信息我的应用程序是为armeabi v7a with霓虹灯支持它在 NVIDI
一个地址有多少字节？ [复制]

这个问题在这里已经有答案了在64位机器上我们知道一个地址是8个字节然而我并不完全清楚一个地址中有多少字节的信息虚拟内存中的每个字节都有一个地址吗或者内存中的每 64 位都有一个地址还是取决于架构如果这取决于架构那么我应该如
long double（GCC 特定）和 __float128

我正在寻找有关的详细信息long double and float128在 GCC x86 中更多是出于好奇而不是因为实际问题可能很少有人需要这些我只是有史以来第一次 truly需要一个double 但我想知道你的工具箱里有什么以及它
ICC 中的 -O3 会扰乱内在函数，使用 -O1 或 -O2 或相应的手动汇编即可

这是后续这个问题 http stackoverflow com questions 49791664 o2 in icc messes up assembler fine with o1 in icc and all optimizatio
64 位 Windows 汇编器

我想对 64 位 Windows 程序集进行编程最好使用 NASM 我在 google 上查了一下但似乎找不到 64 位 Windows 编译器有些网站提到了ml64 但它似乎不再包含在VC 中我尝试过 32 位程序集但显然它在我
如何在 MacOS 上使用 nasm 进行编译

我正在尝试在汇编器上编译并链接我的第一个程序我尝试编译以下代码 include stud io inc global main section text main xor eax eax again PRINT Hello PUTCHAR
比“add esp, 4”更小的指令

又是我我的程序中有很多 add esp 4 我正在尝试减小它的大小是否有任何更小的指令可以替代 add esp 4 pop edx 或者您不介意破坏的任何其他整数寄存器这就是现代编译器实际上所做的 https stackoverflo
使用 ACPI 在 MS-DOS 中关闭计算机

我在基于 Pentium 的计算机上运行 MS DOS 6 22 主板支持 ACPI 并且想知道是否有一个可以用来关闭计算机的汇编语言例程或者它是否比那个更难即主板具体的基本上我想创建一个小程序来从命令行关闭计算机这是专门为此编
intfmt: db "%d", 10, 0 在汇编中的含义

我最近在我的一个汇编文件的顶部看到了这个并意识到我在打印整数的过程中花了很长时间使用它而没有真正意识到它最初来自哪里在我的基本汇编模板中使用或 10 0 是什么结尾的意思是 section data intfmt db d 10 0
嵌入式系统：使用汇编语言时的内存布局

根据我的理解嵌入式系统运行机器代码有多种方法可以生成此代码一种是用 C 等高级语言编写程序然后使用编译器获得这样的代码另一种方法是用汇编语言为该嵌入式系统编写指令并使用汇编器将其转换为机器代码现在我们得到了加载到系统并执行的机
为什么前向引用 ADR 指令在 Thumb 代码中以偶数偏移进行汇编？

To bx对于 Thumb 函数需要设置地址的最低有效位 GNU 作为文档states https sourceware org binutils docs as ARM Opcodes html当地址是从一个生成时这是如何工作的adr伪
x86 程序集 Pushl/popl 不适用于“错误：后缀或操作数无效”

我是汇编编程的新手正在努力解决编程基础 http savannah nongnu org projects pgubook 在带有 GNU 汇编器 v2 20 1 的 Ubuntu x86 64 桌面上我已经能够汇编链接执行我的代码
将以下机器语言代码（0x2237FFF1）翻译成MIPS汇编

到目前为止我已经翻译了这段代码但我不明白的是如何计算计算 16 位立即地址的数量 0x2237FFF1 转为二进制 0010 0010 0011 0111 1111 1111 1111 0001 现在我正在读取操作码 001000 并知

随机推荐

为什么“linq to sql classes”在创建类时会更改表的名称？

我进入并在 Visual Studio 中添加一个新的 linq to sql 类然后将一个表从数据库资源管理器拖到新的 DBML 中新类的名称不再是复数如果我仍然希望它是复数怎么办如果我拖动一个不是复数的表我会收到一堆编译错误
XML 到 JSON 还是数组？ PHP

我在想如果我可以通过 func 运行 XML 来验证它针对模式然后将 XML 转换为 json 以便于对象访问那么它可能能够使用和处理 XML 数据如何轻松地将 XML 转换为 JSON json json encode simp
类型“void”上不存在属性“then”

我应该如何处理 Typescript 错误 Property then does not exist on type void 我的代码如下所示 import Component from angular core import Socia
C# 一旦主线程睡眠，所有线程都停止

我有一个类运行生产者消费者模型如下所示 public class SyncEvents public bool waiting public SyncEvents waiting true public class Producer p
hash() 随机化在密码学上是否被认为是强大的？

从CPython 3 3 默认情况下启用哈希随机化在以前的版本中可以通过指定来打开它 R命令行选项或通过设置PYTHONHASHSEED环境变量 to random 引用了文档默认情况下 hash str bytes 和 dateti
如何使 MVC POST 返回上一页？

我有以下操作该操作是从带有记录列表的屏幕调用的 HttpPost Authorize Roles admin public ActionResult Edit EditViewModel itemView 操作完成后我想返回调用该操作的
查找矩阵中最高值的行索引和列索引

矩阵中最大值的位置行和列可以通过以下方式找到 ma lt matrix 1 50 nrow 5 which ma max ma arr ind TRUE 如果我们不想要最大值的坐标而是 N 个最高值的坐标怎么办就像是 order ma
在 MVC5 中使用异步有什么优势？

有什么区别 public ActionResult Login LoginViewModel model string returnUrl if ModelState IsValid IdentityResult result Identi
Freebase RDF 转储的 Jena 解析问题（2014 年 1 月）

我正在尝试使用 Jena 解析 freebase 转储文件 freebase rdf 2014 01 12 00 00 gz 25 GB 耶拿报告了许多有关不良数据的问题示例 150 0 无效 true 和 false 值无效我通过在转
event.source 在模拟 onFormSubmit 事件中未定义

我有一个链接到谷歌表格的谷歌表单当我提交实际表单时会触发 onFormSubmit 并且我的日志显示 e source Spreadsheet 我还使用了此链接中的模拟 onFormSubmit 代码如何测试 GAS 中的触发功能调
在 Chrome 中禁用 Flash

我们的一个内部应用程序在页面上有一个 Flash 对象当浏览器中没有可用安装的 Flash 插件时我需要测试一种极端情况既不是内部 pepperflash 也不是系统范围的 adobe flash 播放器插件根据Chromium
查询列出所有存储过程

什么查询可以返回 SQL Server 数据库中所有存储过程的名称如果查询可以排除系统存储过程那就更有帮助了正如迈克所说最好的方法是使用information schema 只要不在主数据库中系统存储过程就不会被返回 SELECT
在 sns.lmplot() 中格式化 x 轴（日期）

我需要绘制每日数据sns lmplot 数据具有以下结构 df pd DataFrame columns date origin group value data 2001 01 01 Peter A 1 0 2011 01 01 Pete
如何使用关键字作为属性名称？

到目前为止我已经非常成功地将匿名类型序列化为 json 了 dynamic jsObject jsObject new ExpandoObject jsObject dataUrl Controller Url Action loadal
Swift - 将字典 [String:Any] 编码和解码到 plist 中

我试图将字典存储在我的 Marker 类中但它抛出一个错误指出它不可编码或可解码我可以看到错误是由 String Any 引起的但我该如何解决它 var buttonActions String String String Any
如何在 CakePHP 中正确重写模型的构造函数

我在 CakePHP 2 0 中测试模型时遇到了麻烦问题似乎出在模型的构造函数上 public function construct parent construct this gt pagi cuantos 2 即使我删除了它的所有内容
R代码生成具有特定颜色的美国各州地图

我正在尝试生成美国地图其中每个州都可以具有以下颜色之一 EScolors lt c 7aad42 4a77bb f7931e d3dfbd 787878 我创建了一个数据框 states info 以将每个状态与其颜色相匹配 head s
具有键“GenderID”的 ViewData 项的类型为“System.Int32”，但必须为“IEnumerable”类型

当我尝试提交发布数据时发生错误有人可以帮助我尝试每一篇文章但他们没有帮助我我是 mvc 新手任何帮助都会被授予这是我的代码 public ActionResult Create UserProfileCreateViewMode
将我的文本居中，但保持左对齐？

我试图使页面上的链接左对齐但在页面上居中我该怎么做呢我尝试了很多方法并在谷歌上搜索了更多我编码时间不长的方法这正在成为一场真正的斗争 My site 这是我的 HTML 代码 img src http media moddb com
x86 中的原子测试和设置：内联 asm 或编译器生成的锁 bts？

以下代码在为 xeon phi 编译时会抛出异常Error cmovc is not supported on k1om 但它确实可以为常规至强处理器正确编译 include

x86 中的原子测试和设置：内联 asm 或编译器生成的锁 bts？

x86 中的原子测试和设置：内联 asm 或编译器生成的锁 bts？ 的相关文章

随机推荐

热门标签

x86 中的原子测试和设置：内联 asm 或编译器生成的锁 bts？的相关文章