如何生成sse4.2 popcnt机器指令

2024-03-02

使用c程序：

int main(int argc , char** argv)
{

  return  __builtin_popcountll(0xf0f0f0f0f0f0f0f0);

}

和编译器行（gcc 4.4 - Intel Xeon L3426）：

gcc -msse4.2 poptest.c -o poptest

我没有得到内置的 popcnt 指令，而是编译器生成一个查找表并以这种方式计算 popcount。生成的二进制文件超过 8000 个字节。（哎哟！）

非常感谢您的帮助。

你必须告诉 GCC 为支持的架构生成代码 popcnt 指令：

gcc -march=corei7 popcnt.c

或者只启用对 popcnt 的支持：

gcc -mpopcnt popcnt.c

在您的示例中，将参数编程为__builtin_popcountll是一个常量，因此编译器可能会在编译时进行计算时间并且永远不会发出 popcnt 指令。即使没有，GCC 也会这样做要求优化程序。

所以尝试向它传递一些它在编译时无法知道的东西：

int main (int argc, char** argv)
{
    return  __builtin_popcountll ((long long) argv);
}

$ gcc -march=corei7 -O popcnt.c && objdump -d a.out | grep '<main>' -A 2
0000000000400454 <main>:
  400454:       f3 48 0f b8 c6          popcnt %rsi,%rax
  400459:       c3                      retq

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

gcc

Optimization

BitManipulation

hammingweight

如何生成sse4.2 popcnt机器指令的相关文章

如何让 gcc/clang 警告 switch 语句中缺少中断

有什么办法可以使gcc or clang警告 switch 语句中缺少中断具体来说我几乎总是希望 case 语句以中断结束如果我不这样做的话如果我能让编译器抱怨那就太好了如果它会寻找一个break语句或一个 fall throu
ConstantTimeByteEq 如何工作？

在大神的密码库里找到了这个函数ConstantTimeByteEq http golang org src pkg crypto subtle constant time go s 897 936 L17 它有什么作用如何工作 Cons
C++ 中的编译器指令重新排序优化（以及阻碍它们的因素）

我已将代码缩减为以下内容这在保留我感兴趣的编译器输出的同时尽可能简单 void foo const uint64 t used uint64 t ar 100 for int i 0 i lt 100 i ar i some globa
str.find 怎么这么快？

我之前遇到过一个问题我在迭代字符串并使用切片时寻找子字符串原来这是一个really关于性能的坏主意 str find速度要快得多但我不明白为什么 import random import string import timeit Ge
优化 itoa 功能

我正在考虑如何使用SSE指令实现整数 4字节无符号到字符串的转换通常的例程是将数字相除并将其存储在局部变量中然后反转字符串本示例中缺少反转例程 char convert unsigned int num int base stat
ns_initparse 的链接器错误

这是代码 include
为什么 SSE 对齐读取 + 随机播放在某些 CPU 上比未对齐读取慢，而在其他 CPU 上则不然？

在尝试优化有限差分代码所需的未对齐读取时我更改了未对齐的负载如下所示 m128 pm1 mm loadu ps H k 1 进入这个对齐的读取随机播放代码 m128 p0 mm load ps H k m128 pm4 mm load
删除最低位

给定一个二进制数删除最低位的最快方法是什么 01001001010 gt 01001001000 它将在代码中用于迭代变量的位伪代码如下 while bits 0 index getIndexOfLowestOrderBit bits
如何使用 GCC 在 C 上编译库？

我用这些文件创建了一个库pila h and pila c 我编译文件pila c with gcc pila c c这个库运行良好我已经测试过了然后我又做了一个图书馆这个库有文件pila funciones extra h and
如何为单个函数设置 ICC 属性“fp-model precision”，以防止关联优化？

我正在实施卡汉求和 http en wikipedia org wiki Kahan summation algorithm 在支持 gcc47 gcc48 clang33 icc13 和 icc14 编译的项目中作为该算法的一部分我想
警告：c 中指针和整数之间的比较[默认启用]

我想检查用户输入是否仅包含数字所以我使用以下代码 for i 0 argv 1 i NULL i if isdigit argv 1 i printf Error return 1 它工作得很好但我收到了这个警告 warning co
Python 中快速、小型且重复的矩阵乘法

我正在寻找一种使用 Python Cython Numpy 快速将许多 4x4 矩阵相乘的方法任何人都可以给出任何建议吗为了展示我当前的尝试我有一个需要计算的算法 A 1 A 2 A 3 A N 哪里每个 A i A j Python
gcc 内部使用相同的位表示 int 和 char 吗？

我只是为了好玩而玩弄 unicode 字符不使用 wchar t 支持我只使用常规的 char 数据类型我注意到当以十六进制打印它们时它们显示了完整的 4 个字节而不是仅一个字节对于前考虑这个 c 文件 include
NASM 轮班操作员

您将如何在寄存器上进行 NASM 中的位移位我读了手册它似乎只提到了这些操作员 gt gt lt lt 当我尝试使用它们时 NASM 抱怨移位运算符处理标量值您能解释什么是标量值并举例说明如何使用 gt gt and lt lt 另外
找到两个移动物体的更好交点

我想极大地优化我的算法之一我将尽力以最好的方式解释它主题我们当时处于二维欧几里德系统中t 0 在这个系统中有两个对象 O1 and O2 O1 and O2分别位于点PA and PC O1移动于常数和已知点方向的速度PB 当物体到达
在 Ruby 中构建字符串时，为什么铲运算符 (<<) 优于加等于 (+=)？

我正在通过 Ruby Koans 进行工作 The test the shovel operator modifies the original string公案中about strings rb包括以下评论 Ruby 程序员倾向于使用铲子
如何BSWAP 64位寄存器的低32位？

我一直在寻找如何将 BSWAP 用于 64 位寄存器的低 32 位子寄存器的答案例如 0x0123456789abcdef位于 RAX 寄存器内我想将其更改为0x01234567efcdab89用一条指令因为性能所以我尝试了以下内联
软件预取手动指令合理的场景

我读过有关 x86 和 x86 64 Intel 的内容gcc提供特殊的预取指令 include
用更有意义的文本替换 GCC 输出中的 a-hats [重复]

这个问题在这里已经有答案了可能的重复为什么 gcc 的所有错误消息中都有 https stackoverflow com questions 547071 why does gcc have a in all its error mes
使用多个模块时优化 Flex

我有一个 Flex 应用程序加载时间非常重要消费者网站我希望能够在屏幕上显示一些内容然后允许根据需要加载其他模块我面临的问题是所有模块的总和比我将所有组件包含在单个 swf 文件中要大得多原因很明显例如访问 Web 服务所需

随机推荐

从服务器加载数据的最佳实践（Android 应用程序）

我正在构建一个 Android 应用程序它应该显示从互联网服务器加载的一些数据目前我有一个本地SQliteDB在我的应用程序中使用其中存储了应该显示的数据我使用它是因为我希望能够显示数据即使暂时没有可用的互联网连接下一步我将致
使用bazel构建简单库时包含路径问题

演示结构如下 demo include func h src BUILD func cc WORKSPACE func h pragma once int square int func cc 从根目录开始包含 include demo i
Onclick 显示下一个 div

我有 1000 个 div 其中 20 个是可见的其余的是隐藏的在 onClick jquery 事件中我希望接下来的 20 个 div 变得可见依此类推如果您使用 jquery 则可以使用 slice 方法 http api j
编写一个 jquery 选择器来选择具有特定模式的类

如何选择一些具有类名模式的 diva
无法通过 PEAR 安装 PHPUnit，需要 PEAR 安装程序 >= 1.9.2，无法从 1.9.0 升级 PEAR

我阅读了其他 PHPUnit 安装问题但没有取得任何成功我的 PEAR 安装发生了什么 sudo pear update channels Updating channel components ez no Channel compon
如何使用ViewModel Closer关闭ViewModel的View？

在 MvvmCross v3 CustomerManagement 示例中该方法void RequestClose IMvxViewModel viewModel 关闭顶部View 你如何关闭View of a ViewModel反而我
在 AS3 中使用 Final 有什么好处吗？

我最近尝试养成使用的习惯final任何符合逻辑的关键字就像任何不应该扩展的类一样我这样做纯粹是因为我喜欢保持严格而简洁的编码风格除了在为其他方开发应用程序游戏基础或与他人合作等情况下有明显的优势之外使用时是否有任何实际好处fina
git fetch 仅适用于当前分支

我知道我可以将任何远程分支获取到任何本地分支 https stackoverflow com questions 6368987 how do i fetch only one branch of a remote git reposito
AngularJS - 选择 ng-repeat 生成的单选按钮时模型未更新

我正在使用 ng repeat 生成一堆单选按钮然后在选择其中一个按钮时尝试更新模型这似乎不起作用当无线电输入被硬编码而不是由 ng repeat 生成时相同的标记工作得很好这有效
我如何计算元素以便稍后使用该值？

Html tbody class ant table tbody tr class ant table row 1 tr tr class ant table row 2 tr tr class ant table row n tr tbo
C# CultureInfo.CurrentCulture 显示 en_US 但我的 Windows 设置设置为南非

我将 Windows 8 1 控制面板中的区域位置更改为南非当我从 Visual Studio 2013 启动我的应用程序并获取 CultureInfo CurrentUICulture 时它仍然显示 en US public Cu
检查文件是否存在并创建符号链接

我想做这样的事情如果文件 A 存在或者没有符号链接 B 我想创建一个符号链接 B gt A 现在我有 B file symlink target A exists name A 但这很糟糕它检查不到我想要的东西我怎样才能用盐实现这个简
如何将对象中的对象转换为 Angular 类（类型）

我怎样才能投obj category into Category输入下面的示例我需要它来设置下拉列表中的选定选项 export class Category id number name string constructor obj an
调整标题和图边缘之间的空白

我想在标题轴标题和绘图标题和绘图边缘之间创建空间我试过了axis title and plot title没有运气当我尝试不同的值时情节没有真正改变vjust 我也尝试过plot margin 但似乎也没有发生任何事情 Data
random.randint 在具有相同种子的 Python 2.x 和 Python 3.x 中显示不同的输出

我正在将应用程序从 python 2 移植到 python 3 并遇到以下问题 random randint根据使用的Python版本返回不同的结果所以 import random random seed 1 result random
Java Spring @Scheduled 任务执行两次

我这里有一个简单的测试方法设置为每 5 秒运行一次并且确实如此但是查看 System out 您可以看到它似乎在做一些奇怪的事情 Scheduled cron 5 public void testScheduledMethod Sys
从 EJB3 迁移到 Spring、Hibernate

我们有一个基于 EJB3 Oracle 10 和 JBoss 4 的桌面应用程序这是大约三年前创建的 JPA 实体用于 ORM 业务逻辑在无状态会话 bean 中实现客户端是使用Swing API 开发的现在需要在下一个版本的应用程序
Android 片段屏幕重叠

我有一个使用片段的应用程序在我的用户的一台设备 HTC One 上碎片相互重叠他的屏幕最终看起来一团糟我尝试在自己的硬件上重现它尽管它不是 HTC One 我也尝试过使用 android 版本 4 1 2 这是他拥有的版本并且运
Flutter：如何使整行可点击

如何使整行在颤振中可点击我将以下代码包装在 GestureDetector 中行中的各个项目是可单击的但小部件周围的空白区域不可单击 if auth isLoggedIn GestureDetector onTap auth sign
如何生成sse4.2 popcnt机器指令

使用c程序 int main int argc char argv return builtin popcountll 0xf0f0f0f0f0f0f0f0 和编译器行 gcc 4 4 Intel Xeon L3426 gcc msse4

如何生成sse4.2 popcnt机器指令

如何生成sse4.2 popcnt机器指令 的相关文章

随机推荐

热门标签

如何生成sse4.2 popcnt机器指令的相关文章