如何在MSVC中有效地将两个m128d转换为一个m128i？

2023-12-15

转换然后移位然后按位或是从两个转换的唯一方法__m128d到一个单一的__m128i?

这对于 x64 构建中的 Xcode 来说是完全可以接受的

m128d v2dHi = ....
m128d v2dLo = ....
__m128i v4i = _mm_set_epi64(_mm_cvtpd_pi32(v2dHi), _mm_cvtpd_pi32(v2dLo))

反汇编显示_mm_cvtpd_pi32正在使用。但是，Visual Studio 无法编译它，并报告链接器错误。 VS 文档支持这一点，说_mm_cvtpd_pi32x64 上不支持。

我不太担心它不可用，但是两次转换，一次移位，然后按位还是最快的方法？

如果出现链接器错误，您可能会忽略有关未声明的内部函数的警告。

您当前的代码很有可能编译成糟糕的 asm。如果它编译为向量移位和 OR，则它已经编译为次优代码。（更新：这不是它编译的结果，我不知道你是从哪里得到这个想法的。）

Use 2x _mm_cvtpd_epi32得到两个__m128i每个向量的后 2 个元素都包含您想要的整数。使用_mm_unpacklo_epi64将这两个低半部分组合成一个向量，其中包含您想要的所有 4 个元素。

编译器输出来自Godbolt 编译器资源管理器上的 clang3.8.1。（我认为 Xcode 默认使用 clang）。

#include <immintrin.h>

// the good version
__m128i pack_double_to_int(__m128d a, __m128d b) {
    return _mm_unpacklo_epi64(_mm_cvtpd_epi32(a), _mm_cvtpd_epi32(b));
}
    cvtpd2dq        xmm0, xmm0
    cvtpd2dq        xmm1, xmm1
    punpcklqdq      xmm0, xmm1      # xmm0 = xmm0[0],xmm1[0]
    ret

// the original
__m128i pack_double_to_int_badMMX(__m128d a, __m128d b) {
    return _mm_set_epi64(_mm_cvtpd_pi32(b), _mm_cvtpd_pi32(a));
}
    cvtpd2pi        mm0, xmm1
    cvtpd2pi        mm1, xmm0
    movq2dq xmm1, mm0
    movq2dq xmm0, mm1
    punpcklqdq      xmm0, xmm1      # xmm0 = xmm0[0],xmm1[0]
      # note the lack of EMMS, because of not using the intrinsic for it
    ret

当SSE2及更高版本可用时，MMX几乎完全没有用；只是避免它。请参阅sse标记 wiki 以获得一些指南。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

visualc

x86

64bit

SSE

mmx

如何在MSVC中有效地将两个m128d转换为一个m128i？的相关文章

当我没有指定 x64 平台而不是 AnyCPU 时，MSBuild 如何或为何选择 x64 平台？

我在跑msbuild exe通过常规 PowerShell 控制台的 Rake 这是从诊断级别运行打印的命令 C Windows Microsoft NET Framework v4 0 30319 msbuild exe D Projec
C++ 更改屏幕方向问题 -- DEVMODE dmDisplayOrientation DMDO_90 undefined

我似乎无法编译一些 C 代码我正在翻转显示器的方向但 VS2008 告诉我 DMDO 90 和 DMDO 270 无法识别 error C2065 DMDO 90 undeclared identifier error C2065 DM
从发布的文件中删除 PDB 引用

在使用任何 IDE 调试和创建文件后我总是会查看最终的二进制可执行文件或 DLL 现在我正在尝试 Visual C 2010 寻找最佳版本没有垃圾或不必要的引用因此我创建了一个包含两个项目的新解决方案一个可执行文件及其 DLL V
CPU寄存器和多任务处理

我目前正在学习汇编我很困惑 CPU 寄存器如何与多任务一起工作所以在多任务系统中 CPU可以随时暂停某个程序的执行并运行另一个程序那么在这一步中寄存器值是如何保存的呢寄存器是压入堆栈还是以其他方式 CPU 寄存器如何与多任务一起工作
AOSP 的“午餐”组合是什么意思？我需要选择什么？

我是 Android 设备 ROM 开发的新手无论如何我现在正在为具有 64 位处理器的中国设备构建 AOSP 我按照 source android com 上的菜单进行操作当我运行午餐命令时终端显示午餐菜单选择一个组合我
在 VC++ 中，#pragma 相当于 /O2 编译器选项（优化速度）

根据msdn http msdn microsoft com en us library 8f8h5cxt aspx O2 最大速度相当于 Og Oi Ot Oy Ob2 Gs GF Gy 并根据msdn http msdn micros
AVX-512 指令编码 - {er} 含义

在 Intel x86 指令集参考中有许多 AVX 512 指令在指令中具有可选的 er 例如 VADDPD 的一种形式定义为 EVEX NDS 512 66 0F W1 58 r VADDPD zmm1 k1 z zmm2 zmm3 m
设置 IRQ 映射

我正在遵循一些教程和参考文献来尝试设置我的内核我在教程中遇到了一些不熟悉的代码但根本没有解释它这是我被告知映射的代码16 IRQs 0 15 到 ISR 地点32 47 void irq remap void outportb 0x2
linux x86 汇编语言 sys_read 调用的第一个参数应为 0 (stdin)

我正在编写一个简单的汇编程序来从标准输入读取如 scanf 这是我的代码 section bss num resb 5 section txt global start start mov eax 3 sys read mov ebx 0
如何在程序中将自己缝合到自己的尾部，无限循环地封装 64KB 代码段？

如果指令的顺序执行经过偏移量 65535 则8086将从同一代码段中的偏移量 0 处获取下一个指令字节接下来的 COM 程序利用这一事实不断将其整个代码总共 32 个字节缝合到自己的尾部环绕在 64KB 代码段中你可以称之为二元
从模态 MFC 表单获取输入信息

我已经创建了表格CPreparationDlg具有Edit Control 然后我创建了创建模态表单的应用程序在按确定后我需要将编辑控件中输入的文本读入主程序的变量中最好的方法是什么 class CPreparationApp p
Visual Studio 2012 本机 C++ DLL x86 编译

我最近将我的工具集从 Win 7 x86 Visual Studio 2010 升级到 Win 8 x64 Visual Studio 2012 但是现在我的本机 C dll 编译为 x64 而不是 x86 除了将代码移至新操作系统并将其
错误 LNK2005: xxx 已在 MSVCRT.lib(MSVCR100.dll) C:\something\LIBCMT.lib(setlocal.obj) 中定义

我正在使用 DCMTK 库来读取 Dicom 文件医学图像处理中使用的图像格式我在编译此 DCMTK 源代码时遇到问题 DCMTK 使用一些额外的外部库 zlib tiff libpng libxml2 libiconv 我知道所有库都
在 x86 汇编中将 64 位常量移至内存

我正在使用 Intel x64 程序集 NASM 编译器尝试将 0x4000000000000000 常量移至内存该常量在 ieee 754 标准双精度中应等于 2 0 我正在使用的代码是 define two 0x4000000000
通过不同 DLL 或 EXE 中的指针或引用访问 STL 对象时发生访问冲突

我在使用旧版 VC6 时遇到以下问题我只是无法切换到现代编译器因为我正在处理遗留代码库 http support microsoft com kb 172396 http support microsoft com kb 172396
gdb查找行号的内存地址

假设我已将 gdb 附加到一个进程并且在其内存布局中有一个文件和行号我想要其内存地址如何获取文件x中第n行的内存地址这是在 Linux x86 上 gdb info line test c 56 Line 56 of test c
VB - 以隐式方式链接 DLL

我正在开发 VB6 图形界面并且需要隐式链接到 DLL 这样做的动机来自于我上一个问题 https stackoverflow com questions 5194573 有问题的 DLL 使用静态 TLS declspec thread
为什么X86中没有NAND、NOR和XNOR指令？

它们是您可以在计算机上执行的最简单的指令之一它们是我亲自实施的第一个指令执行 NOT AND x y 会使执行时间和依赖链长度和代码大小加倍 BMI1 引入了 andnot 这是一个有意义的补充是一个独特的操作为什么不是这个问题
汇编器8086将32位数字除以16位数字

我尝试将 32 位数字除以 16 位数字例如 10000000h 除以 2000h 根据我尝试做的设计除以右 4 位数字除以除数然后左 4 位数字除以除数这是我的代码 DATA num dd 10000000h divisor dw
用于区分调试和发布版本的 CMake 变量或属性

我想为调试和发布版本设置不同的 CMake 变量我尝试像这样使用 CMAKE CFG INTDIR IF CMAKE CFG INTDIR STREQUAL Debug SET TESTRUNNER DllPlugInTesterd dl

随机推荐

为什么 XPath 选择上下文节点之外的节点？

我将 XPath 与 Node js 结合使用并且有以下 HTML 文档我想在其中选择所有文章节点然后在第二步中选择所有带有类的 div abc
Javascript/XML - 获取节点名称

我需要获取标签 myChild 的名称和内容这很简单但我被困住了困了这是我通过测试得到的结果 XML
如何强制章节在 ODD 页面（html 和 epub）上开始

Chapter padding bottom 30vh break before right important 好消息章节从自己的页面开始坏消息预期的行为在主框之前强制一两个分页符哪个将使下一页成为正确的页面被浏览器和任何 e
在 Android 中跨活动播放 BG 音乐

你好第一次在 stackoverflow 上提问令人兴奋哈哈我们正在开发一个 Android 游戏我们为我们的介绍播放一些背景音乐我们有一个介绍活动但我们希望它继续播放到下一个活动并且也许能够从游戏内的任何地方停止或再次播放
pip install mysql-python 失败并出现环境错误：找不到 mysql_config

这是我得到的错误 mysite zjm1126 zjm1126 G41MT S2 zjm test mysite pip install mysql python Downloading unpacking mysql python Dow
在 JAVA 中获取给定日期范围（DateX 和 DateY）之间的所有星期一和星期四日期将是一个很好的实现

我想在给定的日期范围内获取一些天数对此的最佳解决方案是什么例如我想获取从今天到两个月的所有星期一星期三和星期四的日期使用java time 现代方法使用 java time 类实例化List对象来收集您的结果 List
不同分辨率下的 Windows 窗体大小问题

我是窗口表单开发的新手在开发了一些表单后我注意到表单在不同的分辨率下无法正确显示表单在某些分辨率下超出了屏幕我想知道是否有任何设置可以根据分辨率自动调整表单或者是否有任何黑客或一些技术可以用来设计表单请详细说明您的答案因为我对
如何使用 pyautogui 检测图像并单击它？

我想学习如何让机器人点击图像我尝试观看 yt 教程但我找不到代码中的错误因为这实际上是我第一次使用 python 我尝试了以下代码 from pyautogui import import pyautogui import time
使用二分查找在排序的多维数组中查找数字

我们得到了一个递增排序的多维数组例如 int mat 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 如何使用二分查找来查找特定数字假设我正在寻找 3 您可以通过将一维索引转换为其对应的二维索引来实现此目的
在数据库中记录 Hangfire RecurringJob 的执行情况？

我已经设置了hangfire我的 ASP NET 项目成功即在我的数据库中创建了 11 个 Hangfire 表我在里面尝试了以下命令Application Start 我的项目的Global asax namespace myAPI
SQLite DATETIME 列与实体框架

我有一个现有的 SQLite 数据库我想在实体框架中使用它然而 SQLite 奇怪的类型系统意味着你甚至可以 create table temp temp datetime insert into temp values whateve
使用 PHP 身份验证进行 HTTP 身份验证

我正在为我的网站创建一个会员区域并且它已经在运行我使用 mysql 和 php 对成员进行身份验证效果非常好但现在出现问题我想为会员提供将文件上传到系统的可能性并且这些文件应该仅对登录的会员可用我知道我可以将这些文件存储到数据
SyntaxError: 当尝试将对象参数传递给 onclick 函数时，元素列表后缺少 ]

我正在尝试迭代对象列表并使用按钮为每个对象创建一个列表项当我添加onclick对他们起作用我收到这个错误语法错误元素列表后缺少这是我的代码 box resources forEach function box box resou
遗传算法中的轮盘选择

谁能提供一些轮盘赌选择函数的伪代码我将如何实现这个我真的不明白如何阅读这个数学符号我从来没有做过任何概率或统计数据我自己这样做已经有几年了但是在谷歌上很容易找到以下伪代码 for all members of population
Bash 参数扩展

我有一个使用以下逻辑的脚本 if z 1 then if any parameter is supplied ACTION clear ACTION else ACTION echo otherwise set it to echo fi
合并两个不同长度的python pandas数据帧+求和公共值

我有以下问题我有两个不同长度的 pandas 数据帧其中包含一些具有共同值的行和一些不同的行如下所示 df1 s1 s2 s3 s4 sp1 1 0 1 1 sp2 1 1 0 1 sp3 1 1 1 0 sp4 1 1 1 1 df
模拟“如果不存在则创建用户”的语法错误

MySQL 不允许您指定if not exists中的条款create user声明尽管事实上create table and create procedure支持这一点 2005 年曾有一个对此的功能请求但 MySQL 开发人员已经对
使用 MySQLi 的 real_escape_string 作为静态函数

我想知道是否可以转义字符串使用 real escape string 而无需先创建对象实例来应用该函数即我们可以这样做 database new mysqli DB HOST DB USER DB PASS DB NAME datab
限制在 PDF 页面边界内移动/拖动 pdf 注释

我正在使用 PDF 套件库在 PDF 视图上加载一份 PDF 我在 pdf 视图上添加了一个自定义视图与 PDF 注释相同并且允许用户使用 UIPanGestureRecognizer 在 pdf 视图上在 pdf 视图容器视图内
如何在MSVC中有效地将两个__m128d转换为一个__m128i？

转换然后移位然后按位或是从两个转换的唯一方法 m128d到一个单一的 m128i 这对于 x64 构建中的 Xcode 来说是完全可以接受的 m128d v2dHi m128d v2dLo m128i v4i mm set epi64 mm

如何在MSVC中有效地将两个__m128d转换为一个__m128i？

如何在MSVC中有效地将两个__m128d转换为一个__m128i？ 的相关文章

随机推荐

热门标签

如何在MSVC中有效地将两个m128d转换为一个m128i？

如何在MSVC中有效地将两个m128d转换为一个m128i？的相关文章