x86-SSE 中四个压缩单精度浮点到无符号双字的转换

2024-03-12

有没有办法将四个打包单精度浮点值转换为具有 SSE 扩展的 x86 中的四个双字？最接近的指令是CVTPS2PI，但它不能在两个 xmm 寄存器上执行，而是应该给出为CVTPS2PI MM, XMM/M64。如果我想要类似的东西怎么办<conversion_mnemonic> XMM, XMM/M128?

谢谢。伊曼.

x86 在 AVX512 之前没有对 FPunsigned 的本机支持，vcvtps2udq (https://www.felixcloutier.com/x86/vcvtps2udq https://www.felixcloutier.com/x86/vcvtps2udq）。对于标量，通常只需转换为 64 位有符号 (cvtss2si rax, xmm0）并取其中的低 32 位（在 EAX 中），但这对于 SIMD 来说不是一个选项。

没有 AVX-512，理想情况下，您可以使用签名转换 (cvtps2dq）并得到相同的结果。 IE。如果你的浮点数非负并且 INT_MAX (2147483647.0).

See 如何使用SSE/AVX高效执行double/int64转换？ https://stackoverflow.com/questions/41144668/how-to-efficiently-perform-double-int64-conversions-with-sse-avx用于相关的 double->uint64_t 转换。如果需要的话，全范围的应该可以从 double->uint64_t 到 float->uint32_t 进行调整。

Another possibility (for 32-bit float->uint32_t) is just range-shifting to signed in FP, then flipping back in integer. INT32_MIN ^ convert(x + INT32_MIN). But that introduces FP rounding for small integers because INT32_MIN is outside the -2²⁴ .. 2²⁴ range where a float can represent every integer. e.g. 5 would be rounded to the nearest multiple of 2⁸ during conversion. So that's not usable; you'd need to try straight conversion and range-shifted conversion, and only use the range-shifted conversion if straight conversion gave you 0x80000000. (Perhaps using the straight conversion result as a blend control for SSE4 blendvps?)

对于 float->int32_t 的打包转换，有 SSE2cvtps2dq xmm, xmm/m128 docs https://www.felixcloutier.com/x86/cvtps2dq. (cvttps2dq转换为截断为 0，而不是当前默认的舍入模式（最接近的舍入模式，如果您没有更改它）。

Any negative float less than -0.5 will convert to integer -1 or lower; as an uint32_t that bit-pattern represents a huge number. Floats outside the -2³¹..2³¹-1 range get converted to 0x80000000, Intel's "integer indefinite" value.

如果您没有找到，只有 cvtps2pi 签名转换为 MMX 寄存器，您需要更好的地方来搜索：

https://stackoverflow.com/tags/sse/info https://stackoverflow.com/tags/sse/info - links
https://www.felixcloutier.com/x86/ https://www.felixcloutier.com/x86/x86 指令集列表。
https://www.officedaytime.com/simd512e/simd.html https://www.officedaytime.com/simd512e/simd.html- 按类别/功能列出的指令列表
https://software.intel.com/sites/landingpage/IntrinsicsGuide/ https://software.intel.com/sites/landingpage/IntrinsicsGuide/- 列出了仅公开单个指令功能的内在函数的 asm 指令助记符。通常，使用内在函数编写 C 比手动编写 C 更好，特别是如果您还不了解相对常见/简单的指令，例如cvtps2dq and cvttps2dq.
https://agner.org/optimize/ https://agner.org/optimize/- 他的 asm 优化指南有一章是关于 SIMD 的，其中有一个方便的表格，其中包含不同类型的数据移动指令。
如何将单精度浮点数的 XMM 寄存器转换为整数？ https://stackoverflow.com/questions/18861499/how-can-i-convert-an-xmm-register-of-single-precision-floats-to-integers- 指向正确方向的指针，但仅涵盖有符号转换。我没有找到完全相同的副本。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

x86-SSE 中四个压缩单精度浮点到无符号双字的转换的相关文章

一条指令可以同时处于两种寻址模式吗？

我在书中读到了以下内容从头开始编程处理器有多种不同的访问数据的方式称为寻址模式最简单的模式是立即模式其中要访问的数据嵌入在指令本身中例如如果我们想将寄存器初始化为 0 而不是给出计算机要从中读取 0 的地址我们将指定立即
为什么 SSE 对齐读取 + 随机播放在某些 CPU 上比未对齐读取慢，而在其他 CPU 上则不然？

在尝试优化有限差分代码所需的未对齐读取时我更改了未对齐的负载如下所示 m128 pm1 mm loadu ps H k 1 进入这个对齐的读取随机播放代码 m128 p0 mm load ps H k m128 pm4 mm load
什么时候汇编比C更快？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案 Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话但却具有历史意义目前不接受新的
汇编-符号标志和奇偶校验标志

我不明白什么时候设置标志标志什么时候设置奇偶校验据我所知符号标志表示运算结果的符号 0表示正数 1表示负数那么为什么在下一个代码中 mov al 5 sub al 124 SF为零结果是负数关于PF 为什么a和b中设置了PF a
NASM 轮班操作员

您将如何在寄存器上进行 NASM 中的位移位我读了手册它似乎只提到了这些操作员 gt gt lt lt 当我尝试使用它们时 NASM 抱怨移位运算符处理标量值您能解释什么是标量值并举例说明如何使用 gt gt and lt lt 另外
Visual Studio 2017 上的简单装配程序

386 model flat c stack 100h printf PROTO arg1 Ptr Byte data msg1 byte Hello World 0Ah 0 code main proc INVOKE printf ADD
C/C++ 特殊 CPU 功能的使用

我很好奇新的编译器是否使用了新 CPU 中内置的一些额外功能例如 MMX SSE 3DNow 所以我的意思是在最初的 8086 中甚至没有 FPU 所以旧的编译器甚至不能使用它但新的编译器可以因为 FPU 是每个新 CPU 的一
在linux x86平台上学习ARM所需的工具[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我有一个 x86 linux 机器在阅读一些关于 ARM 的各种信息时我很好奇现在我想花一些时间学
为什么 RISC-V S-B 和 U-J 指令类型以这种方式编码？

我正在读一本书计算机组织与设计RISC V版我遇到了 S B 和 U J 指令类型的编码我上面提到的那些类型有奇怪的编码立即字段 S B 类型将直接字段分为两部分这是有道理的因为所有指令编码都必须相似但我无法理解为什么立即字段以
汇编8086监听键盘中断

我有与此完全相同的问题边画边听键盘 https stackoverflow com questions 13970325 8086 listen to keyboard while drawing 但第一个答案接受的答案只听键盘一次
为什么在强度降低乘法和循环进位加法之后，这段代码的执行速度会变慢？

我正在读书阿格纳雾 https en wikipedia org wiki Agner Fog s 优化手册 https en wikipedia org wiki Agner Fog Optimization 我遇到了这个例子 doub
AVX-512CD（冲突检测）与原子变量访问有何不同？

所以我在看他们展示了如何 void Histogram const float age int const hist const int n const float group width const int m const float o
“mov (%ebx,%eax,4),%eax”如何工作？ [复制]

这个问题在这里已经有答案了一直在从事装配作业并且在很大程度上我对装配非常了解或者至少对于这项任务来说足够好但这个 mov 的声明让我很困惑如果有人能解释这个 mov 语句如何操作寄存器值我将非常感激 mov ebx eax 4
使用 NEON 优化 Cortex-A8 颜色转换

我目前正在执行颜色转换例程以便从 YUY2 转换为 NV12 我有一个相当快的函数但没有我预期的那么快主要是由于缓存未命中 void convert hd uint8 t orig uint8 t result uint32 t wi
CPU寄存器和多任务处理

我目前正在学习汇编我很困惑 CPU 寄存器如何与多任务一起工作所以在多任务系统中 CPU可以随时暂停某个程序的执行并运行另一个程序那么在这一步中寄存器值是如何保存的呢寄存器是压入堆栈还是以其他方式 CPU 寄存器如何与多任务一起工作
如何将输入传递到扩展汇编中？

考虑这段代码来自我的先前的问题 https stackoverflow com questions 37955538 segfault on movq instruction int main asm movq 100000000 rcx
如何使用movntdqa避免缓存污染？

我正在尝试编写一个 memcpy 函数该函数不会将源内存加载到 CPU 缓存中目的是避免缓存污染下面的 memcpy 函数可以工作但会像标准 memcpy 一样污染缓存我正在使用带有 Visual C 2008 Express 的
按字节数对向量进行混洗

有什么办法可以左移 v 0 gt v 1 a m128i by n字节其中n仅在运行时才知道我目前仅限于 AVX1 但如果 AVX2 512 使这变得更容易我非常感兴趣 I found mm bslli si128 m128i imm
linux x86 汇编语言 sys_read 调用的第一个参数应为 0 (stdin)

我正在编写一个简单的汇编程序来从标准输入读取如 scanf 这是我的代码 section bss num resb 5 section txt global start start mov eax 3 sys read mov ebx 0
为什么 clang 使用 -O0 生成低效的 asm（对于这个简单的浮点和）？

我正在 llvm clang Apple LLVM 版本 8 0 0 clang 800 0 42 1 上反汇编此代码 int main float a 0 151234 float b 0 2 float c a b printf f c

随机推荐

操作处理程序不适用于视图本身

操作处理程序不能直接在视图实例上工作吗我想将其直接附加到整个视图本身而不是在视图中附加操作处理程序示例 jsFiddle http jsfiddle net t3wdG http jsfiddle net t3wdG UPDATE 我
from 子句中的 JPA 子查询

我们正在开发一个使用 EJB 连接到数据库的 Web 应用程序在我们的数据库模型中我们有一个移动设备表另一个具有功能的表最后一个将功能值与手机型号进行映射模型 id model 特征 id feature model featur
从cfscript中的coldfusion newQuery()获取结果元数据

关于 CFscript 的文档在文档中有点稀疏并且搜索 cfscript 特定答案会在 CF 标签答案中丢失所以这是我的问题如何从使用脚本执行的查询中获取结果元数据使用我可以添加的标签result myNamedResultVar
如何在 Swift 中迭代对象数组？

我有物体 var person1 Person person1 name Joe person1 lastName Doe person1 age 21 var person2 Person person2 name Julia perso
像文字处理器一样格式化文本的 iPhone 应用程序

很抱歉提出这样的一般性问题但我想知道是否以及如何可以编写一个 iPhone 应用程序在不同页面上格式化 txt 文件就像 Microsoft Word 在布局模式下打开一个新文档时所做的那样并且粘贴一个txt文件换句话说我不
如何重新加载当前页面？

我有一个用于编辑用户的页面里面有一些子组件每个子组件都可以更改其父组件或对其父组件产生一些影响因此我没有向父级发出更改并更新某些字段而是使用重新加载当前页面 private route ActivatedRoute reloa
android:minHeight 在 web 视图中不起作用

我有以下 xml 文件
使用 loadData 在 UIWebView 中显示 PDF

我正在尝试显示本地存储在 UIWebView 中的 PDF 这就是我目前尝试执行此操作的方式 if NSFileManager defaultManager fileExistsAtPath self url LOG ERROR Could
如何返回 JsonResult [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我在编写这个 AJAX 方法时遇到问题我想返回一个JsonResult 似乎是合乎逻辑的事情我能找到的所有例子都可以使用Jso
在Python中访问第n维[重复]

这个问题在这里已经有答案了我想要轻松读取多维 numpy 数组的某些部分对于任何数组访问第一维都很容易 b index 另一方面访问第六维度是困难的尤其是阅读 b index the next person to read th
角度 HTTP POST 请求

我在 Angular2 和 Spring MVC 中构建一个应用程序当我尝试向我的服务器发出 POST 请求时我没有收到任何成功或失败的迹象但请求没有发生因为我看不到新的数据当我从邮递员那里发出请求时请求成功我可以看到新数据
什么时候应该使用 MySQLi 而不是 MySQL？

有人可以帮我解释一下使用 MySQLi 而不是 MySQL 的优点和缺点吗是否存在不应该使用 MySQLi 的情况为了使用 MySQLi 我是否需要以不同的方式配置我的服务器例如我是否需要升级 Apache 或 PHP 才能支持 M
如何创建带有百分比计数器的 jQuery 预加载器？

我编写了从一本 jQuery 初学者书中学到的代码它非常适合作为页面的预加载器但我如何为其创建百分比计数器呢基于加载了多少正文内容目前我只有一个动画 GIF 但我想要一些更高级的东西 Lets preload window loa
使用转换器和提供程序而不是属性映射时如何让 ModelMapper.validate() 成功？

有类似的东西 Getter Setter public static class Entity private int hash private LocalDateTime createdTime and Getter Setter pub
调用 oncontextmenu 时 Firefox 浏览器的事件未定义

我在右键单击页面中的按钮时显示上下文菜单用于显示上下文菜单的代码是 window addEventListener contextmenu function e e preventDefault false 当我右键单击按钮时调用的上下
解决 git merge octopus 上的冲突

章鱼合并是指合并2个以上的头用户应该如何使用普通的三向合并工具比较文件 3 个文件被传递到合并工具 BASE LOCAL REMOTE 3 个头需要多少个以及什么组合在这种情况下您不应该使用章鱼合并八达通合并仅应在不存在合并冲突或冲
setInterval 使用 Electron 一小时后停止

希望有人能在这里指出我正确的方向我的电子应用程序需要每 10 分钟左右执行一次 API 调用目前我在渲染器进程中使用 setInterval 循环来执行此操作该循环每 10 分钟触发一次它通常工作得很好几个小时后似乎就停止了我
Android Studio 在创建新活动时“发生 IDE 错误”

更新见底部由于 Android Studio 将自身更新到 v3 0 我无法创建新的 Activity 我收到此错误报告对话框显示 2 个错误我尝试了不同的项目尝试清理项目重新同步 gradle 重新启动计算机卸载重新安装 A
strdup()：对警告感到困惑（“隐式声明”、“使指针...无需强制转换”、内存泄漏）

当我编译下面的一小段代码其中我们定义一个字符串然后使用 strdup 来制作副本时我收到 3 个警告来自 GCC 的 2 个编译器警告和来自 valgrind 的 1 个运行时警告错误我怀疑内存泄漏错误由 valgrind
x86-SSE 中四个压缩单精度浮点到无符号双字的转换

有没有办法将四个打包单精度浮点值转换为具有 SSE 扩展的 x86 中的四个双字最接近的指令是CVTPS2PI 但它不能在两个 xmm 寄存器上执行而是应该给出为CVTPS2PI MM XMM M64 如果我想要类似的东西怎么办

x86-SSE 中四个压缩单精度浮点到无符号双字的转换

x86-SSE 中四个压缩单精度浮点到无符号双字的转换 的相关文章

随机推荐

热门标签

x86-SSE 中四个压缩单精度浮点到无符号双字的转换的相关文章