为什么 _mm_mulhrs_epi16() 总是进行有偏舍入到正无穷大？

2024-02-24

有谁知道为什么pmulhrsw指示或

_mm_mulhrs_epi16(x) := RoundDown((x * y + 16384) / 32768)

总是向正无穷大舍入？对我来说，这对负数有很大的偏差，因为像 -0.6, 0.6, -0.6, 0.6, ... 这样的序列平均起来不会等于 0。

这种行为是有意还是无意？如果是故意的，那有什么用呢？有没有一种简单的方法可以减少偏见？

对我来说幸运的是，我只需更改操作顺序即可获得偏差较小的结果（我的函数是带符号的几何平均值）：

__m128i ChooseSign(x, sign)
{
  return _mm_sign_epi16(x, sign)
}
signsDifferent = _mm_srai_epi16(_mm_xor_si128(a, b), 15)   // (a ^ b) >> 15
sign = _mm_andnot_si128(signsDifferent, a)    // !signsDifferent & a
//result = ChooseSign(sqrt(a * b), sign) * fraction   // biased
result = ChooseSign(sqrt(a * b) * fraction, sign)

一个最严重的错误。我在上问了同样的问题英特尔开发者论坛 https://software.intel.com/en-us/forums/topic/540117andysem 纠正了我，指出行为是四舍五入到最接近的整数。

我错误地认为这是有偏见的，因为来自MSDN的公式 https://learn.microsoft.com/en-us/previous-versions/bb513995(v=vs.120)

was (x * y + 16384) >> 15。这看起来非常相似int(x + 0.5)舍入方法，我知道这种方法对负数有偏见并且畏缩。但我没有意识到负数的右移与除法和转换为 int 不同。

另外，它与我的非 SIMD 参考实现不匹配，结果证明这是有偏差的，因为我正在计算int(sum / 9.0f)，向零舍入。

在质疑硬件中实现的某些东西的行为之前，我应该有更多的怀疑，因为硬件会经过严格的审查，因为int(x + 0.5)将是一个非常昂贵的错误。

_mm_mulhrs_epi16()仍然有一些偏差，总是将 x.5 舍入到+infinity。但这对我的申请来说不是什么大问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

rounding

multiplication

SIMD

SSE

为什么 _mm_mulhrs_epi16() 总是进行有偏舍入到正无穷大？的相关文章

在 R 中对非常小的值使用舍入函数返回零

有时我必须处理非常低的 p 值并以表格格式呈现它们 R 返回的值可以具有很长的有效数字即小数点后的数字现在由于 p 值无论如何都很低我倾向于在将它们写入 xls 或 tsv 文件之前缩短它们只是为了使表格看起来漂亮我在用R ve
如何在颤振中使用精度对整数进行舍入

我试图使折线图的 Y 轴间隔在颤动中动态化这里MaxVal将获取Y轴的最大值 int interval maxVal 6 toInt int length interval toString length toInt 所以在这里我将 ma
在Python中，整数除法中向零舍入的好方法是什么？

1 2 gives 0 正如它应该然而 1 2 gives 1 但我希望它向 0 舍入即我希望 1 2 为 0 无论它是正数还是负数最好的方法是什么进行浮点除法然后转换为 int 不需要额外的模块 Python 3 gt gt g
JQ：如何将被识别为字符串的值相乘？

我正在尝试从交换网络套接字获取一些贸易信息在我从套接字获取的 JSON 中值 p 和 q 都用双引号括起来当我尝试将两个值相乘时它表示我正在尝试将两个字符串相乘因此我通过 tonumber 过滤器传递这些字符串并且错误消息发生
调用always_inline‘_mm_mullo_epi32’时内联失败：目标特定选项不匹配

我正在尝试使用 cmake 编译 C 程序该程序使用 SIMD 内在函数当我尝试编译它时出现两个错误 usr lib gcc x86 64 linux gnu 5 include smmintrin h 326 1 错误调用alwa
C++ 错误：“_mm_sin_ps”未在此范围内声明

我正在尝试对将函数应用于数组的不同方法进行基准测试 why is mm sin ps在我的范围内不知道但是 mm sqrt ps is 我怎样才能让它知道并且编译没有错误 include
SSE，行主要与列主要性能问题

出于个人和娱乐目的我正在使用 SSE 4 1 编写一个 geom 库我花了最后 12 个小时试图理解处理行主要与列主要存储矩阵时的性能问题我知道 Dirext OpenGL 矩阵是以行主顺序存储的因此对我来说将矩阵按行主顺序存储会
如何将日期时间四舍五入到最接近的 5 分钟？

我需要一个Python3函数来四舍五入datetime datetime反对精确到 5 分钟是的这已经在之前的 SO 帖子中讨论过here https stackoverflow com questions 32723150 round
write.csv 精度 R

我正在处理非常精确的数字最大位数我注意到write csv x 在 R 中有时会对数字进行四舍五入有人注意到类似的事情吗默认保存的位数是多少正如文档中所写在几乎所有情况下数值量的转换都是受控制的通过选项 scipen see
使用 GCC 为 Linux 设备驱动程序编译 Intel AVX 内联

我在 corei7 上的 ubuntu 上运行 gcc 版本 4 8 2 从谷歌搜索中找到了有关 AVX 内在函数的信息但我不确定这组内在函数是否可以用于 Linux 设备驱动程序并进行编译如果可以的话这里的任何人都可以告诉我 mak
如何使用 JavaScript 四舍五入到任意数量的有效数字？

我尝试了下面的示例代码 function sigFigs n sig if n 0 return 0 var mult Math pow 10 sig Math floor Math log n lt 0 n n Math LN10 1 r
_mm256_fmadd_ps 比 _mm256_mul_ps + _mm256_add_ps 慢？

我有一个图像处理算法来计算a b c d与AVX 伪代码如下 float a new float N float b new float N float c new float N float d new float N assign va
将两个 32 位整数向量相乘，生成 32 位结果元素向量

将每个 32 位条目乘以 2 的最佳方法是什么 mm256i互相注册 mm256 mul epu32不是我正在寻找的因为它产生 64 位输出我想要每个 32 位输入元素都有一个 32 位结果而且我确信两个 32 位值的乘法不会溢出
将整数四舍五入到最接近的 10 倍数[重复]

这个问题在这里已经有答案了我想弄清楚如何对价格进行四舍五入双向例如 Round down 43 becomes 40 143 becomes 140 1433 becomes 1430 Round up 43 becomes 50 1
什么是 __ext_vector_type__ 和 simd？

我正在使用 Apple Metal API 以及所谓的simd图书馆标题中有这样的代码 typedef attribute ext vector type 3 float vector float3 我很好奇它实际上做了什么以及为什么编译
四舍五入到 25、50、75、100

我不是一个数学爱好者所以我很难想出一个将小数四舍五入到 25 50 75 和 100 的计算方法这不会是典型的四舍五入因为小数不会减少但只增加了 Example 如果 11 12 则舍入为 11 25 如果为 11 34 则舍入为 1
使用 (float&)int 进行类型双关可以正常工作，(float const&)int 会像 (float)int 一样转换吗？

VS2019 发布 x86 template
什么是“矢量化”？

现在好几次了我在 matlab fortran 其他一些中遇到这个术语但我从来没有找到解释它是什么意思它有什么作用所以我在这里问什么是矢量化例如循环矢量化是什么意思许多CPU具有向量或 SIMD 指令集它们同时对两
MS Access 中的舍入

VBA Access 中舍入的最佳方法是什么我目前的方法是利用Excel方法 Excel WorksheetFunction Round 但我正在寻找一种不依赖Excel的方法请注意 VBA Round 函数使用 Banker 舍入将
大数组上的 SSE 性能较慢

我是 SSE 编程新手所以我希望有人可以帮助我我最近使用 GCC SSE 内在函数实现了一个函数来计算 32 位整数数组的总和下面给出了我的实现代码 int ssum const int d unsigned int len stat

随机推荐

Firebase：仍启用每个电子邮件一个帐户，Firebase 使用同一电子邮件创建多个帐户

在我的项目中首先默认启用每个电子邮件一个帐户 AuthCredential credential FacebookAuthProvider getCredential token getToken mAuth signInWithCre
有没有一个插件可以自动压缩和缓存 JavaScript？

我正准备开始一个新项目我想知道是否有一种方法可以在服务器端自动缩小 JavaScript 并在 JavaScript 缩小一次后提供缓存我可以简单地编写一个构建脚本来完成此任务但如果我可以一劳永逸可以自动缩小那就太好了在这种情
如何从 WP7 中的字符串中删除重音符号

我想从 Windows Phone 7 中的字符串中删除重音符号变音符号解决方案here https stackoverflow com questions 249087 how do i remove diacritics accen
在 Vue.js 中如何使用多个路由器视图，其中一个视图位于另一个组件内？

我有一个 Vue js 单页应用程序其中有一个使用的主导航栏
在网站访问之间安全存储凭据

我正在建立一个网站允许用户创建帐户并访问网站的内容我不希望用户每次访问该网站时都登录因此我计划将用户名和密码存储在 cookie 中但是我听说这是不好的做法即使密码经过哈希处理饼干我应该遵循哪些最佳实践才能在用户访问我的网
将字节数组转换为十六进制字符串

令人惊讶的是对我来说这段代码没有达到我想要的效果 fun ByteArray toHexString String return this joinToString it toString 16 事实证明Byte is signed 因
服务模型和 f#

我刚刚从 f 开始所以这个问题对你们中的一些人来说可能看起来很简单所以我尝试使用位于 System ServiceModel Syndicate 命名空间中的 SyndicateFeed 我向项目添加了以下引用 System Serv
`iter().map().sum()` 和 `iter().fold()` 一样快吗？

编译器是否生成相同的代码iter map sum and iter fold 最终他们实现了相同的目标但是第一个代码将迭代两次一次是为了map并一次为sum 这是一个例子哪个版本会更快total pub fn square s u32
数组到二叉搜索树快速

给定一个整数数组有没有办法将其快速转换为二叉搜索树不平衡我尝试为每个元素一一插入但这意味着我必须从头开始遍历每次插入它工作得很好但我认为最坏的情况是 O N 2 不平衡例如数组已排序鉴于 N 个很大我认为这将需要一些时间
尝试用另一种语言解密时出现错误的 AES 解密

当我尝试在 C 中加密并在 C 中解密时出现错误输入数据不是一个完整的块但这对我来说没有任何意义因为如果我尝试用 C 解密消息与我进行加密的语言相同它工作得很好所以 C 部分的一些代码 int main int argc ch
Mysql select递归获取具有多个级别的所有子级

我有一张桌子 CREATE TABLE IF NOT EXISTS Folder idFolder INT 11 NOT NULL AUTO INCREMENT FolderName VARCHAR 150 NOT NULL idFolde
强制关闭电报上的弹出窗口“打开此链接？”

当我在帖子中使用 html 格式并创建链接时 Telegram 会显示一个弹出窗口before打开链接是否有脚本或其他东西可以强制关闭弹出窗口并立即打开链接我不想插入链接没有 HTML 在单击链接之前我按下 Enter 键我使用 A
Android - 在 TextView 上显示带边框文本的方法？

有没有办法在 TextView 上显示带边框的文本我建议延长TextView http developer android com reference android widget TextView html See Android 自定
如何在 MacBook Air 上的 iOS 模拟器中滚动？

我有一个滚动视图和一个嵌入的 UIImageView 代码是正确的但我无法在模拟器中滚动可能是因为我有触控板而不是鼠标或者我可以吗您需要启用 3 指拖动从 Apple 菜单中选择系统偏好设置单击辅助功能图标在侧边栏中选择
如何禁用 openssl 中的特定密码套件？

我想保护我的服务器免受 FREAK 攻击因此我想禁用所有使用 Openssl 导出级 RSA 密钥的密码套件有没有办法禁用 openssl 中的特定密码套件如果是我该怎么做有没有办法禁用 openssl 中的特定密码套件如果是
内存限制=80M。 imagecreatefromjpeg() 的最大图像尺寸是多少？

我有一个虚拟主机最大内存限制为 80M 即 ini set memory limit 80M 我正在使用使用函数 imagecreatefromjpeg 的照片上传当我上传大图片时出现错误致命错误允许的内存大小 83886080 字
使用 then() 使函数在节点中顺序运行

我想在序列总线中运行循环函数该函数总是异步的有什么方法可以使其同步而不使用回调或任何外部库 file 1 var db require promiseUnderStanding var fun function for var i 0
如何求两个表的总和？

我有两个表第一个名称是销售第二个名称是项目两个表中都有相同的 code 和 qtd 列我想编写 MYSQL 查询我需要两个表中的 sum qtd 其中两个表中的代码相同对于单表我正在使用这个按代码从销售组中选择代码 su
FORTRAN 95：是否可以在不共享源代码的情况下共享模块？

我希望能够共享 FORTRAN 95 模块而不共享其源代码是否可以这样做也许通过共享 MOD 文件如果这是相关的我在 Plato 上使用 Silverfrost FTN95 编译器到目前为止我只能通过使用外部模块的源代码来完成这
为什么 _mm_mulhrs_epi16() 总是进行有偏舍入到正无穷大？

有谁知道为什么pmulhrsw指示或 mm mulhrs epi16 x RoundDown x y 16384 32768 总是向正无穷大舍入对我来说这对负数有很大的偏差因为像 0 6 0 6 0 6 0 6 这样的序列平均起来不会

为什么 _mm_mulhrs_epi16() 总是进行有偏舍入到正无穷大？

为什么 _mm_mulhrs_epi16() 总是进行有偏舍入到正无穷大？ 的相关文章

随机推荐

热门标签

为什么 _mm_mulhrs_epi16() 总是进行有偏舍入到正无穷大？的相关文章