将整数向量转换为 0 到 1 之间浮点数的最快精确方法

2024-02-01

考虑一个随机生成的__m256i向量。有没有更快、更精确的方法将它们转换为__m256之间的浮点数向量0（包括在内）和1（仅）比除以float(1ull<<32)?

这是我到目前为止所尝试过的，其中iRand是输入和ans是输出：

const __m256 fRand = _mm256_cvtepi32_ps(iRand);
const __m256 normalized = _mm256_div_ps(fRand, _mm256_set1_ps(float(1ull<<32)));
const __m256 ans = _mm256_add_ps(normalized, _mm256_set1_ps(0.5f));

与您使用的初始版本相比，下面的版本应该更快_mm256_div_ps

vdivps非常慢，例如在我的 Haswell Xeon 上，延迟为 18-21 个周期，吞吐量为 14 个周期。顺便说一句，较新的 CPU 性能更好，Skylake 上为 11/5，Ryzen 上为 10/6。

正如评论中所述，可以通过用乘法代替除法来修复性能，并用 FMA 进一步改进。该方法的问题在于分发质量。如果您尝试通过舍入模式或裁剪在输出间隔中获取这些数字，则会在输出数字的概率分布中引入峰值。

我的实现也不理想，它没有输出输出区间内所有可能的值，跳过了许多可表示的浮点数，尤其是接近 0 的浮点数。但至少分布非常均匀。

__m256 __vectorcall randomFloats( __m256i randomBits )
{
    // Convert to random float bits
    __m256 result = _mm256_castsi256_ps( randomBits );

    // Zero out exponent bits, leave random bits in mantissa.
    // BTW since the mask value is constexpr, we don't actually need AVX2 instructions for this, it's just easier to code with set1_epi32.
    const __m256 mantissaMask = _mm256_castsi256_ps( _mm256_set1_epi32( 0x007FFFFF ) );
    result = _mm256_and_ps( result, mantissaMask );

    // Set sign + exponent bits to that of 1.0, which is sign=0, exponent=2^0.
    const __m256 one = _mm256_set1_ps( 1.0f );
    result = _mm256_or_ps( result, one );

    // Subtract 1.0. The above algorithm generates floats in range [1..2).
    // Can't use bit tricks to generate floats in [0..1) because it would cause them to be distributed very unevenly.
    return _mm256_sub_ps( result, one );
}

Update:如果您想要更好的精度，请使用以下版本。但它不再是“最快”了。

__m256 __vectorcall randomFloats_32( __m256i randomBits )
{
    // Convert to random float bits
    __m256 result = _mm256_castsi256_ps( randomBits );
    // Zero out exponent bits, leave random bits in mantissa.
    const __m256 mantissaMask = _mm256_castsi256_ps( _mm256_set1_epi32( 0x007FFFFF ) );
    result = _mm256_and_ps( result, mantissaMask );
    // Set sign + exponent bits to that of 1.0, which is sign=0, exponent = 2^0.
    const __m256 one = _mm256_set1_ps( 1.0f );
    result = _mm256_or_ps( result, one );
    // Subtract 1.0. The above algorithm generates floats in range [1..2).
    result = _mm256_sub_ps( result, one );

    // Use 9 unused random bits to add extra randomness to the lower bits of the values.
    // This increases precision to 2^-32, however most floats in the range can't store that many bits, fmadd will only add them for small enough values.

    // If you want uniformly distributed floats with 2^-24 precision, replace the second argument in the following line with _mm256_set1_epi32( 0x80000000 ).
    // In this case you don't need to set rounding mode bits in MXCSR.
    __m256i extraBits = _mm256_and_si256( randomBits, _mm256_castps_si256( mantissaMask ) );
    extraBits = _mm256_srli_epi32( extraBits, 9 );
    __m256 extra = _mm256_castsi256_ps( extraBits );
    extra = _mm256_or_ps( extra, one );
    extra = _mm256_sub_ps( extra, one );
    _MM_SET_ROUNDING_MODE( _MM_ROUND_DOWN );
    constexpr float mul = 0x1p-23f; // The initial part of the algorithm has generated uniform distribution with the step 2^-23.
    return _mm256_fmadd_ps( extra, _mm256_set1_ps( mul ), result );
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

Random

vectorization

SIMD

avx2

将整数向量转换为 0 到 1 之间浮点数的最快精确方法的相关文章

WPF 中的屏幕分辨率问题？

我将在 WPF 中使用以下代码检测分辨率 double height System Windows SystemParameters PrimaryScreenHeight double width System Windows Syste
为什么存在 async 关键字

浏览 msdn 9 频道视频时我发现以下未答复的评论希望有人能解释一下我不明白 async 关键字的意义为什么不直接允许任何时候方法返回任务时都会使用await关键字就像迭代器一样可以在任何返回 IEnumerable 的方法
通过增加索引之和来生成排序组合的有效方法

对于启发式算法我需要一个接一个地评估特定集合的组合直到达到停止标准由于它们很多目前我正在使用以下内存高效迭代器块生成它们受到 python 的启发 itertools combinations http docs python o
将字节数组转换为托管结构

更新这个问题的答案帮助我编写了开源项目GitHub 上的 AlicanC 现代战争 2 工具 https github com AlicanC AlicanC s Modern Warfare 2 Tool 你可以看到我是如何阅读这些数据
从多线程程序中调用 system()

我们正在开发一个用 C 编写的多线程内存消耗应用程序我们必须执行大量的 shellscript linux 命令并获取返回码读完之后article http www linuxprogrammingblog com threads a
System.IO.IOException：由于意外>数据包格式，握手失败？

有谁知道这意味着什么 System Net WebException 底层连接已关闭发送时发生意外错误 gt System IO IOException 由于意外握手失败数据包格式在 System Net Security SslS
C# 正则表达式用于查找中具有特定结尾的链接

我需要一个正则表达式模式来查找字符串带有 HTML 代码中的链接以获取文件结尾如 gif 或 png 的链接示例字符串 a href site com folder picture png target blank picture
劫持系统调用

我正在编写一个内核模块我需要劫持包装一些系统调用我正在暴力破解 sys call table 地址并使用 cr0 来禁用启用页面保护到目前为止一切顺利一旦完成我将公开整个代码因此如果有人愿意我可以更新这个问题无论如何
HttpWebRequest vs Webclient（特殊场景）

我知道这个问题之前已经回答过thread https stackoverflow com questions 1694388 webclient vs httpwebrequest httpwebresponse 但我似乎找不到详细信息在
将带有 glut 的点击坐标添加到向量链接列表中

我想创建一个向量链接列表并在 GLUT 库的帮助下获取点击的位置并将它们附加到链接列表中这些是我写的结构 typedef struct vector int x int y Vector typedef struct VectorLis
从 Code::Blocks 运行程序时出现空白控制台窗口 [重复]

这个问题在这里已经有答案了当我尝试在 Code Blocks 中构建并运行新程序时控制台窗口弹出空白我必须单击退出按钮才能停止它它对我尝试过的任何新项目包括 Hello world 都执行此操作奇怪的是它对于我拥有的任何旧项目
为什么 clang 使用 -O0 生成低效的 asm（对于这个简单的浮点和）？

我正在 llvm clang Apple LLVM 版本 8 0 0 clang 800 0 42 1 上反汇编此代码 int main float a 0 151234 float b 0 2 float c a b printf f c
为什么具有相同名称但不同签名的多个继承函数不会被视为重载函数？

以下代码片段在编译期间产生对 foo 的调用不明确错误我想知道是否有任何方法可以解决此问题而不完全限定对 foo 的调用 include
C# 中的常量和只读？ [复制]

这个问题在这里已经有答案了可能的重复 const 和 readonly 之间有什么区别 https stackoverflow com questions 55984 what is the difference between cons
如何随着分辨率的变化自动调整大小和调整表单控件

我注意到某些应用程序会更改控件的位置以尽可能适应当前的分辨率例如如果窗口最大化则控件的设置方式应使整个 GUI 看起来平衡是否可以使用 C 在 Visual studio 2010 中制作或实现此功能 Use Dock http m
从 R 到 C 处理列表并访问它

我想使用从 R 获得的 C 列表我意识到这个问题与此非常相似使用 call 在 R 和 C 之间传递数据帧 https stackoverflow com questions 6658168 passing a data frame f
使用 iTextSharp 5.3.3 和 USB 令牌签署 PDF

我是 iTextSharp 和 StackOverFlow 的新手我正在尝试使用外部 USB 令牌在 C 中签署 PDF 我尝试使用从互联网上挖掘的以下代码 Org BouncyCastle X509 X509CertificatePar
从 Delphi 调用 C# dll

我用单一方法编写了 Net 3 5 dll 由Delphi exe调用不幸的是它不起作用步骤 1 使用以下代码创建 C 3 5 dll public class MyDllClass public static int MyDllMet
以 UTF8 而不是 UTF16 输出 DataTable XML

我有一个 DataTable 我正在使用 WriteXML 创建一个 XML 文件尽管我在以 UTF 16 编码导出它时遇到问题并且似乎没有明显的方法来更改它我了解 NET 在字符串内部使用 UTF 16 这是正确的吗然后我通过
服务器响应 PASV 命令返回的地址与建立 FTP 连接的地址不同

System Net WebException 服务器响应 PASV 命令返回的地址与建立 FTP 连接的地址不同在 System Net FtpWebRequest CheckError 在 System Net FtpWebReque

随机推荐

SimpleXML 与 DOMDocument 性能对比

我正在使用 SimpleXML 类构建 RSS 解析器我想知道使用 DOMDocument 类是否会提高解析器的速度我正在解析一个至少有 1000 行的 rss 文档并且我使用了这 1000 行中的几乎所有数据我正在寻找需要最少时间
如何在 WPF 应用程序中为页面创建模式对话框？

我有一个 WPF 窗口其中有一个托管框架的控件在该框架中我显示不同的页面有没有办法使对话框仅在页面上模式化当我显示对话框时不应单击页面上的任何控件但应该可以单击不在页面上的同一窗口上的控件如果我对你的信息的解释是正确的那么你
正则表达式和 unicode

我有一个脚本可以解析电视剧集的文件名例如 show name s01e02 avi 获取剧集名称来自 www thetvdb com API 并自动将它们重命名为更好的名称节目名称 01x02 avi 该脚本工作正常直到您尝试在具有
检查 URL 是否有 http:// 前缀

在我的应用程序中当用户添加对象时还可以添加该对象的链接然后可以在 webView 中打开该链接我尝试保存不带 http 前缀的链接然后在 webView 中打开它但无法打开它在webView开始加载之前有没有办法检查保存的U
在 Dart 中发送 SMTP 电子邮件

我查看了 API 文档和语言指南但没有看到任何有关在 Dart 中发送电子邮件的内容我也检查了这个谷歌群组帖子 https groups google com a dartlang org forum topic misc 5YNvrm
如何通过 JSON 文件为curl 传递有效负载？

我可以通过以下方式成功创建一个地方curl执行以下命令 curl vX POST https server api v1 places json d auth token B8dsbz4HExMskqUa6Qhn place name Fu
为复杂的跨平台程序创建安装程序

我正在为一堆相对复杂的桌面应用程序绘制一个应用程序部署过程我们有本机应用程序和 Java 应用程序因此部署必须能够检查 JRE 是否存在并在需要时安装它某些应用程序依赖于特殊硬件因此部署还必须能够启动必要的驱动程序安装程序一些应用
使用 AsyncTask 时应用程序挂起并暂停所有线程

我正在尝试使用AsyncTask类来获取网站的内容 logcat 告诉我W art Suspending all threads took 15 or any other number ms反复我的应用程序被冻结直到日志消息打印完成日
在 Powershell 中设置 InheritanceFlags 与 PropagationFlags

我正在尝试找到 InheritanceFlags 和 PropagationFlags 的正确组合以便我的新文件夹不会继承之前文件夹的权限而是将权限传播到新文件夹中包含的文件夹文件我尝试交换我下面有两个但这只给了新文件夹与上面的文
将三个不同的列合并为 R 中的日期

现在我在 R 的数据文件中有 3 个单独的列分别为年月和日如何将这三列合并为一列并使 R 理解它是日期这是现在的样子 year mon day gnp 1947 1 1 238 1 1947 4 1 241 5 1947 7 1
Elasticsearch 在显示 t: failed to read local state , exiting 后崩溃

我是 Elasticsearch 的新手我在本地只运行一个节点到目前为止它运行良好现在一启动就崩溃了错误堆栈如下 C MyApps elasticsearch6 5 1 elasticsearch oss 6 5 1 elasti
在 bash 中从占据终端整个宽度的破折号字符绘制一条水平线

我需要一个命令来在终端中绘制一条水平线该线必须恰好等于终端长的宽度无论当前终端宽度如何并且由破折号字符组成尽管也可以使用水平线的 unicode 符号如果能上色就更好了我需要像这样使用它 echo some text draw
WCF：OperationContext.IncomingMessageProperties.Via 返回错误的 URI

我在 IIS 中托管 WCF 服务我在 IIS 中为该站点设置了多个主机名绑定但是当向任何非默认绑定发出请求时 OperationContext IncomingMessageProperties Via 属性不会报告正确的 url
如何加载共享库而不加载其依赖项？

说我有一个图书馆libfoo so 1 这取决于根据ldd on libbar so 1 然而 libbar so 1目前不可用我的应用程序需要调用一个函数libfoo so 1这不需要libbar so 1 at all 有没有办法加
局部变量的内存可以在其作用域之外访问吗？

我有以下代码 include
使用Servlet API，如何确定请求是HTTP/1.0还是HTTP/1.1？

我正在修复一个错误该错误仅在客户端使用 HTTP 1 0 并且是在防火墙后面秘密地进行 Internet Explorer 代理时才会显现出来详细信息在这里 https issues apache org jira browse TA
获取日期中的小时和分钟 (HH:MM)

我只想得到hh mm从日期我怎样才能得到这个我已经尝试过这个 CONVERT VARCHAR 8 getdate 108 只需使用前 5 个字符 SELECT CONVERT VARCHAR 5 getdate 108
在 Java 中，在被调用方法之前和之后运行方法

我正在尝试编写一个 Java 程序以便在调用方法A 首先是一个名为methodBeforeA 被调用然后方法A 执行后另一个方法被调用命名方法AfterA 这与 Junit 使用注释使用 Before Test After 所做的
python mechanize 处理两个同名参数

我正在登录一个页面其中奇怪地有一个名为的表单输入login email和两个表单输入称为login password 我需要设置两者的值但直接调用form login password 抛出错误 File Library Python
将整数向量转换为 0 到 1 之间浮点数的最快精确方法

考虑一个随机生成的 m256i向量有没有更快更精确的方法将它们转换为 m256之间的浮点数向量0 包括在内和1 仅比除以float 1ull lt lt 32 这是我到目前为止所尝试过的其中iRand是输入和ans是输出 cons

将整数向量转换为 0 到 1 之间浮点数的最快精确方法

将整数向量转换为 0 到 1 之间浮点数的最快精确方法 的相关文章

随机推荐

热门标签

将整数向量转换为 0 到 1 之间浮点数的最快精确方法的相关文章