xorshift128+ 的 AVX/SSE 版本

2024-01-01

我正在努力制作尽可能最快的高质量 RNG。读过http://xorshift.di.unimi.it/ http://xorshift.di.unimi.it/，xorshift128+ 似乎是一个不错的选择。 C代码是

#include <stdint.h>
uint64_t s[ 2 ];

uint64_t next(void) { 
    uint64_t s1 = s[ 0 ];
    const uint64_t s0 = s[ 1 ];
    s[ 0 ] = s0;
    s1 ^= s1 << 23; // a
    return ( s[ 1 ] = ( s1 ^ s0 ^ ( s1 >> 17 ) ^ ( s0 >> 26 ) ) ) + s0; // b, c
}

遗憾的是，我不是 SSE/AVX 专家，但我的 CPU 支持 SSE4.1 / SSE4.2 / AVX / F16C / FMA3 / XOP 指令。您如何使用这些来加速此代码（假设您想要生成数十亿个此类随机数）以及在实践中这种加速的预期限制是什么？

对于任何其他可能遇到这个问题的人，我认为这个 C++ 代码使用 AVX2 正确实现了并行运行的 4 个 xorshift128plus 生成器：

__m256i xorshift128plus_avx2(__m256i &state0, __m256i &state1)
{
    __m256i s1 = state0;
    const __m256i s0 = state1;
    state0 = s0;
    s1 = _mm256_xor_si256(s1, _mm256_slli_epi64(s1, 23));
    state1 = _mm256_xor_si256(_mm256_xor_si256(_mm256_xor_si256(s1, s0),
                                               _mm256_srli_epi64(s1, 18)),
                              _mm256_srli_epi64(s0, 5));
    return _mm256_add_epi64(state1, s0);
}

我使用的标量实现是：

u64 xorshift128plus(u64 &state0, u64 &state1)
{
    u64 s1 = state0;
    const u64 s0 = state1;
    state0 = s0;
    s1 ^= s1 << 23;                              // a
    state1 = s1 ^ s0 ^ (s1 >> 18) ^ (s0 >> 5); // b, c
    return state1 + s0;
}

哪一个是同一个xorshiftplus纸 http://vigna.di.unimi.it/ftp/papers/xorshiftplus.pdf。请注意，原始问题中的右移常数与论文中的常数不对应。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

performance

SSE

avx

xorshift128+ 的 AVX/SSE 版本的相关文章

创建 DirectoryEntry 实例以供测试使用

我正在尝试创建 DirectoryEntry 的实例以便可以使用它来测试将传递 DirectoryEntry 的一些代码然而尽管进行了很多尝试我还是找不到实例化 DE 并初始化它的 PropertyCollection 的方法我有
属性对象什么时候创建？

由于属性实际上只是附加到程序集的元数据这是否意味着属性对象仅根据请求创建例如当您调用 GetCustomAttributes 时或者它们是在创建对象时创建的或者前两个的组合在由于 CLR 的属性扫描而创建对象时创建从 CLR
如何在 Unity 中从 RenderTexture 访问原始数据

问题的简短版本我正在尝试访问 Unity 中 RenderTexture 的内容我一直在使用 Graphics Blit 使用自己的材质进行绘制 Graphics Blit null renderTexture material 我的材
在 Xamarin Android 中将图像从 URL 异步加载到 ImageView 中

我有一个包含多个项目的 ListView 列表中的每个项目都应该有一个与之关联的图像我创建了一个数组适配器来保存每个列表项并具有我希望加载的图像的 url 我正在尝试使用 Web 请求异步加载图像并设置图像并在加载后在视图中更新它但视
SSH 主机密钥指纹与模式 C# WinSCP 不匹配

我尝试通过 WinSCP 使用 C 连接到 FTPS 服务器但收到此错误 SSH 主机密钥指纹与模式不匹配经过大量研究我相信这与密钥的长度有关当使用服务器和协议信息下的界面进行连接时我从 WinSCP 获得的密钥是xx xx
为什么 POSIX 允许在只读模式下超出现有文件结尾 (fseek) 进行搜索

为什么寻找文件结尾很有用为什么 POSIX 让我们像示例中那样在以只读方式打开的文件中进行查找 c http en cppreference com w c io fseek http en cppreference com w c io
C# 中值类型和引用类型有什么区别？ [复制]

这个问题在这里已经有答案了我知道一些差异值类型存储在堆栈上而引用类型存储在托管堆上值类型变量直接包含它们的值而引用变量仅包含对托管堆上创建的对象位置的引用我错过了任何其他区别吗如果是的话它们是什么请阅读堆栈是一个实现细节
我必须做什么才能使通过 HTTPS 提供的图像等内容缓存在客户端？

我使用 Tomcat 作为服务器使用 Internet Explorer 6 作为浏览器我们应用程序中的网页大约有 75 张图像我们正在使用 SSL 加载所有内容似乎非常慢如何配置 Tomcat 以便 IE 缓存图像如果您通过 h
HttpClient 像浏览器一样请求

当我通过 HttpClient 类调用网站 www livescore com 时我总是收到错误 500 可能服务器阻止了来自 HttpClient 的请求 1 还有其他方法可以从网页获取html吗 2 如何设置标题来获取html内容当
当 Cortex-M3 出现硬故障时如何保留堆栈跟踪？

使用以下设置基于 Cortex M3 的 C gcc arm 交叉工具链 https launchpad net gcc arm embedded 使用 C 和 C FreeRtos 7 5 3 日食月神 Segger Jlink 与 J
在 ASP.Net Core 2.0 中导出到 Excel

我曾经使用下面的代码在 ASP NET MVC 中将数据导出到 Excel Response AppendHeader content disposition attachment filename ExportedHtml xls Res
A* 之间的差异 pA = 新 A;和 A* pA = 新 A();

在 C 中以下两个动态对象创建之间的确切区别是什么 A pA new A A pA new A 我做了一些测试但似乎在这两种情况下都调用了默认构造函数并且仅调用了它我正在寻找性能方面的任何差异 Thanks If A是 POD 类
如何在 Team Foundation 上强制发表有意义的签入评论？

我有一个开发团队有一个坏习惯他们写道poor签入评论当我们必须在团队基础上查看文件的历史记录时这使得它成为一场噩梦我已经启用了变更集评论政策这样他们甚至可以在签到时留下评论否则他们不会我们就团队的工作质量进行了一些讨论他们很
我的 strlcpy 版本

海湾合作委员会 4 4 4 c89 我的程序做了很多字符串处理我不想使用 strncpy 因为它不会终止我不能使用 strlcpy 因为它不可移植只是几个问题我怎样才能让我的函数正常运行以确保它完全安全稳定单元测试这对于生产来
.NET 选项将视频文件流式传输为网络摄像头图像

我有兴趣开发一个应用程序它允许我从 xml 构建视频列表包含视频标题持续时间等并将该列表作为我的网络摄像头流播放这意味着如果我要访问 ustream tv 或在实时通讯软件上激活我的网络摄像头我的视频播放列表将注册为我的活动网
AccessViolationException 未处理

我正在尝试使用史蒂夫桑德森的博客文章 http blog stevensanderson com 2010 01 28 editing a variable length list aspnet mvc 2 style 为了在我的 ASP
将应用程序从 Microsoft Access 迁移到 VB 或 C#.NET

我目前正试图说服管理层需要将我们的应用程序之一移植到 NET 该应用程序已经发展成为 Access 中的一个庞然大物 SQL 后端拥有 700 个链接表 650 个表单子表单 130 个模块和 850 个查询我几乎知道这样做的所有主要
在 URL 中发送之前对特殊字符进行百分比编码

我需要传递特殊字符如等 Facebook Twitter 和此类社交网站的 URL 为此我将这些字符替换为 URL 转义码 return valToEncode Replace 21 Replace 23 Replace 24 Rep
EPPlus Excel 更改单元格颜色

我正在尝试将给定单元格的颜色设置为另一个单元格的颜色该单元格已在模板中着色但worksheet Cells row col Style Fill BackgroundColor似乎没有get财产是否可以做到这一点或者我是否必须在互联
GDK3/GTK3窗口更新的精确定时

我有一个使用 GTK 用 C 语言编写的应用程序尽管该语言对于这个问题可能并不重要这个应用程序有全屏gtk window与单个gtk drawing area 对于绘图区域我已经通过注册了一个刻度回调gtk widget add ti

随机推荐

CSS：Safari 的边距问题

On the 我正在开发的网站 http like o potomo us 出于某种原因 Safari 的边距需要与 FF IE8 Chrome 和 Opera 不同吗我有一个链接我想将其排列在标签旁边除了 Safari 需要 12
COUNTIF 范围内的唯一日期

我正在努力寻找一种方法COUNTIF S 特定日期集之间但仅获取唯一日期的计数作为上下文我连续几天跟踪仪表我可以在同一天获得多个具有不同仪表值的实例事实上这种情况可能会破坏我的平均米数天数 Data A3 A8700 是日期范
Matplotlib：从多个子图中抓取单个子图

我有一个应用程序其中有一个带有九个线图子图 3x3 的图形我想让用户选择其中一个图表并打开一个小的 wx Python 应用程序以允许编辑和缩放指定的子图阴谋是否可以从选定的子图中获取所有信息即轴标签轴格式线条刻度大小刻度
检查任何正在运行的二进制文件是否是 32 位或 64 位

可以检查应用程序包的二进制进程是否在 32 位或 64 位模式下运行如下所示在这个问题中回答了 https stackoverflow com questions 7335245 macosx find out if a process
WebClient.CancelAsync — 文件仍在下载

我正在尝试使用 Asp NET Core 创建一个 Web API 该 API 公开启动和取消大文件长时间下载的路由服务器应该能够同时处理多个下载下载是使用执行的WebClient DownloadFileAsync为了有一个短的响应时
如果我有特定选项卡的 tabId，如何获取该选项卡的窗口对象？

我有一个选项卡的tabId 如何获取它的窗口对象在 chrome 扩展中看到的窗口对象 chrome tabs get YOUR TAB ID HERE function tab chrome windows get tab window
如何过滤正在运行的节点

我想过滤正在运行的节点列表我尝试了下面的命令但它只显示运行状态我需要用它的名称进行过滤有什么帮助吗 root techsl kubectl get nodes o jsonpath range items metadata name
如何从 Blazor C# 代码生成 window.history.go(-1)？

如何在 Blazor 上从 C 代码生成 window history go 1 我尝试使用 JSRuntime Current InvokeAsync JSRuntime Current InvokeAsync lt string gt
在R中的plotly直方图函数中自定义bin宽度

我有一个数据集其中包含每天的日期和通话量当我使用plotly R 包绘制它们时除了其中 1 个之外所有日期都将每个日期分隔到不同的容器中然而这一棘手的数据子集而是将数据分组为 2 天的间隔这并不是非常有用的信息我确信这是一个
运行composer时如何始终使用ignore-platform-reqs标志？

在我的本地计算机上我有 php v7 0 3 我的一个项目依赖于 php v5 5 正如预期的那样简单运行composer install崩溃 Your requirements could not be resolved to an
SerializeObject 方法运行正确吗？

我在项目中添加了 json dll 并尝试序列化对象 ProductType itemToEdit new ProductType Name string jsonString JsonConvert SerializeObject ite
用 Python/C API 替换 boost:python 函数包装器后的 std::bad_alloc

我在 C 中有一个函数我用它来扩展 python 之前使用BOOST MODULE函数来完成这个任务转换到 python C API 时出现此错误我确信run mymodule没有这个包装器函数可以正常运行 static PyObj
MigLayout 错误：“绝对链接值中的循环依赖不稳定！”

为什么这个 SSCCE 带有 MigLayout 库 public static void main String args try UIManager setLookAndFeel com sun java swing plaf wind
如何将数据表滚动连接条件从弱不等式改为严格不等式？

考虑以下两个数据集其中带有 time 表示一般时间戳的列为了简单说明示例而使用整数 library data table df test 1 lt data table time c 1 10 seq 20 30 by 5 gt df
根据对象列表的其中一个字段对对象列表进行排序

你好 stackoverflow 社区我对这些论坛很陌生对 java 和 android 编程也相当陌生这恰好是我问题的对象对于任何错误提前表示歉意我的问题是排序我正在寻找一种根据我选择的字段对对象进行排序的方法不是根据第一
引用的 System.Net.Http 程序集未复制到 dotnet msbuild 上的输出 bin\Release 目录

我有以下项目配置 1 Project1 NET Framework 4 6 1 项目 2 Project2 NET 标准项目
MSBuild 不再适用于 Tokyo

我有多个项目组想要批量编译里面有超过100个项目 2010 年我们有一个像这样的 make 文件 call c Borland RAD Studio 19 0 bin rsvars bat c Program Files x86 MSB
Java 中的线程

我试图让我的主线程产生一个新线程并在一段时间后提高中断标志当它这样做时生成的线程应该看到该标志并终止自身主线程看起来像这样 final Thread t new Thread Override public void run f t
仅当应用程序第一次处于关闭状态时，无法获取新来电的标头

我的 SinchService 中有以下代码 Override public void onIncomingCall CallClient callClient Call call Log d Size Size call getHeade
xorshift128+ 的 AVX/SSE 版本

我正在努力制作尽可能最快的高质量 RNG 读过http xorshift di unimi it http xorshift di unimi it xorshift128 似乎是一个不错的选择 C代码是 include

xorshift128+ 的 AVX/SSE 版本

xorshift128+ 的 AVX/SSE 版本 的相关文章

随机推荐

热门标签

xorshift128+ 的 AVX/SSE 版本的相关文章