在 64 位机器上，我可以安全地并行操作 64 位四字的各个字节吗？

2024-03-21

背景

我正在对图像中的行和列进行并行操作。我的图像是 8 位或 16 位像素，而我使用的是 64 位机器。当我并行对列进行操作时，两个相邻列可能共享相同的 32 位int或 64 位long。基本上，我想知道是否可以安全地并行操作同一四字的各个字节。

最低限度的测试

我编写了一个最小的测试函数，但我无法使其失败。对于 64 位中的每个字节long，我同时在有限阶域中执行连续乘法p。我知道通过费马小定理 https://en.wikipedia.org/wiki/Fermat%27s_little_theorem a^(p-1) = 1 mod p when p是素数。我改变价值观a and p对于我的 8 个线程中的每一个，我执行k*(p-1)的乘法a。当线程完成时，每个字节应该为 1。事实上，我的测试用例通过了。每次运行时，我都会得到以下输出：

8
101010101010101
101010101010101

我的系统是Linux 4.13.0-041300-通用 x86_64与8 核 Intel(R) Core(TM) i7-7700HQ CPU @ 2.80GHz。我编译了g++ 7.2.0 -O2并检查了装配体。我添加了“内循环”的程序集并对其进行了评论。在我看来，生成的代码是安全的，因为存储仅将低 8 位写入目标，而不是进行一些按位算术并存储到整个字或四字。 g++ -O3 生成类似的代码。

问题：

我想知道这段代码是否始终是线程安全的，如果不是，在什么情况下不会。也许我很偏执，但我觉得我需要一次对四字进行操作才能安全。

#include <iostream>
#include <pthread.h>

class FermatLTParams
{
public:
    FermatLTParams(unsigned char *_dst, unsigned int _p, unsigned int _a, unsigned int _k)
        : dst(_dst), p(_p), a(_a), k(_k) {}

    unsigned char *dst;
    unsigned int p, a, k;
};

void *PerformFermatLT(void *_p)
{  
    unsigned int j, i;
    FermatLTParams *p = reinterpret_cast<FermatLTParams *>(_p);
    for(j=0; j < p->k; ++j)
    {    
        //a^(p-1) == 1 mod p

        //...BEGIN INNER LOOP
        for(i=1; i < p->p; ++i)
        {
            p->dst[0] = (unsigned char)(p->dst[0]*p->a % p->p);
        }
        //...END INNER LOOP

        /* gcc 7.2.0 -O2  (INNER LOOP)

        .L4:
            movq    (%rdi), %r8             # r8 = dst
            xorl    %edx, %edx              # edx = 0
            addl    $1, %esi                # ++i
            movzbl  (%r8), %eax             # eax (lower 8 bits) = dst[0]
            imull   12(%rdi), %eax          # eax =  a * eax
            divl    %ecx                    # eax = eax / ecx;   edx = eax % ecx    
            movb    %dl, (%r8)              # dst[0] = edx (lower 8 bits)
            movl    8(%rdi), %ecx           # ecx = p
            cmpl    %esi, %ecx              # if (i < p)
            ja      .L4                     #   goto L4
        */

    }
    return NULL;
}

int main(int argc, const char **argv)
{
    int i;
    unsigned long val = 0x0101010101010101; //a^0 = 1
    unsigned int k = 10000000;
    std::cout << sizeof(val) << std::endl;
    std::cout << std::hex << val << std::endl;
    unsigned char *dst = reinterpret_cast<unsigned char *>(&val);
    pthread_t threads[8];
    FermatLTParams params[8] = 
    { 
        FermatLTParams(dst+0, 11, 5, k),
        FermatLTParams(dst+1, 17, 8, k),
        FermatLTParams(dst+2, 43, 3, k),
        FermatLTParams(dst+3, 31, 4, k),
        FermatLTParams(dst+4, 13, 3, k),
        FermatLTParams(dst+5, 7, 2, k),
        FermatLTParams(dst+6, 11, 10, k),
        FermatLTParams(dst+7, 13, 11, k)
    };

    for(i=0; i < 8; ++i)
    {
        pthread_create(threads+i, NULL, PerformFermatLT, params+i);
    }
    for(i=0; i < 8; ++i)
    {
        pthread_join(threads[i], NULL);
    }

    std::cout << std::hex << val << std::endl;
    return 0;
}

答案是肯定的，您可以通过不同的线程安全地并行操作 64 位四字的各个字节。

令人惊讶的是，它能起作用，但如果不起作用，那将是一场灾难。所有硬件的行为就好像一个核心在其自己的核心中写入一个字节不仅标记缓存行是脏的，而且还标记其中的哪些字节。当该缓存行（64 或 128 甚至 256 字节）最终写入主内存时，只有脏字节实际上会修改主内存。这是至关重要的，因为否则当两个线程处理恰好占用同一缓存行的独立数据时，它们会破坏彼此的结果。

这可能对性能不利，因为它的工作方式部分是通过“缓存一致性”的魔力，当一个线程写入一个字节时，系统中具有同一行数据的所有缓存都会受到影响。如果它们脏了，则需要写入主内存，然后删除缓存行，或捕获来自其他线程的更改。有各种不同的实现方式，但通常都很昂贵。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 64 位机器上，我可以安全地并行操作 64 位四字的各个字节吗？的相关文章

ComboBox DataBinding 导致 ArgumentException

我的几个类对象 class Person public string Name get set public string Sex get set public int Age get set public override string
查找进程的完整路径

我已经编写了 C 控制台应用程序当我启动应用程序时不使用cmd 我可以看到它列在任务管理器的进程列表中现在我需要编写另一个应用程序在其中我需要查找以前的应用程序是否正在运行我知道应用程序名称和路径所以我已将管理对象搜索器查询写入
为什么在 WebApi 上下文中在 using 块中使用 HttpClient 是错误的？

那么问题是为什么在 using 块中使用 HttpClient 是错误的但在 WebApi 上下文中呢我一直在读这篇文章不要阻止异步代码 https blog stephencleary com 2012 07 dont block
当一组凭据下的计划任务启动的进程在另一组凭据下运行另一个程序时，Windows 是否有限制

所以我有一个简单的例子其中我有应用程序 A 它对用户 X 本地管理员有一些硬编码的凭据然后它使用硬编码的绝对路径启动带有这些凭据的应用程序 B A 和 B 以及 dotnet 控制台应用程序但是它们不与控制台交互只是将信息写入文件
从同一个类中的另一个构造函数调用构造函数

我有一个带有两个构造函数的类 C 这是代码片段 public class FooBar public FooBar string s constructor 1 some functionality public FooBar int i
查看 NuGet 包依赖关系层次结构

有没有一种方法文本或图形来查看 NuGet 包之间的依赖关系层次结构如果您使用的是新的 csproj 您可以在此处获取所有依赖项在项目构建后项目目录 obj project assets json
从客户端访问 DomainService 中的自定义对象

我正在使用域服务从 Silverlight 客户端的数据库中获取数据在DomainService1 cs中我添加了以下内容 EnableClientAccess public class Product public int produ
Python 属性和 Swig

我正在尝试使用 swig 为一些 C 代码创建 python 绑定我似乎遇到了一个问题试图从我拥有的一些访问器函数创建 python 属性方法如下 class Player public void entity Entity enti
File.AppendText 尝试写入错误的位置

我有一个 C 控制台应用程序它作为 Windows 任务计划程序中的计划任务运行此控制台应用程序写入日志文件该日志文件在调试模式下运行时会创建并写入应用程序文件夹本身内的文件但是当它在任务计划程序中运行时它会抛出一个错误指出访
为什么可以通过ref参数修改readonly字段？

考虑 class Foo private readonly string value public Foo Bar ref value private void Bar ref string value value hello world
C# 存档中的文件列表

我正在创建一个 FileFinder 类您可以在其中进行如下搜索 var fileFinder new FileFinder new string C MyFolder1 C MyFolder2 new string
C++ int 前面加 0 会改变整个值

我有一个非常奇怪的问题如果我像这样声明一个 int int time 0110 然后将其显示到控制台返回的值为72 但是当我删除前面的 0 时int time 110 然后控制台显示110正如预期的那样我想知道两件事首先为什么它在
使 Guid 属性成为线程安全的

我的一个类有一个 Guid 类型的属性该属性可以由多个线程同时读写我的印象是对 Guid 的读取和写入不是原子的因此我应该锁定它们我选择这样做 public Guid TestKey get lock testKeyLock ret
C++ new * char 不为空

我有一个问题我在 ASIO 中开发服务器数据包采用尖头字符当我创建新字符时例如char buffer new char 128 我必须手动将其清理为空 By for int i 0 i lt 128 i buffer i 0x00
实体框架中的“it”是什么

如果以前有人问过这个问题请原谅我但我的任何搜索中都没有出现它我有两个数据库表 Person 和 Employee 对每个类型的表进行建模例如 Employee is a Person 在我的 edmx 设计器中我定义了一个实体
可访问性不一致：参数类型的可访问性低于方法

我试图在两个表单之间传递一个对象基本上是对当前登录用户的引用目前我在登录表单中有一些类似的内容 private ACTInterface oActInterface public void button1 Click object s
使用 omp_set_num_threads() 将线程数设置为 2，但 omp_get_num_threads() 返回 1

我有以下使用 OpenMP 的 C C 代码 int nProcessors omp get max threads if argv 4 NULL printf argv 4 s n argv 4 nProcessors atoi argv
GCC 的“-Wl,option”和“-Xlinker option”语法之间有区别吗？

我一直在查看一些配置文件并且看到它们都被使用尽管在不同的体系结构上如果您在 Linux 机器上使用 GCC 将选项传递给链接器的两种语法之间有区别吗据我所知阅读 GCC 手册时他们的解释几乎相同 From man gcc Xli
中断连接套接字

我有一个 GUI 其中包含要连接的服务器列表如果用户单击服务器则会连接到该服务器如果用户单击第二个服务器它将断开第一个服务器的连接并连接到第二个服务器每个新连接都在一个新线程中运行以便程序可以执行其他任务但是如果用户在第一个
是否可以在不连接数据库的情况下检索 MetadataWorkspace？

我正在编写一个需要遍历实体框架的测试库MetadataWorkspace对于给定的DbContext类型但是由于这是一个测试库我宁愿不连接到数据库它引入了测试环境中可能无法使用的依赖项当我尝试获取参考时MetadataWorksp

随机推荐

禁用适用于平板电脑和 iPad 的 Magento 移动主题

我制作了一个包含桌面和移动主题的网站它工作得很好但在平板电脑和 iPad 中它显示了我不想要的移动主题所以我使用以下异常 iPhone iPod BlackBerry Pre Palm Googlebot Mobile mobi Sa
不同 django 模型的公共字段集中在一处

我有一些在多个模型中重复的列有什么解决方案可以将它们放置在某个地方并使用任何模型吗您可以通过创建基类并在模型中继承它们来实现这一点 Example class TimestampsModel models Model classmeth
Java Swing 在 Eclipse Oxy 4.7.3a 上运行？

我正在尝试在 macOS high Sierra 上的 eclipseoxygen 4 7 3a 中使用 windowbuilder 它安装得很好但每次我尝试打开设计部分时它都会显示此错误 Eclipse 在 0 下运行但是这个 Ja
在 select2 上设置标签值

我的页面上有选择字段
从数据库中删除文件和相应条目

我有一个处理文件管理的网站用户可以上传文件添加描述编辑和删除这种情况的最佳实践是什么我将文件存储在文件系统中我该如何处理文件的删除在这种情况下我必须删除实体数据库中的文件和条目第一种情况是我删除文件如果没有错误我从数
从 Tokio 应用程序使用 Actix：混合 actix_web::main 和 tokio::main？

目前我主要写的是异步示例Reqwest library https crates io crates reqwest tokio main async fn main gt Result lt Box
Caliburn.Micro DisplayRootViewFor 抛出 NullReferenceException

我的引导程序中有以下代码 private SimpleContainer container protected override void Configure container new SimpleContainer container
从方法返回元组

我正在编写一个方法成功时返回一个元组但是None失败时我还没有最终确定None 作为失败案例返回但它是选择之一我们可以回来吗 1 1对于失败案例我正在寻找最好的Pythonic方法来实现这一点以便拆包很容易请让我知道我们如何
如何添加链接来下载pdf文件nuxt？

我只想在 nuxt 项目中添加一个下载 pdf 文件的链接我怎么做我已经尝试过以下方法 a class btn btn sm btn sub color Download a 它适用于图像但不适用于 pdf 文件我发现vue pdf
如何使用 Maven 构建可运行的 JavaFX 应用程序？

我是 JavaFX 新手我使用 Maven 创建了一个 Hello World 项目当我在 Eclipse 中运行它时它工作得很好 public static void main String args launch args Ove
将类元素更改为界面元素

当对类图进行建模时工具箱包含类和接口的特殊对象它们的不同之处在于它们的图标这些图标显示在Project Browser如果它们被添加到图表中它们的属性似乎是相同的是否可以更改创建为的对象class到一个类型的对象interface
如何在测试已弃用的 Scala 函数时抑制弃用警告？

假设我有一个库其中包含已弃用的函数和首选函数 object MyLib def preferredFunction deprecated Use preferredFunction instead 1 0 def deprecatedFu
Matlab：如何导出voronoi图中多边形的顶点（坐标）？

我手头有一个创建的函数文件它是在图像中画线 img drawline point1 point2 color img 它用于连接图像内的任意两点我被要求在图像中创建 voronoi 图不使用绘图功能目前我正在尝试显示图像中的线条
解密xml文档时出现问题

我编写了一些代码来加密包含用户凭据的 XML 配置文件以及解密该文件的代码当我在本地计算机上同时运行加密和解密时它按预期工作但是当我部署程序时仅使用解密代码 xml 文件将无法解密我收到加密异常错误数据这是我的代码 pub
FutureWarning：不推荐使用非元组序列进行多维索引，使用“arr[tuple(seq)]”

我搜索过 S O 但找不到答案当我尝试使用 seaborn 绘制分布图时我收到了未来警告我想知道这里可能出了什么问题 import pandas as pd import numpy as np import seaborn as s
为什么 PHP 中的 _GET 会错误地解码斜杠？

今天我遇到了 PHP 的一些奇怪问题我在文档中找不到正确的解释考虑以下代码代码很简单它在 url 上采用单个 t 参数并将其输出回来因此如果您使用 test php t 5Ca 5c 是调用它我希望看到 a 然而这就是我得
JavaScript 生成 dataURL 格式的透明 1X1 像素

我想知道一种在 JavaScript 中生成单个像素并将其转换为 base64 的方法理想的函数是 function createPixel hexColor opacity Calculate return base64DataURL
为什么 Gensim doc2vec 给出 AttributeError: 'list' object has no attribute 'words'？

我正在尝试使用以下代码来实验 gensim doc2vec 据我从教程中了解到它应该有效然而它给出了属性错误列表对象没有属性单词 from gensim models doc2vec import LabeledSentence
我可以用javascript创建下雨效果吗？

我需要为我的网站实现这样的目标闪光雨效果 http active tutsplus com tutorials effects create a rain effect in flash using actionscript 30 这可以
在 64 位机器上，我可以安全地并行操作 64 位四字的各个字节吗？

背景我正在对图像中的行和列进行并行操作我的图像是 8 位或 16 位像素而我使用的是 64 位机器当我并行对列进行操作时两个相邻列可能共享相同的 32 位int或 64 位long 基本上我想知道是否可以安全地并行操作同一四字的

在 64 位机器上，我可以安全地并行操作 64 位四字的各个字节吗？

背景

最低限度的测试

问题：

在 64 位机器上，我可以安全地并行操作 64 位四字的各个字节吗？ 的相关文章

随机推荐

热门标签

在 64 位机器上，我可以安全地并行操作 64 位四字的各个字节吗？的相关文章