使用 clang/g++ 时 __m256i 数组出现分段错误

2024-04-03

我正在尝试生成数组__m256i在另一个计算中重用。当我尝试这样做时（即使使用最小的测试用例），我也会遇到分段错误 - 但前提是代码是使用 g++ 或 clang 编译的。如果我使用 Intel 编译器（版本 16.0）编译代码，则不会发生分段错误。这是我创建的一个测试用例：

int main() {
    __m256i *table = new __m256i[10000];
    __m256i zeroes = _mm256_set_epi64x(0, 0, 0, 0);
    table[99] = zeroes;
}

当使用 clang 3.6 和 g++ 4.8 编译上述内容时，会出现分段错误。

这是英特尔编译器生成的程序集（来自https://gcc.godbolt.org/ https://gcc.godbolt.org/，国际商会 13.0）：

pushq     %rbx                                          #3.12
movq      %rsp, %rbx                                    #3.12
andq      $-32, %rsp                                    #3.12
pushq     %rbp                                          #3.12
pushq     %rbp                                          #3.12
movq      8(%rbx), %rbp                                 #3.12
movq      %rbp, 8(%rsp)                                 #3.12
movq      %rsp, %rbp                                    #3.12
subq      $112, %rsp                                    #3.12
movl      $3200, %eax                                   #4.38
vzeroupper                                              #4.38
movq      %rax, %rdi                                    #4.38
call      operator new[](unsigned long)                 #4.38
movq      %rax, -112(%rbp)                              #4.38
movq      -112(%rbp), %rax                              #4.38
movq      %rax, -104(%rbp)                              #4.20
vxorps    %ymm0, %ymm0, %ymm0                           #5.22
vmovdqu   %ymm0, -80(%rbp)                              #5.22
vmovdqu   -80(%rbp), %ymm0                              #5.22
vmovdqu   %ymm0, -48(%rbp)                              #5.20
movl      $3168, %eax                                   #6.17
addq      -104(%rbp), %rax                              #6.5
vmovdqu   -48(%rbp), %ymm0                              #6.17
vmovdqu   %ymm0, (%rax)                                 #6.5
movl      $0, %eax                                      #7.1
vzeroupper                                              #7.1
leave                                                   #7.1
movq      %rbx, %rsp                                    #7.1
popq      %rbx                                          #7.1
ret                                                     #7.1

这是 clang 3.7 的内容：

pushq   %rbp
movq    %rsp, %rbp
andq    $-32, %rsp
subq    $192, %rsp
xorl    %eax, %eax
movl    $3200, %ecx             # imm = 0xC80
movl    %ecx, %edi
movl    %eax, 28(%rsp)          # 4-byte Spill
callq   operator new[](unsigned long)
movq    %rax, 88(%rsp)
movq    $0, 168(%rsp)
movq    $0, 160(%rsp)
movq    $0, 152(%rsp)
movq    $0, 144(%rsp)
vmovq   168(%rsp), %xmm0        # xmm0 = mem[0],zero
vmovq   160(%rsp), %xmm1        # xmm1 = mem[0],zero
vpunpcklqdq     %xmm0, %xmm1, %xmm0 # xmm0 = xmm1[0],xmm0[0]
vmovq   152(%rsp), %xmm1        # xmm1 = mem[0],zero
vpslldq $8, %xmm1, %xmm1        # xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4,5,6,7]
vmovaps %xmm1, %xmm2
vinserti128     $1, %xmm0, %ymm2, %ymm2
vmovaps %ymm2, 96(%rsp)
vmovaps %ymm2, 32(%rsp)
movq    88(%rsp), %rax
vmovaps %ymm2, 3168(%rax)
movl    28(%rsp), %eax          # 4-byte Reload
movq    %rbp, %rsp
popq    %rbp
vzeroupper
retq

我是否在 clang/g++ 中遇到编译器错误？或者我只是做错了什么？

我猜问题与错误的内存对齐有关。vmovaps要求内存位置从 32 字节边界开始，并且vmovdqu才不是。这就是为什么 Intel 版本可以工作而 clang/g++ 代码崩溃的原因。我不知道这是否是编译器错误，但无论如何您可能都需要对齐。

下面的代码应该可以工作，尽管它更像是 C 语言而不是 C++ 语言。

int main() {
  __m256i *table = (__m256i*) memalign( 32, 10000 * sizeof(__m256i) );
  __m256i zeroes = _mm256_set_epi64x(0, 0, 0, 0);
  table[99] = zeroes;
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 clang/g++ 时 __m256i 数组出现分段错误的相关文章

将控件的属性保存到 xml

我想将控件的部分所有属性保存到 xml 例如 listivew 的列宽就像 listView1 SaveToXml listview xml 这怎么可能 Via the XML序列化器 http msdn microsoft com en
C++ 中的类 C# 事件，组合

在过去的几个月里我经常使用 C 并习惯了事件和委托在类中使用组合非常容易只需使用事件从组件获取消息现在我正在尝试在 C 中做类似的事情但不知道如何做 C 中的组合是如何完成的我想到的唯一方法是继承您从类派生并重写其函数以接收来
如何在 .net 中为 Google 云存储签名 url

我想知道如何使用 net中的谷歌云存储类生成signurl 我已经根据要求创建了字符串 GET 1388534400 bucket objectname 但我现在想用 p12 密钥签署这个 url 然后想让它变得 url 友好该库没有显示
致命错误：iostream：没有这样的文件或目录#include

我在学习C 的时候遇到了一个问题编译的时候遇到了错误 The details are as follows You seem to have not installed C support in MinGW If you are usin
HtmlAgilityPack 有属性吗？

我想做的就是 node Attributes class Value 但如果节点没有class属性就崩溃了所以我必须先检查它是否存在对吧我怎么做 Attributes不是一个字典它是一个包含内部字典的列表并且没有 HasAtt
C# - 如何在变量名中使用无效字符

在 C 中我正在构建一个类出于讨论目的而在此处进行了简化该类最终将被序列化为一些外部定义的 JSON schema http example com person json name John age 86 在我的代码中我会有类似的内
使用 decltype() 声明函数签名

是否可以声明一个函数bar与函数具有相同的签名foo int foo int a return 0 decltype foo bar return 1 imaginary syntax 我认为这同样适用于 typedef 和别名您可以使用
计时器、事件和垃圾收集：我错过了什么吗？

考虑以下代码 class TestTimerGC Form public TestTimerGC Button btnGC new Button btnGC Text GC btnGC Click sender e gt GC Collec
使用 For 循环进行异步和等待 [重复]

这个问题在这里已经有答案了我有一个 Windows 服务它根据计划运行各种作业确定要运行哪些作业后将调度对象列表发送到迭代列表并运行每个作业的方法问题是由于外部数据库调用某些作业可能需要长达 10 分钟才能运行我的目标是不让
如何尽可能快地输出固定缓冲区？

示例代码 include
Random 并行生成数字 1 的次数超过 90% [重复]

这个问题在这里已经有答案了考虑以下程序 public class Program private static Random rnd new Random private static readonly int ITERATIONS 50
为什么地址清理器对 bss 全局溢出不起作用？

我做了什么 Test1 1 include
为什么 ReadOnlySpan 不能用作泛型委托和泛型方法的类型参数？

我明白为什么ReadOnlySpan不能用作泛型类的类型参数 ReadOnlySpan仅是堆栈因此它不能用作字段类型字段成员像其容器对象一样存在于堆中但是返回值和参数始终只是堆栈所以为什么ReadOnlySpan不能用作泛型委托和泛
回发后我的 JavaScript 函数在 ASP.NET 中不起作用

我有共同的功能我把它折叠起来CommonFunctions js在脚本文件夹中我将它包含在我的主页上并在我的页面上使用它当我在页面上进行任何回发时我的功能不起作用 My CommonFunctions js function gf
如何向 Json.NET 输出添加注释？

有没有办法可以自动将注释添加到 Json NET 的序列化输出中理想情况下我想它类似于以下内容 public class MyClass JsonComment My documentation string public string
从 Unity WebGL 调用 Angular2 函数

目前我正在使用 Angular2 版本 2 1 2 和 Unity 可视化工具使用 Unity 5 5 构建我需要做的是从 Unity 到 Angular2 进行通信我正在使用类似于下面的代码 public void GetBill
使用实体框架而不使用 using 语句的缺点？

有很多这样的代码块 public class SomeController Controller DbEntities entity new DbEntities public ActionResult Add entity someOpe
无法将“MongoDB.Bson.Serialization.Serializers.DateTimeSerializer”类型的对象转换为“MongoDB.Bson.Serialization.IBsonSerializer”类型

在寻找解决方案时我得到了this https stackoverflow com questions 30421379 mongodb custom collection serializer and this http mongodb g
C 中的 NULL 是否需要/定义为零？

在我的 GCC 测试程序中 NULL 似乎为零但维基百科说NULL只需要指向不可寻址的内存有编译器做吗NULL非零我很好奇是否if ptr NULL 是比更好的练习if ptr NULL is guaranteed to be zer
更改创建 XML 读取器时使用的 XmlDictionaryReader Quotas 对象的 MaxArrayLength 属性

我在向 C 服务发送或接收字节数组时遇到以下异常 There was an error deserializing the object of type System Byte The maximum array length quot

随机推荐

存储应用程序（库存应用程序）崩溃（在Android模拟器中）

当我尝试打开Storage from 设置菜单在模拟器中它总是崩溃并显示以下 logcat 输出 java lang NullPointerException at com android settings deviceinfo St
C++ 开源随机数生成算法？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我需要连续生成 1 10000 范围内的随机数不能重复有什么建议吗描述我们正在为我们的应用程序
iPhone - 在本地和生产环境设置之间切换

我正在开发一个 iPhone 应用程序它使用某处的服务器来获取其数据在应用程序源代码的某个位置我对用于连接的 URL 进行了硬编码这很好只是我并不总是想使用生产服务器进行测试我不想弄乱实时数据只是为了在本地测试一些东西所以我
Modernizr 检查以检测 Firefox [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案使用 Modernizr 可以进行哪些检查来检测 Firefox 功能即使不建议对功能进行浏览器检测它也可以用于呈现其他类型的信息
在selenium中使用隐式等待

我是初学者我理解等待的基本作用但我对互联网上不同的教程如何放置和解释它感到困惑例如在下面的代码中它被放置在加载 URL 之前那么是否只是等待 URL 加载或查找元素或两者兼而有之如果我在 try 块中使用隐式等待一次它是否
Console2中使用vim能识别吗？

With Steven Harman 的 Solarized 调整 https github com stevenharman console2 solarized对于 Console2 我或多或少可以使用晒伤 http ethanscho
使无序列表跨越 div 宽度的 100%

div ul li First li li Second li li Third li li Fourth li ul div div width 100 li list style none float left 使用CSS 有没有办法让
适用于 Databricks、Synapse 和 ADLS gen2 的数据治理解决方案

我是数据治理的新手如果问题缺少一些信息请原谅我客观的我们正在 Azure 平台上为中型电信公司从头开始构建数据湖和企业数据仓库我们使用 ADLS gen2 Databricks 和 Synapse 进行 ETL 处理数据科学 M
使用 d3.json() 获取数据不起作用，而使用 JS async wait 则可以。为什么？ [复制]

这个问题在这里已经有答案了我正在尝试从 url 获取一些数据以在 d3 js 中使用我无法使用来获取数据d3 json url callback 虽然我使用 ES8 时效果很好async await功能有人可以帮助我理解为什么吗我究
NSCell 与 NSView：当需要许多控件时

我知道 Apple 不赞成使用NSCell赞成NSView 请参阅 AppKit 10 10 发行说明此前曾建议NSCell当需要许多控制时出于性能原因使用我花了相当多的时间来实现一个需要很多子视图的自定义控件并且使用 NSView
从 parquet 文件创建 SQL 表

我正在使用 R 来处理大型数据集最大数据帧 30 000 000 x 120 这些文件作为 parquet 文件存储在 Azure Datalake 存储中我们需要每天查询这些文件并将其还原到本地 SQL 数据库中无需将数据加载到内存
“DropDownList.SelectedIndex = -1”问题

我只想要一个没有选定项目的 ASP NET DropDownList 到目前为止将 SelectedIndex 设置为 1 没有任何作用我正在使用 Framework 3 5 和 AJAX 即这个 DropDownList 位于 Upd
通过 Kerberos 使用 Active Directory 进行身份验证

我正在构建一个需要不同级别身份验证的 Android 应用程序并且我想使用 Active Directory 来实现这一点据我所知使用 Kerberos 是 Microsoft 建议的方式对于 Android 我该如何执行此操作我
pip 显示错误“lsb_release -a”返回非零退出状态 1

我正在尝试使用 pip 安装软件包但它抛出错误我用过的命令 sudo pip install selenium 它显示的错误 Exception Traceback most recent call last File usr loca
删除或替换 javascript 中模式内的子字符串

我需要 Javascript 中正则表达式的帮助我正在寻找一种替换子字符串的方法仅当它在引号内时这是我的案例源字符串 aa aa aa bbb bbb ccc sub string to remove 所需的字符串 aa aa aa
Task.IsCancelled 不起作用

我有以下示例代码 static class Program static void Main var cts new CancellationTokenSource var task Task Factory StartNew gt try
在Javascript中，这个下划线是什么意思？

var Gallery Backbone Controller extend index null photos null album null subalbums null subphotos null data null photosv
scala 列表与泛型的模式匹配[重复]

这个问题在这里已经有答案了我有课 case class MyClass T values List T 我正在尝试创建一个函数它将根据 T 的类型返回一个值 def myFunc T values match case v List B
TFS 2017.3.1 合并集合 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我们目前使用 TFS 2017 3 1 On Prem 我们有 1 个非常大的收藏和另一个较小的收藏我们想将较小的收藏移至较大的收藏
使用 clang/g++ 时 __m256i 数组出现分段错误

我正在尝试生成数组 m256i在另一个计算中重用当我尝试这样做时即使使用最小的测试用例我也会遇到分段错误但前提是代码是使用 g 或 clang 编译的如果我使用 Intel 编译器版本 16 0 编译代码则不会发生分段错误这

使用 clang/g++ 时 __m256i 数组出现分段错误

使用 clang/g++ 时 __m256i 数组出现分段错误 的相关文章

随机推荐

热门标签

使用 clang/g++ 时 __m256i 数组出现分段错误的相关文章