在每个函数/每个代码块的基础上启用 SSE4 的正确方法是什么？

2024-02-23

对于我的一个 OS X 程序，我有一些使用 SSE4.1 指令的优化案例。在仅 SSE3 的计算机上，运行非优化分支：

// SupportsSSE4_1 returns true on CPUs that support SSE4.1, false otherwise
if (SupportsSSE4_1()) {

    // Code that uses _mm_dp_ps, an SSE4 instruction

    ...

    __m128 hDelta   = _mm_sub_ps(here128, right128);
    __m128 vDelta   = _mm_sub_ps(here128, down128);

    hDelta = _mm_sqrt_ss(_mm_dp_ps(hDelta, hDelta, 0x71));
    vDelta = _mm_sqrt_ss(_mm_dp_ps(vDelta, vDelta, 0x71));

    ...

} else {
    // Equivalent code that uses SSE3 instructions
    ...
}

为了编译上面的内容，我必须设置CLANG_X86_VECTOR_INSTRUCTIONS to sse4.1.

然而，这似乎指示 clang 可以使用ROUNDSD我的程序中任何地方的指令。因此，程序在仅 SSE3 的机器上崩溃SIGILL: ILL_ILLOPC.

仅对真实分支内的代码行启用 SSE4.1 的最佳实践是什么SupportsSSE4_1()如果阻止？

目前还没有办法在 clang 中以块/函数粒度针对不同的 ISA 扩展。您只能在file粒度（将您的 SSE4.1 代码放入单独的文件中并指定要使用的文件-msse4.1）。如果这对您来说是一项重要功能，请提交错误报告以请求它！

但是，我应该指出，实际的好处是DPPS在大多数实际场景中非常小（并且使用DPPS甚至减慢某些代码序列的速度！）。除非这个特定的代码序列很关键，并且您已经仔细测量了使用 DPPS 的效果，否则即使该编译器功能可用，也可能不值得为 SSE4.1 的特殊情况而烦恼。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在每个函数/每个代码块的基础上启用 SSE4 的正确方法是什么？的相关文章

如何在iPhone模拟器中更改时间和时区？

如何更改时间和时区iPhone http en wikipedia org wiki IPhone模拟器我猜它使用您的系统时区因此更改系统偏好设置中的 TZ 可能会成功
XCode 4.2 编译器错误

当我使用 XCode 4 2 创建新项目例如单视图 iOS 应用程序时支持文件文件夹中的 main m 文件如下所示 import
链接 llvm 库

我正在开发一个基于 llvm 的编译器当我尝试生成可执行文件时会发生以下错误 bin llvmcode s 35 对 operator new unsigned long 的未定义引用请注意在生成的 IR 中调用了位于 llvm
如何处理 iPhone 4s、5 和 6 屏幕尺寸，并使所有内容在所有设备上看起来相同

我正在使用 Xcode 6 1 并且在我拥有的视图之一中包含许多标签然而这些标签在不同的设备中看起来不同尽管我已经对所有标签添加了约束但仍然面临同样的问题如何在所有设备上获得相同的视图布局如何使每个标签的宽度和高度灵活取决于屏
c++1y 模式下的 Clang >= 3.3 无法解析标头

我有一个项目可以在 g 4 8 1 和 c 11 模式下 clang gt 3 3 下正确编译和运行然而当我切换到实验时 std c 1y模式下 clang 3 3 但不是 g 在
该捆绑包无效。 Apple 目前不接受使用此版本操作系统构建的应用程序。（小牛队）

我首先说我已经安装了 Mavericks 我很好奇看到新功能最好还是等待因为显然没有什么耸人听闻的变化无论如何我正在尝试将我的应用程序提交到应用程序商店但经过与代码签名的真正艰苦斗争后我最终得到了以下消息此捆绑包无效 Ap
iPhone 存储大量图像

我有大量与 sqlite 数据库中的记录相对应的图像我应该把它们存放在哪里我有同一张图像的 3 个版本大号中号拇指号我不想将它们存储在数据库表中而是从每条记录中引用它们所有图像都具有相同的名称每个小中和大图像文件都将被称
如何从 IOS 应用程序中的自定义捆绑包加载故事板文件？

我有一个 ios 应用程序我正在修改它以便它可以作为静态库简单地插入到一系列其他应用程序中但是我还需要拥有所有相应的资源因此我创建了一个自定义捆绑包来包含这些资源该捆绑包包括所有选项卡栏图像可本地化字符串默认图像以及对于这
Xcode 警告引用开发第三方库的用户帐户

我在我的项目中使用第三方库 BugSense 我已将他们的框架添加到我的项目中对其进行初始化等以便一切正常然而每次构建项目时我都会收到大量 40 多个以下警告警告 i386 Users genesis Library Deve
env: python: 使用 Xcode 构建应用程序时没有这样的文件或目录

当我在 Xcode 在 MacOS 12 3 上中构建运行存档我的应用程序时遇到此错误 env python No such file or directory Command Ld failed with a nonzero e
从 Xcode 6 安装失败：“存在内部 API 错误”

我尝试在 ipad ios 7 1 2 上运行一个在我的手机 ios 8 4 1 上运行良好的应用程序 Xcode 提示存在内部 API 错误仅此而已我不确定如何解释日志怎么了我该如何解决 ipad日志 Aug 29 17 39
UITextField 中光标闪烁，但键盘不出现

我得到了一个带有文本字段的简单详细视图在详细的viewController中我写了这段代码 void viewDidAppear BOOL animated self textField becomeFirstResponder NSLo
为什么这个未使用的变量没有被优化掉？

我使用了 Godbolt 的 CompilerExplorer 我想看看某些优化有多好我的最小工作示例是 include
XcodeColors 在 XCode 5 中不起作用

我尝试安装XcodeColors在 XCode 5 中但不幸的是它不能与我从 XCode 4 6 获得的旧插件一起使用下一步我检查了 github 网站在那里我看到了以下拉取请求提供了 XCode 5 的工作版本 https g
迁移大型 Core Data 数据库崩溃

我有一个将产品存储在核心数据文件中的应用程序这些产品包括作为可转换数据的图像现在我尝试使用轻量级迁移添加一些属性当我使用一个小型数据库对其进行测试时它运行良好但当我使用一个接近 500 MB 的大型数据库时应用程序通常会因内
Swift 中的 AURenderCallback

我正在创建一个使用音频单元的应用程序虽然 Objective C 中有很多代码示例包括 Apple 自己的 aurioTouch 等但我正在尝试用 Swift 编写整个代码我已经能够设置我的 AUGraph 并通过它运行一些音频但
如何在 Xcode 10 中恢复快速帮助？

在我升级到 Xcode 10 后快速帮助信息仅提供所选类或结构的声明是否有某个设置可以使其与 Xcode 9 中的设置相同升级后我遇到了同样的问题其中函数签名是单击选项时唯一显示的内容当我删除里面的所有内容后快速帮助再次出现 L
获取 LLVM getelementptr 中的操作数名称

我正在尝试获取 getelementptr 指令引用的数组的名称当在实际的 C 代码中使用中间变量对数组进行索引时这似乎起作用如下所示 int a 0 i a 3 在这种情况下我得到以下位码 arrayidx getelementp
iPhone SDK：拖动 UIImageView 时出现问题

我正在尝试在我的应用程序中拖动 iPhone 屏幕上的 UIImageView 目前我设置的拖动功能很好拖动图像确实会在屏幕上移动它问题是你不必拖动图像视图来移动它你也可以拖动屏幕上的任何地方它会移动图像我是这个平台的新手所以我
在启用滚动的情况下扩展堆栈视图内的 UITextView

我正在尝试使用自动布局和 Stackview 来实现一些目标我有一个垂直 Stackview 其中包含 UIView UITextView 和 UIView 如下所示我已经在这里查看了以前的答案但找不到一个干净的解决方案来实现此目的

随机推荐

Ionic：未定义不是构造函数 FileReader

创建 FileReader 来自 ionic native file 实例时遇到问题 let f new FileReader 出现以下错误 TypeError undefined is not a constructor evaluati
如何列出 Win32.DLL 中的可用方法

我有一个 DLL 文件其中包含一些我想在应用程序中调用的有用函数我不再有它的文档了如何发现 DLL 导出的函数及其方法签名是否有列出函数及其参数的实用程序转储箱出口 Dumpbin http msdn microsoft com
你能在同一对象的非重叠区域之间进行memcpy吗？

C17 说以下内容memcpy 7 24 2 1p2 memcpy函数将s2指向的对象中的n个字符复制到指向的对象中通过 s1 如果复制发生在objects重叠行为是未定义的常见的解释是您不能复制重叠的内存区域但这并不完全相同因为
jQuery UI 对话框不会关闭

在我的网页上有一个按钮可以打开模式 jQuery 对话框单击按钮时运行的代码如下 main onoffline container append div div dialog modal a dialog title Add Tags a
如何在 Dreamweaver 中使用 javascript 使元素固定在某个点

我知道有很多与此类似的问题但在 Dreamweaver 中似乎没有一个解决方案适合我任何人都可以提供 JavaScript 代码或我可以轻松插入到 Dreamweaver 文件中的内容吗我需要应用它的代码如下 div div
原子别名交换在完全不相关的索引上失败并出现 index_not_found_exception

我想以零停机时间进行替换和索引如中所述ES 文档 https www elastic co guide en elasticsearch guide current index aliases html 我这样做是通过创建一个新索引my
如何使用 django-simple-history 恢复更改，特别是删除

We have django simple history为我们的模型设置最近一大堆模型被神秘删除这是在事后几天注意到的因此最好避免完整的数据库备份恢复因为这会擦除事后发生的手动更改我找不到任何方法来轻松恢复模型实例特别是已删除
Tkinter 显示扭曲的图像

我正在尝试使用 Tkinter 显示 gif 但是当 gif 加载时它看起来很奇怪我已经粘贴了原始 gif 和 Tkinter 中显示的 gif 的屏幕截图这种情况不仅仅发生在一张 gif 中而是出现在我使用的每一张 gif 中 G
我们可以在 Android 中使用缩放手势检测器进行捏缩放吗？

我们可以在 Android 中使用缩放手势检测器进行捏缩放吗您可以创建一个可重用的类来实现OnTouchListener来实现这一目标 public class MyScaleGestures implements OnTouchList
在 Windows/mingw 上，`fcntl(fd, F_GETFL) | 等价于什么？ O_ACCMODE`？

我正在 Windows 上用 Mingw 编译一个程序如何获取打开的文件描述符的访问模式根据Win32 hlp API提供了该功能BOOL GetFileInformationByHandle HANDLE hFile LPBY HAN
无法编译 parquet-tools

我克隆了存储库parquet mr from 这个链接 http git 20clone 20https github com Parquet parquet mr git 我想要建造的parquet tools正如所解释的here htt
Python file.write 创建额外的回车符

我正在使用 python 将一系列 SQL 语句写入文件模板字符串如下所示 store insert tinsert stores storenum values s 我像这样写入文件 for line in source line li
如何衡量字符串之间的相似度？

我有很多名字我想获得唯一的名字然而由于拼写错误和数据不一致名称可能写错我正在寻找一种方法来检查字符串向量是否其中两个相似例如 pres lt c Obama B Bush G W Obama B H Clinton W J 我想
无法设计全授权工作

我需要访问 google API 我试图让用户使用 Devise 2 1 1 和 Omniauth 使用 gemgoogle oauth2因为 OAuth2 是 Google 文档推荐的不幸的是我无法让它工作这是routes rb Te
Django - 按组注释加权平均值

我有以下在 SalesRecord 上运行的模型管理器 def by variety and date self start date end date return self model objects filter date range
用 Java 或其他方式发送 GET 和 POST 请求而没有响应

是否可以使用 Java 或其他语言发出 GET 和 POST 请求这样您就不必关心返回的内容就像只是发送请求但不想收到任何响应无论您是否关心回复它都会被发送 HTTP 协议规范说它必须如此如果您不关心响应您的客户端可以在发送请求
在Python中导入CAD对象并存储为数组

我正在使用 Autodesk Fusion 360 对 3D 零件进行建模参见下图然后可以将其导出并保存为 step iges sat 或 smt 文件我想要实现的目标是将这部分转换为Python中的3D numpy数组数组的每个元
使用环境覆盖 Spring Cloud Config 值

有没有办法用另一个属性源特别是系统环境覆盖通过 Spring Cloud Config Server 设置的属性我知道我可以通过循环来手动完成Environment对象的PropertySources 但如果我可以设置它以便boots
CMake - 如何获取目录名称中的倒数第二个？

所以我有 get filename component a dir some file PATH get filename component a last dir a dir NAME 其中 a last dir 应该返回我的目录的最低级
在每个函数/每个代码块的基础上启用 SSE4 的正确方法是什么？

对于我的一个 OS X 程序我有一些使用 SSE4 1 指令的优化案例在仅 SSE3 的计算机上运行非优化分支 SupportsSSE4 1 returns true on CPUs that support SSE4 1 false

在每个函数/每个代码块的基础上启用 SSE4 的正确方法是什么？

在每个函数/每个代码块的基础上启用 SSE4 的正确方法是什么？ 的相关文章

随机推荐

热门标签

在每个函数/每个代码块的基础上启用 SSE4 的正确方法是什么？的相关文章