为什么内核中不使用SIMD指令？

2023-11-22

我在内核中找不到太多 SIMD 指令（如 SSE/AVX）的使用（除了一处用于加速 RAID6 奇偶校验计算的地方）。

Q1）有什么具体原因或者只是缺乏用例吗？

Q2) 如果我想在设备驱动程序中使用 SIMD 指令，今天需要做什么？

Q3）将像 ISPC 这样的框架合并到内核中（仅用于实验）有多难？

保存/恢复 FPU（包括 SIMD 矢量寄存器）状态比仅整数 GP 寄存器状态更昂贵。在大多数情况下，这是不值得的。

在Linux内核代码中，你所要做的就是调用kernel_fpu_begin() / kernel_fpu_end()围绕你的代码。这就是 RAID 驱动程序的作用。 See http://yarchive.net/comp/linux/kernel_fp.html.

x86 没有任何面向未来的方法来保存/恢复一个或几个向量寄存器。（除了手动保存/恢复xmm使用旧版 SSE 指令进行注册，可能会导致SSE/AVX 转换在 Intel CPU 上停止如果用户空间的任何 ymm/zmm 寄存器的上半部分脏了）。

传统 SSE 起作用的原因是，当 Intel 想引入 AVX 时，一些 Windows 驱动程序已经在这样做了，因此他们发明了转换惩罚的东西，而不是让传统 SSE 指令将 ymm 寄存器的高 128b 清零。（看this有关该设计决策的更多详细信息。）因此，基本上我们可以将 SSE/AVX 转换惩罚混乱归咎于 Windows 纯二进制驱动程序。

IDK 关于非 x86 架构，以及现有 SIMD 指令集是否具有面向未来的方法来保存/恢复将继续适用于更长向量的寄存器。如果扩展继续使用多个 32 位 FP 寄存器作为单个更宽寄存器的模式，ARM32 可能会这样做。（例如。q2由...组成s8通过s11.）所以保存/恢复一对q寄存器应该是面向未来的，如果 256b NEON 扩展只是让您使用 2q注册为一个 256b 寄存器。或者，如果新的更宽向量是分开的，并且不扩展现有寄存器。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么内核中不使用SIMD指令？的相关文章

ARM 系统调用的接口是什么？它在 Linux 内核中的何处定义？

我读过有关 Linux 中的系统调用的内容并且到处都给出了有关 x86 架构的描述 0x80中断和SYSENTER 但我无法追踪 ARM 架构中系统调用的文件和进程任何人都可以帮忙吗我知道的几个相关文件是 arch arm kerne
从内核空间中的块设备读取

我正在编写一个内核模块需要从现有的块设备执行读取 dev 东西有谁知道有任何其他模块可以执行这些操作我可以用作参考吗欢迎任何指点 Linux 2 6 30 如果你真的绝对必须那么使用filp open filp close vfs
什么是标记结构初始化语法？

struct file operations scull fops owner THIS MODULE llseek scull llseek read scull read write scull write ioctl scull io
将 mmap 内核启动参数保留的内存映射到用户空间

正如中所讨论的this https stackoverflow com q 1911473 143897问题我在启动时使用内核启动参数保留一个内存块memmap 8G 64G 我写了一个字符驱动程序 http pete akeo ie 2
为什么在谈论线程和进程时，“不要同时格式化软盘”的评论很有趣？

我正在阅读之间的区别线程和进程 https stackoverflow com questions 200469 what is the difference between a process and a thread并在第二个答案中发现
这个反斜杠在这段汇编代码中起什么作用？

我不确定这些推线有什么区别修剪下来来自 Linux 的 x86 entry calling h https github com torvalds linux blob 241e39004581475b2802cd63c111fec43b
在网络处理中使用自旋变体

我编写了一个与网络过滤器挂钩交互的内核模块网络过滤器挂钩在 Softirq 上下文中运行我正在访问全局数据结构哈希表来自软中断上下文以及进程上下文进程上下文访问是由于sysctl文件用于修改哈希表的内容我正在使用 spinloc
如何使用 os.chdir 转到减去最后一步的路径？

例如一个方法传递了一个路径作为参数这个路径可能是 C a b c d 如果我想使用 os chdir 更改为 C a b 怎么办 c 没有最后一个文件夹 os chdir 可以接受命令吗 os chdir 可以采取作为论点是的然
为什么内核需要虚拟寻址？

在Linux中每个进程都有其虚拟地址空间例如 32位系统为4GB 其中3GB为进程保留 1GB为内核保留这种虚拟寻址机制有助于隔离每个进程的地址空间对于流程来说这是可以理解的因为有很多流程但既然我们只有 1 个内核那么为什么我
使用 AVX/AVX2 转置 8x8 浮点

转置 8x8 矩阵可以通过制作四个 4x4 矩阵并对每个矩阵进行转置来实现这不是我想要的在另一个问题中一个答案给出了解决方案 https stackoverflow com a 2518670 4144148x8 矩阵只需要 24 条
设备树不匹配：.probe 从未被调用

我无法理解设备树的工作原理或者具体来说为什么该驱动程序无法初始化这是在 android 版本 3 10 的 rockchip 供应商内核中驱动程序看门狗 rk29 wdt c 为了可读性而减少 static const struct
除了 gcc 之外，还有哪些编译器可以对代码进行向量化？

GCC can 矢量化循环 ftp gcc gnu org pub gcc summit 2004 Autovectorization pdf当指定某些选项并给出正确的条件时会自动进行是否还有其他广泛可用的编译器可以执行相同的操作 IC
将 XMM 寄存器压入堆栈

有没有办法将打包双字整数从 XMM 寄存器推送到堆栈然后在需要时将其弹出理想情况下我正在寻找通用寄存器的 PUSH 或 POP 之类的东西我已经检查了英特尔手册但我要么错过了命令要么没有或者我是否必须将值解压到通用寄存器然后推
读取文件而不从操作系统页面缓存中逐出

这主要适用于 Linux 或者理想情况下适用于任何 POSIX 系统当我阅读以下页面时我正在寻找一种读取大量文件其中任何一个文件本身可能高达 1GB 的方法具有以下特征如果相关磁盘页面已在文件系统缓存中则使用该页面如果相关页面
编译内核进行页表遍历时出现错误

我正在执行页表遍历当我准备更新内核时出现错误 kernel sys c In function do sys get page info kernel sys c 2745 23 error passing argument 1 of p
.ko 文件是如何构建的

我正在尝试将我自己的驱动程序移植到Beagle 板 xm arm cortex A8 在移植时我试图弄清楚如何 ko文件实际构建在我们的Makefile我们只有一个命令来构建 o file 怎样是一个 ko文件已建立使用Linux 2
为什么 call_usermodehelper 大多数时候都会失败？

从内核模块中我尝试使用 call usermodehelper 函数来执行可执行文件 sha1 该可执行文件将文件作为参数并将文件的 SHA1 哈希和写入另一个文件名为输出可执行文件完美运行 int result 1 name hom
操作系统中的用户模式和内核模式有什么区别？

用户模式和内核模式之间有什么区别为什么以及如何激活它们以及它们的用例是什么内核模式在内核模式下执行代码具有完整且不受限制的访问底层硬件它可以执行任何CPU指令并且引用任意内存地址核心模式通常保留给最低级别最受信任的
我的属性太活泼了，我该怎么办？

在 Linux 设备驱动程序中创建 sysfs 属性probe太活泼了具体来说它经历了与用户空间的竞争条件 http kroah com log blog 2013 06 26 how to create a sysfs file c
A64 Neon SIMD - 256 位比较

我想将两个小端 256 位值与 A64 Neon 指令 asm 进行有效比较平等为了平等我已经有了解决方案 bool eq256 const UInt256 lhs const UInt256 rhs bool result 首先将

随机推荐

Ramda 建议从稍微嵌套的数组中删除重复项

我们正在尝试利用 Ramda 来避免一些暴力编程我们有一个对象数组如下所示 id 001 failedReason 1000 id 001 failedReason 1001 id 001 failedReason 1002 id 00
空闲计时器时间到期后应用程序不休眠

据我了解 idleTimerDisabled 设置默认设置为否虽然当我运行我的应用程序并等待它超时并睡眠时它没有超时也没有睡眠我已经进入我的 AppDelegate 并将其手动设置为否以尝试强制其睡眠但仍然没有成功我正在
OpenGL 统一缓冲区 std140 布局、驱动程序错误还是我误解了规范？

OpenGL 规范是谎言或者这是一个错误参考 std140 的布局具有共享的统一缓冲区它指出 GLSL 编译器使用表 L 1 中显示的规则集来 std140 合格的统一块中的布局成员的偏移量块中的成员根据块的大小进行累积块中的
删除/替换国际字符

我正在用 C 创建一个小应用程序以根据从 SQL 查询传递的信息搜索文件名在从 SQL 查询传递的数据中有时由于国际访问者访问我的公司可能会出现多个实例名称中包含国际字符我们的文件名采用英文字母没有特殊字符我正在尝试找到一
从匿名内部类设置外部变量

有什么方法可以从 Java 中的匿名内部类访问调用者范围的变量吗这是示例代码以了解我需要什么 public Long getNumber final String type final String refNumber final Lon
从私钥导出 ECDSA 公钥

我试图从私钥生成公共 ECDSA 密钥但我没有在互联网上找到关于如何执行此操作的太多帮助几乎一切都是为了从公钥规范生成公钥但我不知道如何获得它到目前为止这是我整理的内容 public void setPublic throws G
用Python计算有效数字？

Python 有没有办法计算 double float etc 中的有效数字我没有看到一个简单的方法来做到这一点但我希望它能在图书馆中提前致谢您可能对任意精度浮点库感兴趣例如 http code google com p mpma
OpenFire/XMPP 503 服务不可用错误（使用 iOS XMPPFramework 的 XEP-0065）

Problem 我正在尝试使用 iOS XMPPFramework 和 OpenFire 服务器进行 TURN 连接 XEP 0065 我希望能够发送和接收文件但是我收到 503 服务不可用错误 Note 我的代码的基础来自以下教程 h
具有自定义距离度量的“KD 树”

我想使用 KDtree 这是最好的选择其他 KNN 算法对于我的项目来说不是最佳的与自定义距离度量我在这里检查了类似问题的一些答案这应该有效但没有根据定义距离矩阵是对称的 array 1 0 5 5 0 3 2 0 1 0 0
对表进行约束以限制要存储的记录数

我有一个数据库有两个表Ads and Images 有一个主键adid in Ads作为外键的表Images table 我想在表上创建一个约束Images不超过5个adid可以存储在Images table 我需要知道这种类型的约束被称
所有台式机/笔记本电脑显示器的方向都与 iPad 等设备上的横向方向相似吗？

所有台式机笔记本电脑显示器的方向都与 iPad 等设备上的横向方向相似吗之间有什么区别吗 body background red media only screen and orientation landscape body back
具有引用非类型模板参数的模板是否应该与具有自动非类型模板参数的模板模板参数相匹配？

template
TFS 中有“获取最新版本”预览吗？（如 VSS 的“获取”命令）

我的问题与 Team Foundation Server TFS 有关具体来说在执行获取最新版本递归之前有没有办法知道服务器上的哪些文件已更改在 Visual Source Safe VSS 中您可以执行获取我认为它向
在python中修改一个大列表而不使用任何循环

我的清单是 a 1 2 3 4 现在我希望我的清单是 a 1 2 3 4 如何在不使用任何循环的情况下以这种方式更改我的列表更新这可能是一个很大的列表大约有 10000 个元素使用Python的map功能性 a map lambda
System.Threading.Monitor.Enter() 如何工作？

我有一个问题 Monitor Enter 是如何工作的我研究了 net框架源代码它只显示了这一点 System Security SecurityCritical auto generated ResourceExposure Reso
Android 10 默认短信应用程序对话框未显示

我已成功修改我的应用程序以用作默认短信应用程序问题在于应该提示用户将我的应用程序设置为默认应用程序的对话框它似乎适用于旧版本但不适用于 android 10 模拟器 My code fun Activity askToBeDefaul
如何显示“您确定要离开此页面吗？”何时进行更改？

在 stackoverflow 中如果您开始进行更改然后尝试离开该页面则会出现一个 javascript 确认按钮并询问您确定要离开该页面吗布利巴拉布洛以前有人实施过这个吗我如何跟踪已提交的更改我相信我自己可以做到这一点我
android 将 XML 视图转换为位图而不显示它

我正在尝试设置我的地图集群的视图我正在从 XML 扩充视图并根据簇大小设置文本并且我想显示该视图在下面的代码中我得到一个空位图作为回报 private Bitmap createClusterBitmap int clusterSiz
在 Vaadin 7 中调用 VaadinSession getAttribute 时需要锁定

我知道调用 setAttribute link 但是 getAttribute 呢它是否正确 public Object getMyAttribute return VaadinSession getCurrent getAttribut
为什么内核中不使用SIMD指令？

我在内核中找不到太多 SIMD 指令如 SSE AVX 的使用除了一处用于加速 RAID6 奇偶校验计算的地方 Q1 有什么具体原因或者只是缺乏用例吗 Q2 如果我想在设备驱动程序中使用 SIMD 指令今天需要做什么 Q3 将像 IS

为什么内核中不使用SIMD指令？

为什么内核中不使用SIMD指令？ 的相关文章

随机推荐

热门标签

为什么内核中不使用SIMD指令？的相关文章