将两个 32 位整数向量相乘，生成 32 位结果元素向量

2024-05-05

将每个 32 位条目乘以 2 的最佳方法是什么_mm256i互相注册？

_mm256_mul_epu32不是我正在寻找的，因为它产生 64 位输出。我想要每个 32 位输入元素都有一个 32 位结果。

而且，我确信两个 32 位值的乘法不会溢出。

Thanks!

你想要的_mm256_mullo_epi32()固有的。来自英特尔的优秀在线内在指南 https://software.intel.com/sites/landingpage/IntrinsicsGuide/:

Synopsis
__m256i _mm256_mullo_epi32 (__m256i a, __m256i b)
#include "immintrin.h" 
Instruction: vpmulld ymm, ymm, ymm CPUID Flags: AVX2 
描述

将 a 和 b 中的压缩 32 位整数相乘，产生中间 64 位整数，并存储低 32 位 dst 中的中间整数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

x86

SSE

intrinsics

avx

avx2

将两个 32 位整数向量相乘，生成 32 位结果元素向量的相关文章

近调用/跳转表并不总是在引导加载程序中工作

一般问题我一直在开发一个简单的引导加载程序并在某些环境中偶然发现了一个问题在这些环境中此类指令不起作用 mov si call tbl SI Call table pointer call call tbl Call print c
大会，你好世界问题

我正在 Linux 上学习 asm noobuntu 10 04 我得到了以下代码 http asm sourceforge net intro hello html http asm sourceforge net intro hello
Linux内核页表更新

在linux x86 中分页每个进程都有它自己的页面目录页表遍历从 CR3 指向的页目录开始每个进程共享内核页目录内容假设三个句子是正确的假设某个进程进入内核模式并更新他的内核页目录内容地址映射访问权利等问题由于内核地
为什么我的代码显示垃圾？

当我也想打印列表中的每个数字时我的代码显示垃圾有什么问题吗输出应如下所示给定的数组是 2G 4 PT为什么这是垃圾总数是 7 Code ASSUME CS CODE DS DATA SS STK ORG 0000H DATA SEG
使用 AVX/AVX2 转置 8x8 浮点

转置 8x8 矩阵可以通过制作四个 4x4 矩阵并对每个矩阵进行转置来实现这不是我想要的在另一个问题中一个答案给出了解决方案 https stackoverflow com a 2518670 4144148x8 矩阵只需要 24 条
SIMD 和 VLIW 指令是一样的吗？

SIMD 单指令多数据和 VLIW 超长指令字到底有什么区别其中一个是另一个的子集吗或者它们是两个完全不同的东西完全不相关且正交一台机器可以有一个或两个或者两者都没有 SIMD 指令可以作为扩展添加到 VLIW ISA 但 V
避免 gcc 函数序言开销？

我最近遇到了很多 gcc 在 x86 上生成非常糟糕的代码的函数它们都符合以下模式 if some condition do something really simple and return else something comple
GCC 5 及更高版本中的 AVX2 支持

我编写了以下类 T 来加速操作使用 AVX2 的字符集然后我发现它不起作用 gcc 5 及更高版本当我使用 O3 时谁能帮我追踪到一些编程结构已知不适用于最新的编译器系统该代码的工作原理底层结构 bits 是一个 256 字
整数溢出问题

我不断遇到整数溢出问题我不知道如何解决它有人可以帮忙吗 edx 包含 181 eax 包含 174 xor eax edx mov edx 2 div edx 假设你谈论的是x86 div edx这实际上没有意义 32位div将edx
SSE：跨页边界的未对齐加载和存储

我在页面边界旁边执行未对齐加载或存储之前读过某处例如使用 mm loadu si128 mm storeu si128内在函数代码应首先检查整个向量在本例中为 16 个字节是否属于同一页如果不属于同一页则切换到非向量指令我知道
将字段中的位扩展到掩码中所有（重叠+相邻）集位的最快方法？

假设我有 2 个名为 IN 和 MASK 的二进制输入实际字段大小可能是 32 到 256 位具体取决于用于完成任务的指令集每次调用时两个输入都会改变 Inputs IN 1100010010010100 MASK 000111101
CISC 机器 - 它们不只是将复杂指令转换为 RISC 吗？

也许我在架构上存在误解但如果机器有比如说乘法指令该指令是否未转换为更小的指令或者过于复杂以至于最终与等效的 RISC 指令具有相同的速度乘法是一个不好的例子它在两种体系结构中都是一条指令将上面的乘法替换为 CISC 中更
Core i3/5/7 CPU 是否提供测量 IPC 的机制？

至少过去十年中的所有英特尔 CPU 都包含一组对各种事件进行计数的性能监视器最新的 Intel CPU Core i3 i5 和 i7 又名 Nehalem 是否提供了计算每时钟指令 IPC 的机制如果有它们是如何使用的如果可能的
_mm_max_ss 在 clang 和 gcc 之间有不同的行为

我正在尝试使用 clang 和 gcc 交叉编译一个项目但在使用时发现一些奇怪的差异 mm max ss e g m128 a mm set ss std numeric limits
各种中断的区别：SCI、SMI、NMI、普通中断

我正在学习英特尔架构到目前为止我遇到过几种类型的中断 SCI 系统控制中断硬件使用的系统中断用于向操作系统通知 ACPI 事件 SCI 是一个有效低电平可共享的电平中断 SMI 系统管理中断由遗留系统上的中断事件生成的操作系统透
在 Intel x86 架构上使用非 AVX 指令移动 xmm 整数寄存器值

我有以下问题需要使用 AVX2 以外的任何工具来解决我有 3 个值存储在 m128i 变量中不需要第四个值需要将这些值移动 4 3 5 我需要两个功能一个用于按这些值进行右逻辑移位另一个用于左逻辑移位有谁知道使用 SSE AV
在 x86 程序集中打印寄存器值的简单方法

我需要在 8086 Assembly 中编写一个程序接收来自用户的数据进行一些数学计算并在屏幕上打印答案我已经编写了程序的所有部分并且一切正常但我不知道如何打印号码显示到屏幕上在我所有计算结束时答案是 AX 它被视为无符号 16
从c调用汇编函数

我试图从 c 调用汇编函数但我不断收到错误 text globl integrate type integrate function integrate push ebp mov esp ebp mov 0 edi start loop
将 XMM 寄存器压入堆栈

有没有办法将打包双字整数从 XMM 寄存器推送到堆栈然后在需要时将其弹出理想情况下我正在寻找通用寄存器的 PUSH 或 POP 之类的东西我已经检查了英特尔手册但我要么错过了命令要么没有或者我是否必须将值解压到通用寄存器然后推
如何反汇编、修改然后重新组装 Linux 可执行文件？

无论如何这可以做到吗我使用过 objdump 但它不会产生我所知道的任何汇编器都可以接受的汇编输出我希望能够更改可执行文件中的指令然后对其进行测试我认为没有任何可靠的方法可以做到这一点机器代码格式非常复杂比汇编文件还要复杂实

随机推荐

如何基于Scrapy构建一个永远运行的网络爬虫？

我想基于Scrapy构建一个网络爬虫从多个新闻门户网站抓取新闻图片我希望这个爬虫是永远奔跑意味着它将定期重新访问一些门户页面以获取更新安排优先事项为不同类型的 URL 赋予不同的优先级多线程获取我已经阅读了Scrapy文档
如何仅为自定义类型覆盖模板“folder_full_view_item.pt”？

这个问题的演变方式令人困惑不过它的某些部分特别是一些答案可能对某人有用因此我将不修改这个问题并尝试重新表述这个问题here https stackoverflow com q 23809810 1659599 覆盖模板fold
强制执行 IQueryable？

我有一个没有转换为 SQL 的方法我想在 IQueryable 上执行该方法有没有办法强制 IQueryable 执行而不必将其存储在某个中间类中问题是您希望您的方法在本地执行而不是在数据库中执行吗如果是这样 AsEnumera
Node js：如何获取文件签名标头而不是 mime 类型？

我下载了this https www npmjs com package mime types我的 Node js 项目的模块它似乎在某种程度上工作正常如果你console log mime lookup pathToFile 它返回文
如何在 Windows 上的 PostgreSQL 中创建具有 UTF-8 排序规则的数据库？

我正在为 Windows 上的 Bitbucket 服务器配置 PostgreSQL 数据库在官方guide https confluence atlassian com bitbucketserver connecting bitbuc
jsonb 与 jsonb[] 对于客户的多个地址

在 PostgreSQL 的 jsonb 字段中保存多个地址是个好主意我是 nosql 新手我想测试 PostgreSQL 来做到这一点我不想有另一个包含地址的表我更喜欢将其放在同一个表中但我有疑问我见过PostreSQL有js
如何在C#中获取登录SID

如何在 C net 中检索 Windows 登录 SID 不是用户 SID 而是每个会话的唯一新 SID 恐怕您必须求助于使用 P Invoke 有一个如何做到这一点的示例pinvoke net http www pinvoke net d
C#中为什么需要锁和对象？

这是我一直不明白的事情创建一个虚拟对象几乎看起来像是一个黑客locked 就像例子一样 class Account decimal balance private Object thisLock new Object public voi
MVC3 提交在我的复杂数据类型上返回 null

在我的 MVC3 项目中我有以下模型 public class CustomerModules public int ModuleId get set public string ModuleName get set public int
我可以通过 Amazon API 网关异步启动长时间运行的 AWS Lambda 进程吗？

我需要启动一个长时间运行的 AWS Lambda 作业几分钟将其输出写入 S3 它将用 Java 编写实际上是 Kotlin 但这并不重要我正在研究 Amazon API Gateway 作为此作业和其他 AWS Lambda 作业
找不到模块“webpack”

决定不在我的项目中使用 webpack 当我把它从package json出现以下错误ng s 找不到模块 webpack 错误找不到模块 webpack 在 Function Module resolveFilename 内部 modu
通过 :ref:? 从 ReST 文档中提取文本块

我有一些 reStructuredText 文档我想在在线帮助中使用其中的片段似乎一种方法是通过引用剪掉标记片段例如 my boring section Introductory prose blah blah blah my i
在Python Spark中查看RDD内容？

在 pyspark 中运行一个简单的应用程序 f sc textFile README md wc f flatMap lambda x x split map lambda x x 1 reduceByKey add 我想使用 forea
协变和逆变中类型参数的数据类型是如何决定的？

我当时正在读 Maurice Naftalin 和 Philip Wadler 写的 Java Generics and Collections 一书在前两章中我的脑子里充满了疑问我无法找出答案在通话中 public static
无法从静态文件夹加载图像

如何在 Next js 的组件中加载图像我必须先构建项目吗如果是有没有办法在不先构建的情况下加载图像无论我如何尝试我都无法让它发挥作用来自文档 https nextjs org docs basic features stati
如何增加 Smarty 变量？

我通常不是一个聪明人所以我有点卡住了我想回显数组的索引但我想每次回显时都增加它这就是我所拥有的 ul foreach from gallery key index item image li img src image alt li
将额外参数传递给 Django Rest Framework 中的 Serializer 类

我想从 Viewset 向 DRF Serializer 类传递一些参数所以我已经尝试过 class OneZeroSerializer rest serializer ModelSerializer def init self args
Jquery：单击表行时，找到包含的输入文本的值？

table class container tr td td tr table
Jersey 2.0：创建重复作业

在我们的 REST Service 中我们想要实现一个每 10 秒检查一次的作业所以我们认为我们可以使用 Quartz 来制作一个涵盖此内容的作业但问题是我们需要注入一个单例因为它在作业中使用而作业似乎不在我们的服务上下文中因
将两个 32 位整数向量相乘，生成 32 位结果元素向量

将每个 32 位条目乘以 2 的最佳方法是什么 mm256i互相注册 mm256 mul epu32不是我正在寻找的因为它产生 64 位输出我想要每个 32 位输入元素都有一个 32 位结果而且我确信两个 32 位值的乘法不会溢出

将两个 32 位整数向量相乘，生成 32 位结果元素向量

Synopsis

描述

将两个 32 位整数向量相乘，生成 32 位结果元素向量 的相关文章

随机推荐

热门标签

将两个 32 位整数向量相乘，生成 32 位结果元素向量的相关文章