AVX2 有符号 8 位元素的整数乘法，产生有符号 16 位结果？

2024-01-12

我有两个 __m256i 向量，填充了 32 个 8 位整数。像这样的东西：

    __int8 *a0 = new __int8[32] {2};
    __int8 *a1 = new __int8[32] {3};

    __m256i v0 = _mm256_loadu_si256((__m256i*)a0);
    __m256i v1 = _mm256_loadu_si256((__m256i*)a1);

我如何使用类似的方法将这些向量相乘_mm256_mul_epi8(v0, v1)（不存在）或任何其他方式？

我想要 2 个结果向量，因为输出元素宽度是输入元素宽度的两倍。或者类似的东西_mm_mul_epu32仅使用偶数输入元素（0、2、4 等）就可以了

您希望将结果分成两个向量，所以这是我对您的问题的建议。我试图说得清楚、简单和可实现：

#include <stdio.h>
#include <x86intrin.h>
 void _mm256_print_epi8(__m256i );
 void _mm256_print_epi16(__m256i );
 void _mm256_mul_epi8(__m256i , __m256i , __m256i* , __m256i* );


int main()
{
    char a0[32] = {1, 2, 3, -4, 5, 6, 7, 8, 9, -10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, -24, 25, 26, 27, 28, 29, 30, 31, 32};
    char a1[32] = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, -13, 14, 15, 16, 17, 18, 19, -20, 21, 22, 23, 24, -25, 26, 27, 28, 29, 30, 31, 32, 33};

    __m256i v0 = _mm256_loadu_si256((__m256i*) &a0[0]);
    __m256i v1 = _mm256_loadu_si256((__m256i*) &a1[0]);

    __m256i r0, r1;//for 16 bit results

    _mm256_mul_epi8(v0, v1, &r0, &r1);

    printf("\nv0 = ");_mm256_print_epi8(v0);
    printf("\nv1 = ");_mm256_print_epi8(v1);
    printf("\nr0 = ");_mm256_print_epi16(r0);
    printf("\nr1 = ");_mm256_print_epi16(r1);
    printf("\nfinished\n");


    return 0;
}
//v0 and v1 are 8 bit input vectors. r0 and r1 are 18 bit results of multiplications
 void _mm256_mul_epi8(__m256i v0, __m256i v1, __m256i* r0, __m256i* r1)
{
    __m256i tmp0, tmp1;
    __m128i m128_v0, m128_v1;

    m128_v0 = _mm256_extractf128_si256 (v0, 0);
    m128_v1 = _mm256_extractf128_si256 (v1, 0);

    tmp0= _mm256_cvtepi8_epi16 (m128_v0); //printf("\ntmp0 = ");_mm256_print_epi16(tmp0);
    tmp1= _mm256_cvtepi8_epi16 (m128_v1); //printf("\ntmp1 = ");_mm256_print_epi16(tmp1);


    *r0 =_mm256_mullo_epi16(tmp0, tmp1);

    m128_v0 = _mm256_extractf128_si256 (v0, 1);
    m128_v1 = _mm256_extractf128_si256 (v1, 1);

    tmp0= _mm256_cvtepi8_epi16 (m128_v0); //printf("\ntmp0 = ");_mm256_print_epi16(tmp0);
    tmp1= _mm256_cvtepi8_epi16 (m128_v1); //printf("\ntmp1 = ");_mm256_print_epi16(tmp1);

    *r1 =_mm256_mullo_epi16(tmp0, tmp1);


}
 void _mm256_print_epi8(__m256i vec)
{
    char temp[32];
    _mm256_storeu_si256((__m256i*)&temp[0], vec);
    int i;
    for(i=0; i<32; i++)
        printf(" %3i,", temp[i]);


}

 void _mm256_print_epi16(__m256i vec)
{
    short temp[16];
    _mm256_storeu_si256((__m256i*)&temp[0], vec);
    int i;
    for(i=0; i<16; i++)
        printf(" %3i,", temp[i]);   
}

输出是：

[martin@mrt Stack over flow]$ gcc -O2 -march=native mul_epi8.c -o out
[martin@mrt Stack over flow]$ ./out

v0 =    1,   2,   3,  -4,   5,   6,   7,   8,   9, -10,  11,  12,  13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23, -24,  25,  26,  27,  28,  29,  30,  31,  32,
v1 =    2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12, -13,  14,  15,  16,  17,  18,  19, -20,  21,  22,  23,  24, -25,  26,  27,  28,  29,  30,  31,  32,  33,
r0 =    2,   6,  12, -20,  30,  42,  56,  72,  90, -110, 132, -156, 182, 210, 240, 272,
r1 =  306, 342, -380, 420, 462, 506, 552, 600, 650, 702, 756, 812, 870, 930, 992, 1056,
finished
[martin@mrt Stack over flow]$

NOTE:我已经在推荐代码中注释了中间结果 tmp0 和 tmp1。此外，正如彼得在评论中建议的并提供了一个 Godbolt 链接，如果您的程序从内存加载并且不需要乘以向量中的元素，您可以使用以下代码：

#include <immintrin.h>

//v0 and v1 are 8 bit input vectors. r0 and r1 are 18 bit results of multiplications
__m256i mul_epi8_to_16(__m128i v0, __m128i v1)
{
    __m256i tmp0 = _mm256_cvtepi8_epi16 (v0); //printf("\ntmp0 = ");_mm256_print_epi16(tmp0);
    __m256i tmp1 = _mm256_cvtepi8_epi16 (v1); //printf("\ntmp1 = ");_mm256_print_epi16(tmp1);

    return _mm256_mullo_epi16(tmp0, tmp1);
}

__m256i mul_epi8_to_16_memsrc(char *__restrict a, char *__restrict b){

    __m128i v0 = _mm_loadu_si128((__m128i*) a);
    __m128i v1 = _mm_loadu_si128((__m128i*) b);
    return mul_epi8_to_16(v0, v1);
}


int main()
{
    char a0[32] = {1, 2, 3, -4, 5, 6, 7, 8, 9, -10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, -24, 25, 26, 27, 28, 29, 30, 31, 32};
    char a1[32] = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, -13, 14, 15, 16, 17, 18, 19, -20, 21, 22, 23, 24, -25, 26, 27, 28, 29, 30, 31, 32, 33};

    __m256i r0 = mul_epi8_to_16_memsrc(a0, a1);

}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

SIMD

avx

avx2

AVX2 有符号 8 位元素的整数乘法，产生有符号 16 位结果？的相关文章

通过增加索引之和来生成排序组合的有效方法

对于启发式算法我需要一个接一个地评估特定集合的组合直到达到停止标准由于它们很多目前我正在使用以下内存高效迭代器块生成它们受到 python 的启发 itertools combinations http docs python o
C 程序从连接到系统的 USB 设备读取数据

我正在尝试从连接到系统 USB 端口的 USB 设备例如随身碟获取数据在这里我可以打开设备文件并读取一些随机原始数据但我想获取像 minicom teraterm 这样的数据请让我知道我可以使用哪些方法和库来成功完成此操作以及如
从多线程程序中调用 system()

我们正在开发一个用 C 编写的多线程内存消耗应用程序我们必须执行大量的 shellscript linux 命令并获取返回码读完之后article http www linuxprogrammingblog com threads a
System.IO.IOException：由于意外>数据包格式，握手失败？

有谁知道这意味着什么 System Net WebException 底层连接已关闭发送时发生意外错误 gt System IO IOException 由于意外握手失败数据包格式在 System Net Security SslS
为什么大多数平台上没有“aligned_realloc”？

MSVC有自己的非标准函数 aligned malloc aligned realloc and aligned free C 17和C11引入了 std aligned alloc 其结果可以是de分配有free or realloc B
(const T v) 在 C 中从来都不是必需的，对吗？

例如 void func const int i 在这里 const是不必要的因为所有参数都是按值传递的包括指针真的吗 C 中的所有参数确实都是按值传递这意味着无论您是否包含该参数实际参数都不会改变const or not 然而
CultureInfo 的实例（来自相同的文化）根据操作系统而变化

我有一个网站上面写着这样的日期 CultureInfo cultureInfo CultureInfo GetCultures CultureTypes AllCultures FirstOrDefault c gt string Equ
mprotect 之后 malloc 导致分段错误

在使用 mprotect 保护内存区域后第一次调用 malloc 时我遇到分段错误这是执行内存分配和保护的代码片段 define PAGESIZE 4096 void paalloc int size Allocates and ali
劫持系统调用

我正在编写一个内核模块我需要劫持包装一些系统调用我正在暴力破解 sys call table 地址并使用 cr0 来禁用启用页面保护到目前为止一切顺利一旦完成我将公开整个代码因此如果有人愿意我可以更新这个问题无论如何
将带有 glut 的点击坐标添加到向量链接列表中

我想创建一个向量链接列表并在 GLUT 库的帮助下获取点击的位置并将它们附加到链接列表中这些是我写的结构 typedef struct vector int x int y Vector typedef struct VectorLis
从成员函数指针类型生成函子

我正在尝试简化通过make fn 预处理参数的函子的生成通过wrap 对于 arity 的成员函数n 生成函子基本上可以工作但到目前为止只能通过显式指定成员函数的参数类型来实现现在我想从它处理的成员函数类型生成正确的函子 struc
libxml2 xmlChar * 到 std::wstring

libxml2似乎将所有字符串存储在 UTF 8 中如xmlChar xmlChar This is a basic byte in an UTF 8 encoded string It s unsigned allowing to pi
C++ 插件的“最适合”动态类型匹配

我有一个几乎所有东西都是插件的架构该架构以图形用户界面为基础其中每个插件都由一个表面即用户可以通过其与插件交互的 UI 控件表示这些表面也是插件每当添加新插件时瘦主机都会自动确定哪个可用表面与其最匹配的 UI 如何在 C 中
使用 WF 的多线程应用程序的错误处理模式？

我正在写一个又长又详细的问题但只是放弃了它转而选择一个更简单的问题但我在这里找不到答案应用程序简要说明我有一个 WPF 应用程序它生成多个线程每个线程执行自己的 WF 处理线程和 WF 中的错误允许用户从 GUI 端进行交互
C++ 错误 - “成员初始值设定项表达式列表被视为复合表达式”

我收到一个我不熟悉的 C 编译器错误可能是一个非常愚蠢的错误但我不能完全指出它 Error test cpp 27 error member initializer expression list treated as compound
为什么具有相同名称但不同签名的多个继承函数不会被视为重载函数？

以下代码片段在编译期间产生对 foo 的调用不明确错误我想知道是否有任何方法可以解决此问题而不完全限定对 foo 的调用 include
C++11 动态线程池

最近我一直在尝试寻找一个用于线程并发任务的库理想情况下是一个在线程上调用函数的简单接口任何时候都有 n 个线程有些线程比其他线程完成得更快并且到达的时间不同首先我尝试了 Rx 它在 C 中非常棒我还研究了 Blocks 和
为什么要在 C++ 中使用 typedef？

可以说我有 set
使用 HTMLAgilityPack 从节点的子节点中选择所有

我有以下代码用于获取 html 页面将网址设置为绝对然后将链接设置为 rel nofollow 并在新窗口选项卡中打开我的问题是关于将属性添加到 a s string url http www mysite com string s
为什么文件更新时“如果较新则复制”不复制文件？

我在 Visual Studio Express 中有一个解决方案如下所示 The LogicSchemaC 中的类将在运行时解析指定的 XML 文件以下是在main的方法Program cs LogicSchema ls new L

随机推荐

HTML5 输入 datetime-今天和当前时间的本地默认值

无论如何我可以将 HTML5 input type datetime local 的默认值设置为今天的日期和当前时间之前谢谢您可以将其缩短
django 中的 get_list_or_404 排序

我正在尝试对 get list or 404 方法的结果进行排序 get list or 404 order by name 似乎不起作用有什么方法可以做到这一点你可以这样做 get list or 404 Model objects
Verilog 错误：必须连接到结构网络表达式

我收到错误 output or inout port Qout must be connected to a structural net expression 我评论了下面代码中发生错误的行代码被修剪压缩我搜索了答案似乎我无法将输
Svelte/Typescript 错误：类型声明期间出现“意外标记”

所以我有一个Svelte启用了 TypeScript 的应用程序但现在我在运行它时遇到问题 Error Unexpected token Note that you need plugins to import files that ar
NLTK 和语言检测

如何使用 NLTK 检测文本是用什么语言编写的我见过的例子使用nltk detect 但是当我在我的Mac上安装它时我找不到这个包您是否遇到过以下代码片段 english vocab set w lower for w in nltk
.NET 中是否可以进行被动日志记录？

我经常对代码中必须包含的日志量感到沮丧这让我想知道是否有更好的方法来做事情我不知道这是否已经完成或者是否有人提出了更好的主意但我想知道是否有人知道有一种方法可以将记录器注入到应用程序中以便它被动地监视线程并安静地记录日志流程发
如何在没有 root 访问权限的计算机上安装 virtualenv

我想在没有root权限的Linux机器上安装virtualenv 我在 nettuts 上看到了截屏视频 http net tutsplus com tutorials python tutorials python power tools
将两个文件中的对象数组与特定键 1.4 下的 jq 结合起来

我有两个具有以下 JSON 的文件我需要使用每个对象的相对数组位置来组合它们 PS 我被限制为 1 4 版本就像在 Solaris 上一样所以没有 inputs 功能 File 1 input email email protecte
指定直接主机的 Ansible ad-hoc 命令 - 没有匹配的主机

我正在使用 VirtualBox 运行 16 04 Ubuntu 桌面计算机该虚拟机安装了 Ansible 2 4 0 我正在尝试运行一个临时的 ansible 命令只是为了证明它有效我正在上在线课程为了模拟小型服务器场我使用 lx
Objective C - NSArray 子类化

我正在尝试子类化NSArray 但是当尝试访问 count 方法时它会使应用程序崩溃我知道NSArray is a 类簇但是这是什么意思有没有办法可以子类化 NSArray 我知道我可以简单地子类化NSObject并将我的数组作为实
如何在 Android 中附加 XML 文件？

我正在将 XML 文件写入 SD 卡并且我需要能够打开该 XML 文件并向其中添加数据我怎样才能做到这一点例如我的 XML 文件是
jquery 防止触摸时悬停功能

我有一个悬停功能如果它是触摸设备我希望悬停事件不会发生问题是当您使用触摸设备点击链接时它会在执行单击事件之前执行悬停事件因此您必须点击它两次才能正常工作这是悬停功能 close hover function close 2 c
立即交付第一个项目，“消除”后续项目

考虑以下用例需要尽快交付第一个项目 need to debounce以下事件有 1 秒超时我最终实现了基于的自定义运算符OperatorDebounceWithTime然后像这样使用它 lift new CustomOperatorDe
计算 Levenshtein 编辑距离的复杂度

我一直在研究这个简单的Python实现编辑距离 http en wikipedia org wiki Levenshtein distance现在一整天 def lev a b Recursively calculate the Leven
无法验证证书 - 请设置 'ENV['SSL_CERT_FILE'] = path_to_file'

我有一个使用 Carrierwave 上传文件的 Rails 4 应用程序安装 Fog 将文件上传到 Amazon 3 后我在上传文件时开始收到以下错误 Excon Errors SocketError in VideosControl
在选择下拉列表时，检索数据为空，除了谷歌网络应用程序中的第一个项目选择之外[重复]

这个问题在这里已经有答案了我正在开发谷歌网络应用程序我想根据下拉选择检索数据我只能在从下拉列表中选择第一个项目时完美检索数据其余的我收到空数组我已经通过手动调用检查服务器端代码其工作正常并完美地发送回数据问题出在客户端代码中
如何在SSRS中将数字格式化为小数点后1位？

我有一份包含完整数字字段的 SSRS 报告我希望将其显示为一位小数我尝试使用F1 它在 html 渲染中只给了我一位小数点但在 Excel 导出版本中它显示了 2 位小数我如何才能在 ecxel 和 html 渲染中都只有一位小数点
Visual Studio Code 断点警告：源代码与原始版本不同

我对 Visual Studio Code 非常陌生我正在尝试调试一个已经存在的应用程序该应用程序是我通过 Git 克隆的我的文件还没有被修改我已经下载了微软扩展 C for Visual Studio Code 由 OmniSha
Microsoft Dynamics 365 SDK 核心程序集 .NET Core 移植错误

当尝试使用时Microsoft Dynamics 365 SDK 核心程序集 https www nuget org packages Microsoft CrmSdk CoreAssemblies 在 NET Core 2 0 项目中运
AVX2 有符号 8 位元素的整数乘法，产生有符号 16 位结果？

我有两个 m256i 向量填充了 32 个 8 位整数像这样的东西 int8 a0 new int8 32 2 int8 a1 new int8 32 3 m256i v0 mm256 loadu si256 m256i a0 m256

AVX2 有符号 8 位元素的整数乘法，产生有符号 16 位结果？

AVX2 有符号 8 位元素的整数乘法，产生有符号 16 位结果？ 的相关文章

随机推荐

热门标签

AVX2 有符号 8 位元素的整数乘法，产生有符号 16 位结果？的相关文章