排列 SSE __m128i 寄存器内的字节

2024-04-30

我有以下问题：

In __m128i寄存器有 16 个 8bit 值，顺序如下：

[ 1, 5, 9, 13 ] [ 2, 6, 10, 14] [3, 7, 11, 15]  [4, 8, 12, 16]

我想要实现的是有效地洗牌字节以获得此排序：

[ 1, 2, 3, 4 ] [ 5, 6, 7, 8] [9, 10, 11, 12]  [13, 14, 15, 16]

它实际上类似于 4x4 矩阵转置，但在 8 位元素上运行在一个寄存器内。

您能告诉我什么样的SSE（最好

为此，您确实会想要使用 SSSE3，它比尝试使用

您的代码将如下所示：

   #include <tmmintrin.h> // _mm_shuffle_epi8
   #include <tmmintrin.h> // _mm_set_epi8
   ...
   // check if your hardware supports SSSE3
   ...
   __m128i mask = _mm_set_epi8(15, 11, 7, 3,
                               14, 10, 6, 2,
                               13,  9, 5, 1,
                               12,  8, 4, 0);
   __m128i mtrx = _mm_set_epi8(16, 12, 8, 4,
                               15, 11, 7, 3,
                               14, 10, 6, 2,
                               13,  9, 5, 1);
   mtrx         = _mm_shuffle_epi8(mtrx, mask);

如果你真的想要 SSE2 这就足够了：
（假设我正确解释了您的初始订单）

  __m128i mask = _mm_set_epi8(0x00, 0xFF, 0x00, 0xFF,
                              0x00, 0xFF, 0x00, 0xFF,
                              0x00, 0xFF, 0x00, 0xFF,
                              0x00, 0xFF, 0x00, 0xFF);
  __m128i mtrx = _mm_set_epi8(16, 12, 8, 4,
                              15, 11, 7, 3,
                              14, 10, 6, 2,
                              13,  9, 5, 1);                                   // [1, 5, 9, 13] [2,  6, 10, 14] [3,  7, 11, 15] [ 4,  8, 12, 16]
  mtrx = _mm_packus_epi16(_mm_and_si128(mtrx, mask), _mm_srli_epi16(mtrx, 8)); // [1, 9, 2, 10] [3, 11,  4, 12] [5, 13,  6, 14] [ 7, 15,  8, 16]
  mtrx = _mm_packus_epi16(_mm_and_si128(mtrx, mask), _mm_srli_epi16(mtrx, 8)); // [1, 2, 3,  4] [5,  6,  7,  8] [9, 10, 11, 12] [13, 14, 15, 16]

或者更容易调试：

  __m128i mtrx = _mm_set_epi8(16, 12, 8, 4,
                              15, 11, 7, 3,
                              14, 10, 6, 2,
                              13, 9, 5, 1);            // [1, 5,  9, 13] [ 2,  6, 10, 14] [ 3,  7, 11, 15] [ 4,  8, 12, 16]
  __m128i mask = _mm_set_epi8(0x00, 0xFF, 0x00, 0xFF,
                              0x00, 0xFF, 0x00, 0xFF,
                              0x00, 0xFF, 0x00, 0xFF,
                              0x00, 0xFF, 0x00, 0xFF);
  __m128i temp = _mm_srli_epi16(mtrx, 8);              // [5, 0, 13,  0] [ 6,  0, 14,  0] [ 7,  0, 15,  0] [ 8,  0, 16,  0]
  mtrx         = _mm_and_si128(mtrx, mask);            // [1, 0,  9,  0] [ 2,  0, 10,  0] [ 3,  0, 11,  0] [ 4,  0, 12,  0]
  mtrx         = _mm_packus_epi16(mtrx, temp);         // [1, 9,  2, 10] [ 3, 11,  4, 12] [ 5, 13,  6, 14] [ 7, 15,  8, 16]
  temp         = _mm_srli_epi16(mtrx, 8);              // [9, 0, 10,  0] [11,  0, 12,  0] [13,  0, 14,  0] [15,  0, 16,  0]
  mtrx         = _mm_and_si128(mtrx, mask);            // [1, 0,  2,  0] [ 3,  0,  4,  0] [ 5,  0,  6,  0] [ 7,  0,  8,  0] 
  mtrx         = _mm_packus_epi16(mtrx, temp);         // [1, 2,  3,  4] [ 5,  6,  7,  8] [ 9, 10, 11, 12] [13, 14, 15, 16]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Optimization

SSE

SIMD

排列 SSE __m128i 寄存器内的字节的相关文章

_mm256_fmadd_ps 比 _mm256_mul_ps + _mm256_add_ps 慢？

我有一个图像处理算法来计算a b c d与AVX 伪代码如下 float a new float N float b new float N float c new float N float d new float N assign va
集合划分比差分获得更好的结果

分区问题 https en wikipedia org wiki Partition problem已知是 NP 困难的根据问题的特定实例我们可以尝试动态规划或一些启发式方法例如差分法也称为 Karmarkar Karp 算法后者
orpd等SSE2指令有什么意义？

The orpd指令是压缩双精度浮点值的按位逻辑或这不是做完全相同的事情吗por 按位逻辑或如果是这样拥有它还有什么意义呢请记住 SSE1orps https www felixcloutier com x86 orps首先实
查找二维空间中圆内的所有点

我表示我的 2D 空间考虑一个窗口其中每个像素显示为 2D 数组中的一个单元格即 100x100 的窗口由相同维度的数组表示现在给定窗口中的一个点如果我画一个半径的圆r 我想找到该圆圈中的所有点我想我应该检查半径周围方形区域中的
如何分析Android应用程序的电池使用情况并对其进行优化？

我想分析我的应用程序的电池使用情况我的意思是应用程序的各个部分例如广播接收器监听器服务等使用多少电池我需要一个详细的列表从列表中我想优化电池的使用方法与使用内存分析器类似 http android developers
Scipy 最小化 fmin - 语法问题

我有一个函数它接受多个参数一个数组和两个浮点数并返回一个标量浮点数现在我想通过改变两个参数来最小化这个函数两个浮点数该数组在函数内部解包然后使用其内容数组和浮点数如何使用 SciPy 的 fmin 函数来完成此操作我
如何减少 JSF 中的 javax.faces.ViewState

减少 JSF 中视图状态隐藏字段大小的最佳方法是什么我注意到我的视图状态约为 40k 这会在每次请求和响应时下降到客户端并返回到服务器特别是到达服务器时这对用户来说会显着减慢我的环境 JSF 1 2 MyFaces Tomcat T
什么是悲观主义？

该问题有评论可以使用C 11的吗auto提高性能 https stackoverflow com questions 32510183 can the use of c11s auto improve performance这获得了很多选票
有效地查找正则表达式的所有重叠匹配项

这是后续与 java 正则表达式匹配的所有重叠子字符串 https stackoverflow com q 11303309 244526 有没有办法让这段代码更快 public static void allMatches String
VB.NET 是否优化字符串文字的串联？

如同this https stackoverflow com questions 288794 does c optimize the concatenation of string literals问题但对于 VB NET 来说因为我
规范“毒”方式真的值得吗？（3NF）

我正处于数据库设计的早期阶段所以还没有最终的结果并且我正在为具有可选标签的线程使用 TOXI 3表设计但我忍不住觉得加入是并不是真的必要也许我只需要依赖我的简单标签列posts我可以在其中存储类似 varchar 的表
什么是“矢量化”？

现在好几次了我在 matlab fortran 其他一些中遇到这个术语但我从来没有找到解释它是什么意思它有什么作用所以我在这里问什么是矢量化例如循环矢量化是什么意思许多CPU具有向量或 SIMD 指令集它们同时对两
缩小 ASP.NET 生成的 Javascript 的最佳方法是什么？

在 ASP NET 3 5 运行时缩小 ASP NET 生成的 Javascript 例如由 webresource axd 提供的 Javascript 的最佳方法是什么我尝试使用Mb压缩 http mbcompression code
确定向量中是否存在元素的最有效方法

我有几种算法取决于确定元素是否存在于向量中的效率在我看来这 in 这相当于is element 应该是最有效的因为它只返回一个布尔值在测试了几种方法之后令我惊讶的是这些方法是迄今为止效率最低的以下是我的分析随着向量大小的增加
优化 CSS 交付 - Google 的建议

谷歌建议在 head 中使用非常重要的 CSS 内联并在内部使用其他 CSS
在 C# 中按元素相乘数组具有意想不到的性能

我想找到按元素相乘两个数组的最佳方法这是更广泛项目的一部分其中性能而不是唯一的考虑因素我今天开始用 C Linqpad 编写一些函数因此它还没有以任何方式进行优化下面代码的输出如下 Environment ProcessorCou
这个方法比 Math.random() 更快吗？

我是一名初学者目前已经开始开发一款使用粒子群优化算法的 Android 游戏我现在正在尝试稍微优化我的代码并且 for 循环中有相当多的 Math random 几乎一直在运行所以我正在考虑一种方法来绕过并跳过所有 Math ran
模块化算术和 NTT（有限域 DFT）优化

我想使用 NTT 进行快速平方参见快速大数平方计算 https stackoverflow com q 18465326 2521214 但即使对于非常大的数字结果也很慢超过 12000 位所以我的问题是有没有办法优化我的 NTT
JavaScript - 无需布尔值即可运行一次

有没有办法只运行一段JavaScript代码ONCE 而不使用布尔标志变量来记住它是否已经运行过具体来说not就像是 var alreadyRan false function runOnce if alreadyRan return a
将字段中的位扩展到掩码中所有（重叠+相邻）集位的最快方法？

假设我有 2 个名为 IN 和 MASK 的二进制输入实际字段大小可能是 32 到 256 位具体取决于用于完成任务的指令集每次调用时两个输入都会改变 Inputs IN 1100010010010100 MASK 000111101

随机推荐

如何链接 SSL 证书

有没有什么方法可以将我们自己生成的密钥对与已链接到根 CA 例如 verisign 的现有证书链接起来基本上我的问题如下图所示 Verisign Root CA gt Company XYZ certificate gt Server f
mysql 日期与 date_format 的比较

我用谷歌搜索并尝试了几种方法来比较日期但不幸的是没有得到预期的结果我的当前记录状态如下 mysql gt select date format date starttime d m Y from data date format dat
如何将wordpress从mamp推送到hostgator

我在 mamp 中写了一个博客想推入 hostgator 我必须像 Hostgator 一样重新创建所有内容吗在 Hostgator 上安装 WordPress http www probloggingsuccess com instal
如何在 C 中将向量参数传递给 OpenCL 内核？

我在将向量类型 uint8 参数从 C 中的主机代码传递到 OpenCL 内核函数时遇到问题在主机中我将数据存储在数组中 cl uint dataArr 8 1 2 3 4 5 6 7 8 我的真实数据不仅仅是 1 8 这只是为了便于解
如何从具有另一个环境的另一个脚本运行一个具有其环境的Python脚本？

我有两个脚本 script1 py and script2 py script1 有它自己的环境比如 python 2 而 script2 有它自己的环境比如 python 3 如何使脚本 1 调用脚本 2 及其相应的环境 Thanks
在 Vim 中以反转模式突出显示匹配项

如何在 Vim 中使用 match 命令突出显示与给定模式不匹配的文本所以我想要相反的 match myGroup foo 好吧你可以这样做 match myBaseHighlight foo 2match myGroup where
iPhone，如何在代码中将日期选择器的最小日期设置为今天？

我需要在代码中将日期选择器的最小日期设置为今天只需使用minimumdate属性 datePicker minimumDate NSDate date
kdb+：使用字符串作为变量名

如何使用字符串作为变量名我希望在运行时构建变量名但是如何将它用作左参数并为其赋值 Example test 1 assign error 您可以使用 set 但它会创建一个全局的 q test set 1 test 1 q test 1
使用 TFLite 量化模型的参数进行计算操作

我正在尝试使用量化的 Mobilenetv2 模型在硬件中实现图像分类here https www tensorflow org lite guide hosted models 为此我首先需要从头到尾重现推理过程以确保我理解对数据执行
检查一个类是否是 Laravel 5 中的 Model

我在 Laravel 5 2 中有这段代码用于检查给定的数据库表名称 what 是否有自己的 Model public function manage what model Str studly Str singular what if
加载视频数据集（Keras）

我正在尝试实现 LRCN C LSTM RNN 来对视频中的情绪进行分类我的数据集结构分为两个文件夹 train set 和 valid set 当你打开其中任何一个时你可以找到3个文件夹积极消极和惊喜最后这 3 个文件夹中
如何在 Google 文档电子表格中使用 regexextract 函数来获取字符串的“所有”出现位置？

我的文本字符串位于单元格 D2 中 Decision ERC Case No 2009 094 MC In the Matter of the Application for Authority to Secure Loan from th
颜色重新映射 - 使用 3D 网格匹配目标调色板？

假设我有颜色 FOO 它以 RGB 格式存储我需要重新着色 FOO 以便它与颜色列表中最接近的颜色匹配即时执行此操作我是否无法将每种颜色的 RGB 值视为 3D 网格上的点 r x g y b z 并计算点 FOO 与每个颜色点之间的
如何给gRaphael图形添加jquery点击事件？

我用 g Raphael 做了一个图表 function var r Raphael pieChart pie r piechart 320 240 100 55 20 13 32 5 1 2 10 r text 320 100 Inter
如何创建可以使用拨号盘启动的应用程序

我想知道如何使用 Dialpad 中的一些代码启动我的 Android 应用程序就像如果你 3214789650 它会从您的星系启动angryGps 应用程序如何实施 Thanks 试试这个使用广播接收器来监听去电号码清单 xml
Maven 依赖项插件无法解析插件的手动指定依赖项

我遇到了一个问题maven dependency plugin Maven版本3 2 3 maven dependency plugin版本2 10 我正在尝试引入插件依赖项我创建了一个简单的项目
MongoError: 使用 mongoosejs 连接 mLab 时数据库名称不能包含字符 ' '

这是我的JS代码 var mongoose require mongoose mongoose connect mongodb myUsername email protected cdn cgi l email protection 61
GetWindowLong(int hWnd, GWL_STYLE) 在 C# 中返回奇怪的数字

我使用 GetWindowLong 窗口 api 来获取 C 中窗口的当前窗口状态 DllImport user32 dll static extern int GetWindowLong IntPtr hWnd int nIndex Pr
有没有办法让 EF 5 代码优先迁移使用 ASP.NET MVC 4 中的 SQL Server 数据库来完成所有操作？

当我开始一个新的 ASP NET MVC 4 Web 应用程序项目时我希望它默认使用 SQL Server 来处理所有事情默认情况下当您运行此项目时它会创建一个 LocalDb 实例并在其中创建以下表网页会员资格网页 OAut
排列 SSE __m128i 寄存器内的字节

我有以下问题 In m128i寄存器有 16 个 8bit 值顺序如下 1 5 9 13 2 6 10 14 3 7 11 15 4 8 12 16 我想要实现的是有效地洗牌字节以获得此排序 1 2 3 4 5 6 7 8 9 10 11

排列 SSE __m128i 寄存器内的字节

排列 SSE __m128i 寄存器内的字节 的相关文章

随机推荐

热门标签

排列 SSE __m128i 寄存器内的字节的相关文章