用于通用 SIMD（SSE、AVX、NEON）测试零匹配的高效 C 向量。（求FP最大绝对值和指数）

2024-01-23

我想看看是否可以编写一些可以高效编译的通用 SIMD 代码。主要用于 SSE、AVX 和 NEON。该问题的简化版本是：找到浮点数数组的最大绝对值并返回该值和索引。导致问题的是最后一部分，即最大值的索引。似乎没有一种很好的方法来编写具有分支的代码。

请参阅最后的更新，以获取使用一些建议答案的完成代码。

这是一个示例实现（更完整的版本godbolt https://godbolt.org/#z:OYLghAFBqd5QCxAYwPYBMCmBRdBLAF1QCcAaPECAMzwBtMA7AQwFtMQByARg9KtQYEAysib0QXACx8BBAKoBnTAAUAHpwAMvAFYTStJg1DIApACYAQuYukl9ZATwDKjdAGFUtAK4sGISRqkrgAyeAyYAHI%2BAEaYxCAArAmkAA6oCoRODB7evv6BaRmOAqHhUSyx8Um2mPbFDEIETMQEOT5%2BATV1WY3NBKWRMXGJyQpNLW15nWN9A%2BWVIwCUtqhexMjsHOYAzGHI3lgA1CbbbmP4ggB0CCfYJhoAgvdPZttYNOGHAGrB2BGHAA5DgB6YGHeZxQ6oKiHWqYNiCBSHMKHABumAcJFIgKhxEOkmeoLRGKIeOhhyotFQTAICmeBAAnilMO8KVSaWiIkiAPrcmkEYh4aJeAiYXlQdGY4jcjIAL0wEB%2BfwAVHLMNDqOyCIsdYsTlZHkTJaSoTDzGZoqhPJhDHSzGZ6UyWZgYWECJzoodefzBcLReKIMaSDK8PLFb8IqrQ%2BqqBA3bq9dsDU9DWCPAwZojDgQEByAO4kADWFJIh0tOZxhnQ%2BNh9ARtOeOzwMKV/xOABEO4DG693mFMN8IExSNFSMhSOggnxSMBSAhFodh6Px5PMNPZzdHjtakoe28Xf3B0uxxOp1QZ3OF8eV3vXM2933PkIAOoPZRcMxAr4QaTJABspAAOzYoEXCkGYpDbHqW69geT6vsof6SIOEHbCBpBgYchwAcB%2BKkAk0EvPuHwDi%2Bb7bGYg6YYEWFoYcEFYckeFYbhf6Ec8MyOMgZZWrQi4MAygYRJ6qgLiYgHJlhWHNoc4Z/Mc2x3Ns7YAoRUnqYcqgKe2mnHIBbhetywp0I4DAyggXhUJSmBBsQECqKQDmHGR76fomklSVpXZefphnGbQpnmZZ1m2fZjnYi5SHuc86lecpuniQZvL%2BYFCgWVZ9ChQ5TkuRR0WPOpxCYAQawMJpJgJBYGgVZ2SaNoBnZbqmhwAJIMFgWnkjQxBjNmxBeAOqJiANyJlaolyEmCAAqCB4EiKTEBgXgbEi6LEAyZZMNWaBYNiCioIceYDtoXi9egB2EFCDAbIu7o5gOrimtmCADlSqApBNzXJV4JlhNyDiysclheiwLBmAkf7ciwqDoiwTAKIW3IpEic2HCwy0IGWxWimSZUPF8AAan0PJxeDcW6h2zcgCBCSJYkSTFUn8HZXgZngwDhNWeDaYc1VJsiCkGa2%2BrItY1gLjJ9kVRYeA1QuRUlcQZWy3VBVSUSrOPiyyIwgwB1wvWSLNAOAoDfVjUpg8lLUu6tloAwqKajbyqGT6QoimK3JQGI7OcxAeU6oc6A0sOhysxkHPaww2Lh772vKmEHX0x5WGolyaNMHFOniRY36BPnpAF0XeoNfqjOp%2BnBBw6oZdq1hseR1z1c83zKclniEAN5zAtdhoCkWD3pyHAwIvc2L8Wtsn5caWnSLul2ypCQoyqLBAwdNEDA94PlDwaVJ8/xQAtAfBkHwAYtmhwgIcx%2B17ve8eocyAsCkPMH9gGc16r9975LhiCc/FIgcc7TwftmZuXYCCjwgfFFWbcwGS1bApJSOlVJ6XgWAqSs9swKDzEwFIH4gRdm%2Br9MyaVgqZRJCQCABBSC0OcghQhO9MEPwPjpE%2BOC8EEM/ApC%2BtIuGEKvtmO%2BLCsLiQtqIzkc9cH4KQjzEhAU/rkIyjZKhdlaH0MipIZhoi2GXxOKfGRKQ5EnD4UYuR18oHf0kdg/h%2BCKLyKMj9RRZD0ohTUTQuhEUEJ5REaImB7DBacPsZRUxwSUgOMsX4ve4jp6xLrocBO7VMBZ2RBA4GeYqY0yrpnbSXZq46KwgrUqn9pbVQSLVZM8SHgcGWLQTgCReB%2BA4FoUgqBOBuDFsDfaawbo7B4HQzQtTliFn8FwS42xAJmA0GYAAnBoJCGgASAUkMBepHBJBNKGW0zgvAFAgECAQIZyw4CwCQGgF%2BdA4jkEoBclIVz4j7EMMAbkpsGCFj4CZOI%2ByIDRE4AM6IYRmgMn%2BbwC59YADyDBaAgpabwLAcMjDiDhROPARUHB4HRPslFKSMQe1BeQQQtRtm0CFMQYFHgsAEoFHgFgxy%2BAGGAAoL4eBMB5ghcyZpAz%2BCCBEGIdgUgZCCEUCodQKLdBgQMEYFAXSbCkuiPsyAyx3r1GxYfCF2wb5w3WDcZSsoHZxE1YfKy8MCCHzhhWc1etD5MFRKoPZcIMXOAgK4SYfgwIhH7BCeIYFCiZAEG6vQfr6hzCGD6roJIejjFaJ4doeg7CRoEL0FooaKjDDAjMCYsa8gZujamhYXBlg9PWAKuhRVNg8DqQ0rZKL2kcFUACP8h85FPKMLJN5hYFwQE6ZYaw2JcCEFLP07EHhLn0DxP0xYvAjlwp1KQUZn5LgJG2AkKZqzAIJEkH%2BDQq79CcE2aQZprS617IOYM2dpBTmIBQKgMd1yKAQDuQ8kAzQWCogBIfVtwBj79XeZ8gK3zKB/JRYC5g60CXgsYAQKFMLtkIueci1p%2BB0WOCxds3FyB8XcF4G6YlKL5XkvWpSit07BR0ovZSJgTKWVso5YwAlPLhCiHEIKxjIq1DbN0BBKVxhZX6CFIqiAyqUiqs4Oqo12rqYdlfe%2By4TamA3xNWMc1NIEAOu6M6112b3VBHavm9NqR0j%2BuyNpoNRmQ1erDfGx19Rk0xtyDphNTqGh5ss2m8Nmb7NxtzbMNzBai2rBLXoAUmASNVo4I0w92y60yY/Qpr97bf2dtkj2qwlh%2B34BNMOw4o77njqBnladxyRkgG2BoS4GhZn2i3VwbdkgEhcFmWs/dNbj27NsGemdWg53rLMK13gJ7z3deWGtDIzhJBAA%3D):

#define VLEN 8
typedef float vNs __attribute__((vector_size(VLEN*sizeof(float))));
typedef int vNb __attribute__((vector_size(VLEN*sizeof(int))));
#define SWAP128 4,5,6,7, 0,1,2,3
#define SWAP64 2,3, 0,1,  6,7, 4,5
#define SWAP32 1, 0,  3, 2,  5, 4,  7, 6

static bool any(vNb x) {
    x = x | __builtin_shufflevector(x,x, SWAP128);
    x = x | __builtin_shufflevector(x,x, SWAP64);
    x = x | __builtin_shufflevector(x,x, SWAP32);
    return x[0];
}

float maxabs(float* __attribute__((aligned(32))) data, unsigned n, unsigned *index) {
    vNs max = {0,0,0,0,0,0,0,0};
    vNs tmax;
    unsigned imax = 0;
    for (unsigned i = 0 ; i < n; i += VLEN) {
        vNs t = *(vNs*)(data + i);
        t = -t < t ? t : -t;  // Absolute value
        vNb cmp = t > max;
        if (any(cmp)) {
            tmax = t; imax = i;
            // broadcast horizontal max of t into every element of max
            vNs tswap128 = __builtin_shufflevector(t,t, SWAP128);
            t = t < tswap128 ? tswap128 : t;
            vNs tswap64 = __builtin_shufflevector(t,t, SWAP64);
            t = t < tswap64 ? tswap64 : t;
            vNs tswap32 = __builtin_shufflevector(t,t, SWAP32);
            max = t < tswap32 ? tswap32 : t;
        }
    }
    // To simplify example, ignore finding index of true value in tmax==max
    *index = imax; // + which(tmax == max);
    return max[0];
}

godbolt 上的代码允许将 VLEN 更改为 8 或 4。

这大多效果很好。对于 AVX/SSE，绝对值变为t & 0x7fffffff用一个(v)andps，即清除符号位。对于 NEON 来说是这样完成的vneg + fmaxnm。查找和广播水平最大值的块变成了排列和最大值指令的有效序列。 gcc 能够使用 NEONfabs为绝对值。

4 元素 SSE/NEON 目标上的 8 元素向量在 clang 上运行良好。它在两组寄存器上使用一对指令，对于 SWAP128 水平操作将max or or两个寄存器没有任何不必要的排列。另一方面，gcc 确实无法处理这个问题，并且生成的大部分是非 SIMD 代码。如果我们将向量长度减少到 4，gcc 对于 SSE 和 NEON 就可以正常工作。

但有一个问题if (any(cmp))。对于 clang + SSE/AVX，效果很好，vcmpltps + vptest，与orps在 SSE 上从 8 到 4。

但是 NEON 上的 gcc 和 clang 会执行所有排列和 OR 运算，然后将结果移至 gp 寄存器进行测试。

除了架构特定的内在函数之外，是否还有一些代码可以获取ptest与海湾合作委员会和vmaxvq使用 clang/gcc 和 NEON？

我尝试了一些其他方法，比如if (x[0] || x[1] || ... x[7])但他们更糟。

Update

我创建了一个更新的例子 https://godbolt.org/z/eEh6G4YW9显示了两种不同的实现，即原始方法和 chtz 建议的“向量中的索引”方法以及 Aki Suihkonen 的答案中所示的方法。我们可以看到生成的 SSE 和 NEON 输出。

尽管有些人可能会持怀疑态度，但编译器确实从通用 SIMD（不是自动矢量化！）C++ 代码中生成了非常好的代码。在 SSE/AVX 上，我发现循环中的代码改进空间很小。 NEON 版本仍然受到“any()”的次优实现的困扰。

除非数据通常按升序排列，或几乎如此，否则我的原始版本在 SSE/AVX 上仍然是最快的。我还没有在 NEON 上测试过。这是因为大多数循环迭代都找不到新的最大值，最好针对这种情况进行优化。 “向量中的索引”方法产生更紧密的循环，编译器也做得更好，但常见情况只是在 SSE/AVX 上慢一点。常见情况在 NEON 上可能相同或更快。

关于编写通用 SIMD 代码的一些注意事项。

浮点向量的绝对值可以通过以下方式找到。它在 SSE/AVX（并带有清除符号位的掩码）和 NEON（fabs 指令）上生成最佳代码。

static vNs vabs(vNs x) {
    return -x < x ? x : -x;
}

这将在 SSE/AVX/NEON 上有效地实现垂直最大。它不进行比较；它产生架构的“max”指令。在 NEON 上，将其更改为使用>代替<导致编译器生成非常糟糕的标量代码。我猜是有非规范或异常的东西。

template <typename v>  // Deduce vector type (float, unsigned, etc.)
static v vmax(v a, v b) {
    return a < b ? b : a; // compiles best with "<" as compare op
}

此代码将在寄存器中广播水平最大值。它在 SSE/AVX 上编译得很好。在 NEON 上，如果编译器可以使用水平最大指令然后广播结果，可能会更好。令我印象深刻的是，如果在 SSE/NEON 上使用 8 个元素向量（只有 4 个元素寄存器），编译器就会足够聪明，只使用一个寄存器来广播结果，因为顶部 4 个元素和底部 4 个元素是相同的。

template <typename v>
static v hmax(v x) {
    if (VLEN >= 8)
        x = vmax(x, __builtin_shufflevector(x,x, SWAP128));
    x = vmax(x, __builtin_shufflevector(x,x, SWAP64));
    return vmax(x, __builtin_shufflevector(x,x, SWAP32));
}

这是我发现的最好的“any()”。它在 SSE/AVX 上是最佳的，使用单个 ptest 指令。在 NEON 上，它执行排列和 OR，而不是水平最大指令，但我还没有找到一种方法可以在 NEON 上获得更好的效果。

static bool any(vNb x) {
    if (VLEN >= 8)
        x |= __builtin_shufflevector(x,x, SWAP128);
    x |= __builtin_shufflevector(x,x, SWAP64);
    x |= __builtin_shufflevector(x,x, SWAP32);
    return x[0];
}

同样有趣的是，在 AVX 上的代码i = i + 1将被编译为vpsubd ymmI, ymmI, ymmNegativeOne，即减去-1。为什么？因为 -1s 的向量是由vpcmpeqd ymm0, ymm0, ymm0这比广播 1 向量更快。

这是最好的which()我已经想出来了。这为您提供了布尔向量中第一个真值的索引（0 = false，-1 = true）。使用 movemask 在 AVX 上可以做得更好一些。我不知道最好的NEON。

// vector of signed ints
typedef int vNi __attribute__((vector_size(VLEN*sizeof(int))));
// vector of bytes, same number of elements, 1/4 the size
typedef unsigned char vNb __attribute__((vector_size(VLEN*sizeof(unsigned char))));
// scalar type the same size as the byte vector
using sNb = std::conditional_t<VLEN == 4, uint32_t, uint64_t>;
static int which(vNi x) {
    vNb cidx = __builtin_convertvector(x, vNb);
    return __builtin_ctzll((sNb)cidx) / 8u;
}

正如 chtz 所评论的，最通用和典型的方法是使用另一个掩码来收集索引：

Vec8s indices = { 0,1,2,3,4,5,6,7};
Vec8s max_idx = indices;
Vec8f max_abs = abs(load8(ptr)); 

for (auto i = 8; i + 8 <= vec_length; i+=8) { 
    Vec8s data = abs(load8(ptr[i]));
    auto mask = is_greater(data, max_abs);
    max_idx = bitselect(mask, indices, max_idx);
    max_abs = max(max_abs, data);    
    indices = indices + 8;
}

另一种选择是交错值和索引：

auto data = load8s(ptr) & 0x7fffffff; // can load data as int32_t
auto idx = vec8s{0,1,2,3,4,5,6,7};
auto lo = zip_lo(idx, data);
auto hi = zip_hi(idx, data);

for (int i = 8; i + 8 <= size; i+=8) {
    idx = idx + 8;
    auto d1 = load8s(ptr + i) & 0x7fffffff;
    auto lo1 = zip_lo(idx, d1);
    auto hi1 = zip_hi(idx, d1);
    lo = max_u64(lo, lo1);
    hi = max_u64(hi, hi1);
}

如果输入范围足够小，可以将输入左移，同时将索引中的一些位附加到同一字的 LSB 位，则此方法尤其有利可图。

即使在这种情况下，我们也可以重新利用浮点数中的 1 位，从而节省一半的位/索引选择操作。

auto data0 = load8u(ptr) << 1; // take abs by shifting left 
auto data1 = (load8u(ptr + 8) << 1) + 1;  // encode odd index to data
auto mx = max_u32(data0, data1);  // the LSB contains one bit of index

貌似可以用double作为存储，因为甚至 SSE2 也支持_mm_max_pd（需要注意 Inf/Nan 处理，当重新解释为 64 位双精度数的高位部分时，它们不再编码为 Inf/Nan）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

用于通用 SIMD（SSE、AVX、NEON）测试零匹配的高效 C 向量。（求FP最大绝对值和指数）的相关文章

当我在组合框中选择一个项目时，如何防止 TextChanged 事件？

我有一个TextChanged http msdn microsoft com en us library system windows forms control textchanged aspx我的事件ComboBox http msd
为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
使用 lambda 表达式注册类型

我想知道如何在 UnityContainer 中实现这样的功能 container RegisterType
如何从 C# 中的 dataTable.Select( ) 查询中删除单引号？

所以我有一个经销商名称列表我正在我的数据表中搜索它们问题是一些傻瓜必须被命名为 Young s 这会导致错误 drs dtDealers Select DealerName dealerName 所以我尝试替换字符串尽管它对我不起作
计算 XML 中特定 XML 节点的数量

请参阅此 XML
以编程方式读取 SQL Server 查询计划建议的 SQL 特定执行的索引？

如果我在 SSMS 中运行此命令 set showplan xml on GO exec some procedure arg1 arg2 arg3 GO set showplan xml off GO 我获得查询执行中涉及的完整调用堆栈的
为什么pow函数比简单运算慢？

从我的一个朋友那里我听说 pow 函数比简单地将底数乘以它的指数的等价函数要慢例如据他介绍 include
JNI 将 Char* 2D 数组传递给 JAVA 代码

我想从 C 代码通过 JNI 层传递以下指针数组 char result MAXTEST MAXRESPONSE 12 12 8 3 29 70 5 2 42 42 在java代码中我写了以下声明 public static native
从同一个类中的另一个构造函数调用构造函数

我有一个带有两个构造函数的类 C 这是代码片段 public class FooBar public FooBar string s constructor 1 some functionality public FooBar int i
查看 NuGet 包依赖关系层次结构

有没有一种方法文本或图形来查看 NuGet 包之间的依赖关系层次结构如果您使用的是新的 csproj 您可以在此处获取所有依赖项在项目构建后项目目录 obj project assets json
C# 数据表更新多行

我如何使用数据表进行多次更新我找到了这个更新 1 行 http support microsoft com kb 307587 my code public void ExportCSV string SQLSyntax string L
使用可变参数包类型扩展的 C++ 函数调用者包装器

我绑定了一些 API 并且绑定了一些函数签名如下所示 static bool WrapperFunction JSContext cx unsigned argc JS Value vp 我尝试将对象和函数包装在 SpiderMonkey
Python 属性和 Swig

我正在尝试使用 swig 为一些 C 代码创建 python 绑定我似乎遇到了一个问题试图从我拥有的一些访问器函数创建 python 属性方法如下 class Player public void entity Entity enti
启动时的 Excel 加载项

我正在使用 Visual C 创建 Microsoft Excel 的加载项当我第一次创建解决方案时它包含一个名为 ThisAddIn Startup 的函数我在这个函数中添加了以下代码 private void ThisAddIn
IQueryable 单元或集成测试

我有一个 Web api 并且公开了一个端点如下所示 api 假期 name name 这是 Web api 的控制器 get 方法 public IQueryable
保护 APK 中的字符串

我正在使用 Xamarin 的 Mono for Android 开发一个 Android 应用程序我目前正在努力使用 Google Play API 添加应用内购买功能为此我需要从我的应用程序内向 Google 发送公共许可证密钥
在屏幕上获取字符

我浏览了 NCurses 函数列表似乎找不到返回已打印在屏幕上的字符的函数每个字符单元格中存储的字符是否有可访问的值如果没有的话Windows终端有类似的功能吗我想用它来替换屏幕上某个值的所有字符例如所有a s 具有不同的特征
C++ new * char 不为空

我有一个问题我在 ASIO 中开发服务器数据包采用尖头字符当我创建新字符时例如char buffer new char 128 我必须手动将其清理为空 By for int i 0 i lt 128 i buffer i 0x00
如何在richtextbox中使用多颜色[重复]

这个问题在这里已经有答案了我使用 C windows 窗体并且有 richtextbox 我想将一些文本设置为红色一些设置为绿色一些设置为黑色怎么办呢附图片 System Windows Forms RichTextBox有一个
不区分大小写的字符串比较 C++ [重复]

这个问题在这里已经有答案了我知道有一些方法可以进行忽略大小写的比较其中涉及遍历字符串或一个good one https stackoverflow com questions 11635 case insensitive string

随机推荐

如何确定我使用哪个 GC？

我没有指定任何GC 我认为我的JVM默认没有启用任何GC 当然我知道OpenJDK8默认使用ParallelGC 但我认为它应该可以通过命令行打印如下所示 java XX PrintFlagsFinal grep Use grep GC
GCC循环展开标志真的有效吗？

在C中我有一个任务我必须用以下方法进行乘法反转转置加法等 huge矩阵分配为二维数组数组的数组我找到了 gcc 标志 funroll all loops 如果我理解正确这将自动展开所有循环而无需程序员做任何努力我的问题
jQuery - 单击链接时将光标置于输入字段中

我想在单击特定链接后将光标放在输入字段中我将其用于小型搜索引擎想象一个输入字段然后一些链接在输入字段中添加一个字符串例如丹麦英格兰等现在我需要将光标放置在这样的位置丹麦此处这可能吗更新我现在正在使用此代码来替换文本
如何在应用程序运行之间本地检测用户的 iPhone 时钟进度？

休闲游戏中的一个常见漏洞是人为地提前系统时钟以在游戏中向前跳跃 iOS 设备上的应用程序如何检测此类用户时钟提前不得涉及网络通信当时钟提前时不得假设应用程序已打开运行或暂停必须检测时钟前进仅检测时钟回滚是不够的理想情况下该解
有没有办法在 Nuxt.js 中使用 sass 而不是 node-sass （sass-loader 的默认值）？

我正在尝试在 Nuxt js 中使用 sass 包而不是 node sass 我找到了这样的配置 vue config js module exports css loaderOptions sass implementation requ
getUserMedia() 权限被拒绝

我正在尝试使用测试屏幕共享getUserMedia 我有 Chrome 版本 28 和getUserMedia 屏幕捕获标志已启用但我仍然收到权限被拒绝的错误 On this 屏幕截图演示 http simpl info screenca
如何以声明方式将禁用/选中等伪布尔属性绑定到布尔值？

有没有一种简单的方法来绑定属性例如disabled or checked真假属性就像是
JavaScript（初级）Kata - 使用函数构建计算器

我正在解决以下类型编写一个程序将 sum product mean 或 sqrt 中的一个作为第一个参数并使用一系列数字作为进一步的参数该程序将适当的函数应用于该系列我已经解决了它下面的代码但它体积庞大且效率低下我想重写它
Spark将列转换为存储在字符串中的sql类型

简单的请求是我需要帮助将列添加到数据帧但是该列必须为空其类型来自 spark sql types 并且必须从字符串定义类型我可能可以用 ifs 或 case 来做到这一点但我正在寻找更优雅的东西不需要为 org apache sp
Angular 客户端启用 CORS

CORS 在服务器上运行良好并且按预期工作我尝试使用 Angular HTTPClient 向服务器的 REST API 发送请求但收到 CORS 错误如果服务器上启用了 CORS 为什么会出现此错误客户端不是应该没问题吗 Cros
如何在 Angular 2 中定义全局变量，以便我可以将它们用于模板中的属性绑定？

在我的 Angular 2 beta 14 应用程序中我需要跟踪用户登录状态以便隐藏显示某些元素我遇到的问题是属性绑定没有按照我的方式工作如下所示我创建了一个类来存储和更新全局变量应用程序全局 ts import Injecta
CMake FIND_LIBRARY：链接到指定库错误

我已经在我的计算机上安装了 FFTW3 库并且可以在 usr lib 中找到以下文件 libfftw3f so 3 libfftw3l threads so 3 libfftw3f so 3 3 0 libfftw3l threads s
Knockout：无需扩展模型即可选择表行？

我有通过淘汰赛呈现的下表模板 table class gv thead th Type th th Name th thead tbody tr td td tr tbody table
Spring @Autowired 字段 - 哪个访问修饰符是私有的还是包私有的？

假设我们使用 Autowired对类中的各个字段进行注释并且我们没有编写也可以设置字段的设置器或构造函数问题访问修饰符应该是什么 private or package private 即没有例如 public class MyCla
.net Core - 使用 Route 属性时不加载默认控制器

一个新的 net core Web应用程序项目带有以下路由配置 app UseMvc routes gt routes MapRoute name default template controller Home action Index
当在HBase中反转Scan时，哪个是startKey，哪个是stopKey？

我使用的是 HBase 0 98 它允许以相反的顺序进行扫描这是我的代码 scan new Scan eventTimeKey nowKey scan setCaching 1 setting this to 1 since I only
错误：FROM 中的子查询无法引用相同查询级别的其他关系

我正在使用 PostgreSQL 9 我想找到表内最近的邻居RP对于所有元组RQ 比较日期 t 但我收到此错误错误 FROM 中的子查询无法引用同一查询的其他关系等级使用此查询 SELECT FROM RQ SELECT FROM R
使用 BeautifulSoup 抓取 Google 搜索

我想抓取谷歌搜索的多个页面到目前为止我只能抓取第一页但如何才能抓取多个页面 from bs4 import BeautifulSoup import requests import urllib request import re f
如何就地转置多维数组

如何转置二维矩阵维基百科有一篇文章就地矩阵转置本文涵盖非方阵 http en wikipedia org wiki In place matrix transposition http en wikipedia org wiki In
用于通用 SIMD（SSE、AVX、NEON）测试零匹配的高效 C 向量。（求FP最大绝对值和指数）

我想看看是否可以编写一些可以高效编译的通用 SIMD 代码主要用于 SSE AVX 和 NEON 该问题的简化版本是找到浮点数数组的最大绝对值并返回该值和索引导致问题的是最后一部分即最大值的索引似乎没有一种很好的方法来编写具有分支

用于通用 SIMD（SSE、AVX、NEON）测试零匹配的高效 C 向量。 （求FP最大绝对值和指数）

Update

用于通用 SIMD（SSE、AVX、NEON）测试零匹配的高效 C 向量。 （求FP最大绝对值和指数） 的相关文章

随机推荐

热门标签

用于通用 SIMD（SSE、AVX、NEON）测试零匹配的高效 C 向量。（求FP最大绝对值和指数）

用于通用 SIMD（SSE、AVX、NEON）测试零匹配的高效 C 向量。（求FP最大绝对值和指数）的相关文章