我可以将此宏更改为内联函数而不影响性能吗？

2024-01-10

（编辑：让我们将其命名为“测量如何出错的教训。”但我仍然没有弄清楚到底是什么导致了差异。）

我发现了一个非常快的整数平方根函数here http://www.azillionmonkeys.com/qed/sqroot.html作者：马克·克朗。至少在我的机器上使用 GCC，它显然是我测试过的最快的整数平方根函数（包括 Hacker's Delight 中的函数，这一页 http://web.archive.org/web/20101228021530/http://www.codecodex.com/wiki/Calculate_an_integer_square_root，以及来自标准库的 Floor(sqrt()) ）。

稍微清理一下格式、重命名变量并使用固定宽度类型后，它看起来像这样：

static uint32_t mcrowne_isqrt(uint32_t val)
{
    uint32_t temp, root = 0;

    if (val >= 0x40000000)
    {
        root = 0x8000;
        val -= 0x40000000;
    }

    #define INNER_ISQRT(s)                              \
    do                                                  \
    {                                                   \
        temp = (root << (s)) + (1 << ((s) * 2 - 2));    \
        if (val >= temp)                                \
        {                                               \
            root += 1 << ((s)-1);                       \
            val -= temp;                                \
        }                                               \
    } while(0)

    INNER_ISQRT(15);
    INNER_ISQRT(14);
    INNER_ISQRT(13);
    INNER_ISQRT(12);
    INNER_ISQRT(11);
    INNER_ISQRT(10);
    INNER_ISQRT( 9);
    INNER_ISQRT( 8);
    INNER_ISQRT( 7);
    INNER_ISQRT( 6);
    INNER_ISQRT( 5);
    INNER_ISQRT( 4);
    INNER_ISQRT( 3);
    INNER_ISQRT( 2);

    #undef INNER_ISQRT

    temp = root + root + 1;
    if (val >= temp)
        root++;
    return root;
}

INNER_ISQRT 宏并不是太邪恶，因为它是本地的，并且在不再需要后立即未定义。尽管如此，原则上我仍然想将其转换为内联函数。我在几个地方（包括 GCC 文档）读到了这样的断言：内联函数与宏“一样快”，但是我在转换它而不影响速度的情况下遇到了麻烦。

我当前的迭代看起来像这样（注意always_inline属性，我为了更好的衡量而投入了它）：

static inline void inner_isqrt(const uint32_t s, uint32_t& val, uint32_t& root) __attribute__((always_inline));
static inline void inner_isqrt(const uint32_t s, uint32_t& val, uint32_t& root)
{
    const uint32_t temp = (root << s) + (1 << ((s << 1) - 2));
    if(val >= temp)
    {
        root += 1 << (s - 1);
        val -= temp;
    }
}

//  Note that I just now changed the name to mcrowne_inline_isqrt, so people can compile my full test.
static uint32_t mcrowne_inline_isqrt(uint32_t val)
{
    uint32_t root = 0;

    if(val >= 0x40000000)
    {
        root = 0x8000; 
        val -= 0x40000000;
    }

    inner_isqrt(15, val, root);
    inner_isqrt(14, val, root);
    inner_isqrt(13, val, root);
    inner_isqrt(12, val, root);
    inner_isqrt(11, val, root);
    inner_isqrt(10, val, root);
    inner_isqrt(9, val, root);
    inner_isqrt(8, val, root);
    inner_isqrt(7, val, root);
    inner_isqrt(6, val, root);
    inner_isqrt(5, val, root);
    inner_isqrt(4, val, root);
    inner_isqrt(3, val, root);
    inner_isqrt(2, val, root);

    const uint32_t temp = root + root + 1;
    if (val >= temp)
        root++;
    return root;
}

无论我做什么，内联函数总是比宏慢。对于使用 -O2 构建的 (2^28 - 1) 次迭代，宏版本的时间通常约为 2.92 秒，而内联版本的时间通常约为 3.25 秒。编辑：我之前说过 2^32 - 1 次迭代，但我忘记了我已经改变了它。对于整个色域来说，它们需要更长的时间。

编译器可能只是愚蠢并拒绝内联它（再次注意always_inline属性！），但如果是这样，那么无论如何这都会使宏版本通常更可取。（我尝试检查程序集来查看，但它作为程序的一部分太复杂了。当然，当我尝试仅编译函数时，优化器忽略了所有内容，并且由于 GCC 的新手性，我在将其编译为库时遇到了问题.)

简而言之，有没有一种方法可以将其编写为内联而不影响速度？（我没有介绍过，但 sqrt 是应该始终快速完成的基本操作之一，因为我可能会在许多其他程序中使用它，而不仅仅是我当前感兴趣的程序。此外，我只是好奇.)

我什至尝试使用模板来“烘焙”常量值，但我感觉其他两个参数更有可能导致命中（宏可以避免这种情况，因为它直接使用局部变量）。好吧，要么是编译器顽固地拒绝内联。

更新：下面的 user1034749 当他将两个函数放入单独的文件并编译它们时，从这两个函数中获得相同的程序集输出。我尝试了他的确切命令行，并且得到了与他相同的结果。出于所有意图和目的，这个问题已经解决了。

但是，我仍然想知道为什么我的测量结果有所不同。显然，我的测量代码或原始构建过程导致事情有所不同。我将在下面发布代码。有谁知道这笔交易是什么？也许我的编译器实际上在我的 main() 函数的循环中内联了整个 mcrowne_isqrt() 函数，但它并没有内联整个其他版本？

更新2（在测试代码之前压缩）：请注意，如果我交换测试的顺序并使内联版本首先出现，则内联版本的速度比宏版本快相同的数量。这是缓存问题，还是编译器内联一个调用但不内联另一个调用，或者什么？

#include <iostream>
#include <time.h>      //  Linux high-resolution timer
#include <stdint.h>

/*  Functions go here */

timespec timespecdiff(const timespec& start, const timespec& end)
{
    timespec elapsed;
    timespec endmod = end;
    if(endmod.tv_nsec < start.tv_nsec)
    {
        endmod.tv_sec -= 1;
        endmod.tv_nsec += 1000000000;
    }

    elapsed.tv_sec = endmod.tv_sec - start.tv_sec;
    elapsed.tv_nsec = endmod.tv_nsec - start.tv_nsec;
    return elapsed;
}


int main()
{
    uint64_t inputlimit = 4294967295;
    //  Test a wide range of values
    uint64_t widestep = 16;

    timespec start, end;

    //  Time macro version:
    uint32_t sum = 0;
    clock_gettime(CLOCK_PROCESS_CPUTIME_ID, &start);
    for(uint64_t num = (widestep - 1); num <= inputlimit; num += widestep)
    {
        sum += mcrowne_isqrt(uint32_t(num));
    }
    clock_gettime(CLOCK_PROCESS_CPUTIME_ID, &end);
    timespec markcrowntime = timespecdiff(start, end);
    std::cout << "Done timing Mark Crowne's sqrt variant.  Sum of results = " << sum << " (to avoid over-optimization)." << std::endl;


    //  Time inline version:
    sum = 0;
    clock_gettime(CLOCK_PROCESS_CPUTIME_ID, &start);
    for(uint64_t num = (widestep - 1); num <= inputlimit; num += widestep)
    {
        sum += mcrowne_inline_isqrt(uint32_t(num));
    }
    clock_gettime(CLOCK_PROCESS_CPUTIME_ID, &end);
    timespec markcrowninlinetime = timespecdiff(start, end);
    std::cout << "Done timing Mark Crowne's inline sqrt variant.  Sum of results = " << sum << " (to avoid over-optimization)." << std::endl;

    //  Results:
    std::cout << "Mark Crowne sqrt variant time:\t" << markcrowntime.tv_sec << "s, " << markcrowntime.tv_nsec << "ns" << std::endl;
    std::cout << "Mark Crowne inline sqrt variant time:\t" << markcrowninlinetime.tv_sec << "s, " << markcrowninlinetime.tv_nsec << "ns" << std::endl;
    std::cout << std::endl;
}

更新 3：我仍然不知道如何可靠地比较不同函数的时间，而不需要根据测试顺序来确定时间。我非常感谢任何提示！

然而，如果阅读本文的其他人对快速 sqrt 实现感兴趣，我应该提到：Mark Crowne 的代码测试速度比我尝试过的任何其他纯 C/C++ 版本都要快（尽管测试存在可靠性问题），但以下内容对于标量 32 位整数 sqrt，SSE 代码似乎仍然更快一些。不过，它不能在不损失精度的情况下推广到成熟的 64 位无符号整数输入（并且第一个有符号转换也必须替换为加载内在函数以处理 >= 2^63 的值）：

uint32_t sse_sqrt(uint64_t num)
{
    //  Uses 64-bit input, because SSE conversion functions treat all
    //  integers as signed (so conversion from a 32-bit value >= 2^31
    //  will be interpreted as negative).  As it stands, this function
    //  will similarly fail for values >= 2^63.
    //  It can also probably be made faster, since it generates a strange/
    //  useless movsd %xmm0,%xmm0 instruction before the sqrtsd.  It clears
    //  xmm0 first too with xorpd (seems unnecessary, but I could be wrong).
    __m128d result;
    __m128d num_as_sse_double = _mm_cvtsi64_sd(result, num);
    result = _mm_sqrt_sd(num_as_sse_double, num_as_sse_double);
    return _mm_cvttsd_si32(result);
}

我用 gcc 4.5.3 尝试了你的代码。我修改了你的第二个版本的代码以匹配第一个版本，例如：

(1 << ((s) * 2 - 2)

(1 << ((s << 1) - 1)

是的，s * 2 == s

另外我修改了你的类型，将 uint32_t 替换为“unsigned long”，因为在我的 64 位机器上“long”不是 32 位数字。

然后我运行：

g++ -ggdb -O2 -march=native -c -pipe inline.cpp
g++ -ggdb -O2 -march=native -c -pipe macros.cpp
objdump -d inline.o > inline.s
objdump -d macros.o > macros.s

我可以使用“-S”而不是“-c”来进行汇编，但我希望看到没有附加信息的汇编程序。

你知道吗？
汇编器完全一样，在第一个和第二个版本中。所以我认为你的时间测量是错误的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

我可以将此宏更改为内联函数而不影响性能吗？的相关文章

为什么存在 async 关键字

浏览 msdn 9 频道视频时我发现以下未答复的评论希望有人能解释一下我不明白 async 关键字的意义为什么不直接允许任何时候方法返回任务时都会使用await关键字就像迭代器一样可以在任何返回 IEnumerable 的方法
clang 格式换行符在错误的位置

给出以下代码行 get abc manager get platform status abc platform status sw update status fill update status actions allowed stat
如何使用 zlib 制作 .zip 文件

我正在阅读zlib的文档它相当详细但我读到了这一行输出数据将位于zlib格式与 gzip 或zip formats http www zlib net zlib how html http www zlib net zlib how
分段错误（核心转储）错误

我的程序编译罚款但在输入文件时出现分段错误核心转储错误我没有正确处理 ostream 吗 include
内联函数/方法

声明内联函数必须在调用之前定义这个说法正确吗 EDIT 该问题最初是德语内联功能穆森弗伊赫雷姆奥夫鲁夫定义 sein 也许它对任何人都有帮助是的它是正确的但只是部分正确它可能正确地重新构建如下内联函数必须在每个翻译单位
在 C# 中生成 HMAC-SHA1

我正在尝试使用 C 来使用 REST API API 创建者提供了以下用于 hmac 创建的伪代码 var key1 sha1 body var key2 key1 SECRET KEY var key3 sha1 key2 var sig
(const T v) 在 C 中从来都不是必需的，对吗？

例如 void func const int i 在这里 const是不必要的因为所有参数都是按值传递的包括指针真的吗 C 中的所有参数确实都是按值传递这意味着无论您是否包含该参数实际参数都不会改变const or not 然而
CultureInfo 的实例（来自相同的文化）根据操作系统而变化

我有一个网站上面写着这样的日期 CultureInfo cultureInfo CultureInfo GetCultures CultureTypes AllCultures FirstOrDefault c gt string Equ
从 C 结构生成 C# 结构

我有几十个 C 结构我需要在 C 中使用它们典型的 C 结构如下所示 typedef struct UM EVENT ULONG32 Id ULONG32 Orgin ULONG32 OperationType ULONG32 Size
如何创建用于 QML 的通用对象模型？

我想知道是否有任何宏或方法如何将 Qt 模型注册为 QObject 的属性例如我有AnimalModel http doc qt io qt 5 qtquick modelviewsdata cppmodels html qabstra
劫持系统调用

我正在编写一个内核模块我需要劫持包装一些系统调用我正在暴力破解 sys call table 地址并使用 cr0 来禁用启用页面保护到目前为止一切顺利一旦完成我将公开整个代码因此如果有人愿意我可以更新这个问题无论如何
将带有 glut 的点击坐标添加到向量链接列表中

我想创建一个向量链接列表并在 GLUT 库的帮助下获取点击的位置并将它们附加到链接列表中这些是我写的结构 typedef struct vector int x int y Vector typedef struct VectorLis
预处理后解析 C++ 源文件

我正在尝试分析c 使用我定制的解析器的文件写在c 在开始解析之前我想摆脱所有 define 我希望源文件在预处理后可以编译所以最好的方法是运行C Preprocessor在文件上 cpp myfile cpp temp cpp or
默认析构函数做了多少事情

C 类中的默认析构函数是否会自动删除代码中未显式分配的成员例如 class C public C int arr 100 int main void C myC new C delete myC return 0 删除 myC 会自动释放
WPF。如何从另一个窗口隐藏/显示主窗口

我有两个窗口 MainWindow 和 Login 显示登录的按钮位于主窗口 this Hide Login li new Login li Show 登录窗口上有一个检查密码的按钮如果密码正确我如何显示主窗口将参数传递给 MainW
使用 mingw32 在 Windows 上构建 glew 时“DllMainCRTStartup@12”的多个定义

我关注了这个主题使用 mingw 使建筑物在 Windows 上闪闪发光 https stackoverflow com questions 6005076 building glew on windows with mingw 6005
使用 HTMLAgilityPack 从节点的子节点中选择所有

我有以下代码用于获取 html 页面将网址设置为绝对然后将链接设置为 rel nofollow 并在新窗口选项卡中打开我的问题是关于将属性添加到 a s string url http www mysite com string s
C++、三元运算符、std::cout

如何使用 C 用三元运算符编写以下条件 int condition1 condition2 condition3 int double result int or double std cout lt lt condition1 resul
以 UTF8 而不是 UTF16 输出 DataTable XML

我有一个 DataTable 我正在使用 WriteXML 创建一个 XML 文件尽管我在以 UTF 16 编码导出它时遇到问题并且似乎没有明显的方法来更改它我了解 NET 在字符串内部使用 UTF 16 这是正确的吗然后我通过
服务器响应 PASV 命令返回的地址与建立 FTP 连接的地址不同

System Net WebException 服务器响应 PASV 命令返回的地址与建立 FTP 连接的地址不同在 System Net FtpWebRequest CheckError 在 System Net FtpWebReque

随机推荐

显示多行python控制台ascii动画

我正在玩控制台动画我发现制作一行很容易但我开始考虑在控制台中将 GIF 动画制作为 ASCII 的想法 import time def main counter 0 while True with open ascii path dog
直观地识别 PDF 表单中的字段名称

我知道存在一些类似的问题查找 PDF 文档中可输入表单字段的字段名称 https stackoverflow com questions 3310533 find the field names of inputtable form fi
使用 jQuery 查找可见元素的长度

大家好我需要找到仅具有显示块的所有 li 元素的长度使用 jQuery 怎么可能做到这一点我有一个类别菜单块底部有更多链接单击该链接将显示所有类别底部链接现在变为更少单击该链接将显示更少的项目这是代码 var list m
从基指针向下转换为模板化派生类型

我有以下层次结构 class base public virtual base virtual void foo template
将参数传递给超类构造函数，而不在子类构造函数中重复它们

class P object def init self a b self a a self b b class C P def init self c P init self c c obj C a b c want to instant
带await 的异步lambda 表达式返回任务？

我有以下代码 Get all of the files from the local storage directory var files await folder GetFilesAsync Map each file to a str
使用 PHP 删除 MS Word“HTML”[重复]

这个问题在这里已经有答案了可能的重复清理 Word HTML 的最佳免费方法是什么 https stackoverflow com questions 67964 what is the best free way to clean u
使用哪种数据类型来操纵货币

我正在尝试决定金融应用程序应使用哪种数据类型我读过Double or BigDecimal应该使用我对他们之间感到困惑在这方面的任何帮助将受到高度赞赏您几乎肯定不想使用浮点类型 double float Double Float 来
Android版本支持推送通知

需要帮助在 android 中实现推送通知想知道从哪个android版本开始支持推送通知当我在android中搜索Android通知服务时我看到了C2DM 它将在android 2 2之后支持如果1 5之后支持请告诉我有哪些选项可
ADS 2019 - 如何在构建作业之间传递变量

使用 Azure DevOps Server 2019 1 我开始处理多个作业以允许我将工作分配给多个代理流程本身运行良好我有这样的设置开始工作这基本上测试了一些变量并更新了内部版本号取决于开始作业 RunTest 作业运行
我可以用什么来代替 eval()？

我有一个字符串存储一些必须执行才能产生结果的变量例如 define RUN THIS something somethingElse 那么哪个是eval uated foo eval return RUN THIS 我知道如果评估的字符
CSS 工具提示既可通过键盘导航，又可通过触摸屏操作

这是我第一次在这里发帖但多年来我发现这个网站是一个非常宝贵的存储库我最近一直在向网站表单添加工具提示最初我关心的是当鼠标用户将鼠标悬停在工具提示图标上时在我的例子中只是使这些工作正常我使用了以下 CSS tooltip bor
为什么添加自定义 SASS 变量在 Ionic 中不起作用？

我使用 s 选项设置一个新的 ionic 项目来启用 SASS 这是我的 myproject scss ionic app scss 的一部分 positive 2a8000 default button font size 30px de
LookupError：应用程序“用户”没有“用户”模型

姜戈 1 9 7 我正在使用 pyenv virtualenv autoenv 我想扩展用户模型所以我决定使用AbstractUser 摘要用户的class METAAbstract True 所以我不能制作表格但是继承类可以制作表格
如何在 IIS 7 应用程序池中设置 .net Framework 4.5 版本

我安装了 Visual Studio 11 Beta 突然我在 VS 11 Developer 预览版下创建的所有异步操作方法开始挂起显然是这个问题 http blogs msdn com b pfxteam archive 2012 0
致命错误：调用 C:\xampp\htdocs 中未定义的函数 sqlsrv_connect()

我在用 Xampp 版本 3 2 1 和 PHP 版本 5 6 8 微软Azure SQL服务器 GOAL 我正在尝试创建一个网络应用程序来访问我的数据库并且能够SELECT INSERT UPDATE and DELETE记录 PROB
多播 IP 地址 - 在调用 recvfrom 时被阻止

我正在编写一个简单的多播应用程序我打算在本地主机上运行它我做了以下事情 char maddr sendfd socket struct sockaddr in sasend sasend sin family AF INET sasen
更改 UILabel 行数后调整 UIStackView 的大小

我的 iOS 应用程序有一个带有一个 UITableViewCell 的表格视图其布局如下 1 个堆栈视图包含 2 个标签和 1 个按钮当用户点击按钮时中央标签的行数从 0 变为 2 如下所示现在这里有两个问题 1 调整UIStac
基于多个单元格值的 Excel 宏过滤器

我有一个简单的宏可以根据 A13 单元格中的值过滤行效果很好 With ActiveSheet Range B2 F5000 AutoFilter Field 2 Criteria1 Range A13 End With 但我需要为此过
我可以将此宏更改为内联函数而不影响性能吗？

编辑让我们将其命名为测量如何出错的教训但我仍然没有弄清楚到底是什么导致了差异我发现了一个非常快的整数平方根函数here http www azillionmonkeys com qed sqroot html作者马克克朗至少在

我可以将此宏更改为内联函数而不影响性能吗？

我可以将此宏更改为内联函数而不影响性能吗？ 的相关文章

随机推荐

热门标签

我可以将此宏更改为内联函数而不影响性能吗？的相关文章