可以优化 std::visit 吗？

2024-04-06

使用时std::visit / std::variant我在探查器输出中看到std::__detail::__variant::__gen_vtable_impl函数占用的时间最多。

我做了这样的测试：

// 3 class families, all like this
class ElementDerivedN: public ElementBase
{
    ...
        std::variant<ElementDerived1*, ElementDerived2*,... > GetVariant() override { return this; }
}

std::vector<Element*> elements;
std::vector<Visitor*> visitors;
std::vector<Third*>   thirds;

// prepare a hack to get dynamic function object:
template<class... Ts> struct funcs : Ts... { using Ts::operator()...; };
template<class... Ts> funcs(Ts...) -> funcs<Ts...>;

// demo functions:
struct Actions { template < typename R, typename S, typename T> void operator()( R*, S*, T* ) {} };
struct SpecialActionForElement1{ template < typename S, typename T > void operator()( Element1*, S*, T* ) {} };


for ( auto el: elements )
{
    for ( auto vis: visitors )
    {
        for ( auto th: thirds )
        {
            std::visit( funcs{ Actions(), SpecialActionForElement1Derived1()}, el->GetVariant(), vis->GetVariant(), th->GetVariant() );
        }
    }
}

正如所说，std::__detail::__variant::__gen_vtable_impl<...>花费最多的时间。

问：由于每次访问调用时生成的 n 维函数数组在每次调用之间都是相同的，因此最好将其保留在调用之间std::visit。那可能吗？

也许我走错了路，如果是这样，请告诉我！

编辑：使用标准 Fedora 安装中的编译器 gcc7.3。 std-lib 被用作 g++ 中的标准（这是什么）

构建选项：

g++ --std=c++17 -fno-rtti main.cpp -O3 -g -o go

我刚刚看了一个更简单的example https://gcc.godbolt.org/#g:!((g:!((g:!((h:codeEditor,i:(j:1,lang:c%2B%2B,source:'%23include+%3Cvariant%3E%0A%0Adouble+test(std::variant%3Cint,+double%3E+v1,+std::variant%3Cint,+double%3E+v2)+%7B%0A++++return+std::visit(%5B%5D(auto+a,+auto+b)+-%3E+double+%7B%0A++++++++return+a+%2B+b%3B%0A++++++++%7D,+v1,+v2)%3B%0A%7D%0A'),l:'5',n:'0',o:'C%2B%2B+source+%231',t:'0')),k:33.333333333333336,l:'4',n:'0',o:'',s:0,t:'0'),(g:!((h:compiler,i:(compiler:g73,filters:(b:'0',binary:'1',commentOnly:'0',demangle:'0',directives:'0',execute:'1',intel:'0',trim:'0'),lang:c%2B%2B,libs:!(),options:'-std%3Dc%2B%2B17+-O3+-Wall',source:1),l:'5',n:'0',o:'x86-64+gcc+7.3+(Editor+%231,+Compiler+%231)+C%2B%2B',t:'0')),k:33.333333333333336,l:'4',n:'0',o:'',s:0,t:'0'),(g:!((h:output,i:(compiler:1,editor:1),l:'5',n:'0',o:'%231+with+x86-64+gcc+7.3',t:'0')),k:33.33333333333333,l:'4',n:'0',o:'',s:0,t:'0')),l:'2',n:'0',o:'',t:'0')),version:4。该表是在编译时生成的。时间可能花在生成的 lambda 上std::__detail::__variant::__gen_vtable_impl<...>。由于某种原因，这些基本上调用访问者的 lambda 不会忽略对变体实际类型的检查。

此函数允许编译器为访问 lambda 的四个不同版本创建代码，内联到深层创建的 lambda 中std::visit并将指向这些 lambda 表达式的指针存储在静态数组中：

double test(std::variant<int, double> v1, std::variant<int, double> v2) {
    return std::visit([](auto a, auto b) -> double {
        return a + b;
        }, v1, v2);
}

这是在测试中创建的：

  (...) ; load variant tags and check for bad variant
  lea rax, [rcx+rax*2] ; compute index in array
  mov rdx, rsi
  mov rsi, rdi
  lea rdi, [rsp+15]
  ; index into vtable with rax
  call [QWORD PTR std::__detail::__variant::(... bla lambda bla ...)::S_vtable[0+rax*8]]

这是为<double, double>游客：

std::__detail::__variant::__gen_vtable_impl<std::__detail::__variant::_Multi_array<double (*)(test(std::variant<int, double>, std::variant<int, double>)::{lambda(auto:1, auto:2)#1}&&, std::variant<int, double>&, test(std::variant<int, double>, std::variant<int, double>)::{lambda(auto:1, auto:2)#1}&&)>, std::tuple<test(std::variant<int, double>, std::variant<int, double>)::{lambda(auto:1, auto:2)#1}&&, test(std::variant<int, double>, std::variant<int, double>)::{lambda(auto:1, auto:2)#1}&&>, std::integer_sequence<unsigned long, 1ul, 1ul> >::__visit_invoke(test(std::variant<int, double>, std::variant<int, double>)::{lambda(auto:1, auto:2)#1}, test(std::variant<int, double>, std::variant<int, double>)::{lambda(auto:1, auto:2)#1}&&, test(std::variant<int, double>, std::variant<int, double>)::{lambda(auto:1, auto:2)#1}&&):
; whew, that is a long name :-)
; redundant checks are performed whether we are accessing variants of the correct type:
      cmp BYTE PTR [rdx+8], 1
      jne .L15
      cmp BYTE PTR [rsi+8], 1
      jne .L15
; the actual computation:
      movsd xmm0, QWORD PTR [rsi]
      addsd xmm0, QWORD PTR [rdx]
      ret

如果探查器将这些类型检查的时间和内联访问者的时间归因于std::__detail::__variant::__gen_vtable_impl<...>，而不是为您提供深度嵌套 lambda 的完整 800 多个字符名称。

我在这里看到的唯一通用优化潜力是省略对 lambda 中错误变体的检查。由于 lambda 是通过函数指针仅使用匹配的变体来调用的，因此编译器将很难静态地发现检查是多余的。

我看了一下使用 clang 和 libc++ 编译的相同示例 https://gcc.godbolt.org/#g:!((g:!((g:!((h:codeEditor,i:(j:1,lang:c%2B%2B,source:'%23include+%3Cvariant%3E%0A%0Adouble+test(std::variant%3Cint,+double%3E+v1,+std::variant%3Cint,+double%3E+v2)+%7B%0A++++return+std::visit(%5B%5D(auto+a,+auto+b)+-%3E+double+%7B%0A++++++++return+a+%2B+b%3B%0A++++++++%7D,+v1,+v2)%3B%0A%7D%0A'),l:'5',n:'0',o:'C%2B%2B+source+%231',t:'0')),k:33.333333333333336,l:'4',n:'0',o:'',s:0,t:'0'),(g:!((h:compiler,i:(compiler:clang600,filters:(b:'0',binary:'1',commentOnly:'0',demangle:'0',directives:'0',execute:'1',intel:'0',trim:'0'),lang:c%2B%2B,libs:!(),options:'-std%3Dc%2B%2B17+-O3+-Wall+-stdlib%3Dlibc%2B%2B',source:1),l:'5',n:'0',o:'x86-64+clang+6.0.0+(Editor+%231,+Compiler+%231)+C%2B%2B',t:'0')),k:33.333333333333336,l:'4',n:'0',o:'',s:0,t:'0'),(g:!((h:output,i:(compiler:1,editor:1),l:'5',n:'0',o:'%231+with+x86-64+clang+6.0.0',t:'0')),k:33.33333333333333,l:'4',n:'0',o:'',s:0,t:'0')),l:'2',n:'0',o:'',t:'0')),version:4。在 libc++ 中，冗余类型检查被消除，因此 libstdc++ 还不是最优的。

decltype(auto) std::__1::__variant_detail::__visitation::__base::__dispatcher<1ul, 1ul>::__dispatch<std::__1::__variant_detail::__visitation::__variant::__value_visitor<test(std::__1::variant<int, double>, std::__1::variant<int, double>)::$_0>&&, std::__1::__variant_detail::__base<(std::__1::__variant_detail::_Trait)0, int, double>&, std::__1::__variant_detail::__base<(std::__1::__variant_detail::_Trait)0, int, double>&>(std::__1::__variant_detail::__visitation::__variant::__value_visitor<test(std::__1::variant<int, double>, std::__1::variant<int, double>)::$_0>&&, std::__1::__variant_detail::__base<(std::__1::__variant_detail::_Trait)0, int, double>&, std::__1::__variant_detail::__base<(std::__1::__variant_detail::_Trait)0, int, double>&): # @"decltype(auto) std::__1::__variant_detail::__visitation::__base::__dispatcher<1ul, 1ul>::__dispatch<std::__1::__variant_detail::__visitation::__variant::__value_visitor<test(std::__1::variant<int, double>, std::__1::variant<int, double>)::$_0>&&, std::__1::__variant_detail::__base<(std::__1::__variant_detail::_Trait)0, int, double>&, std::__1::__variant_detail::__base<(std::__1::__variant_detail::_Trait)0, int, double>&>(std::__1::__variant_detail::__visitation::__variant::__value_visitor<test(std::__1::variant<int, double>, std::__1::variant<int, double>)::$_0>&&, std::__1::__variant_detail::__base<(std::__1::__variant_detail::_Trait)0, int, double>&, std::__1::__variant_detail::__base<(std::__1::__variant_detail::_Trait)0, int, double>&)"
  ; no redundant check here
  movsd xmm0, qword ptr [rsi] # xmm0 = mem[0],zero
  addsd xmm0, qword ptr [rdx]
  ret

也许您可以检查生产软件中实际生成的代码，以防万一它与我在示例中发现的代码不相似。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

可以优化 std::visit 吗？的相关文章

是否可以强制 XMLWriter 将元素写入单引号中？

这是我的代码 var ptFirstName tboxFirstName Text writer WriteAttributeString first ptFirstName 请注意即使我使用 ptFirstName 也会以双引号结束 p
当我使用“control-c”关闭发送对等方的套接字时，为什么接收对等方的套接字不断接收“”

我是套接字编程的新手我知道使用 control c 关闭套接字是一个坏习惯但是为什么在我使用 control c 关闭发送进程后接收方上的套接字不断接收在 control c 退出进程后发送方的套接字不应该关闭吗谢谢我知道使用
将数组向左或向右旋转一定数量的位置，复杂度为 o(n)

我想编写一个程序根据用户的输入正 gt 负 include
pthread_cond_timedwait() 和 pthread_cond_broadcast() 解释

因此我在堆栈溢出和其他资源上进行了大量搜索但我无法理解有关上述函数的一些内容具体来说 1 当pthread cond timedwait 因为定时器值用完而返回时它如何自动重新获取互斥锁互斥锁可能被锁定在其他地方例如在生产者
如何忽略“有符号和无符号整数表达式之间的比较”？

谁能告诉我必须使用哪个标志才能使 gcc 忽略有符号和无符号整数表达式之间的比较警告消息 gcc Wno sign compare 但你确实应该修复它警告你的比较
将布尔参数传递给 SQL Server 存储过程

我早些时候问过这个问题我以为我找到了问题所在但我没有我在将布尔参数传递给存储过程时遇到问题这是我的 C 代码 public bool upload false protected void showDate object sende
指针问题（仅在发布版本中）

不确定如何描述这一点但我在这里由于某种原因当尝试创建我的游戏的发布版本进行测试时它的敌人创建方面不起作用 Enemies e level1 3 e level1 0 Enemies sdlLib 500 2 3 128 250 32
在 Visual Studio 2008 上设置预调试事件

我想在 Visual Studio 中开始调试程序之前运行一个任务我每次调试程序时都需要运行此任务因此构建后事件还不够好我查看了设置的调试选项卡但没有这样的选项有什么办法可以做到这一点吗你唯一可以尝试的 IMO 就是尝试Co
将目录压缩为单个文件的方法有哪些

不知道怎么问所以我会解释一下情况我需要存储一些压缩文件最初的想法是创建一个文件夹并存储所需数量的压缩文件并创建一个文件来保存有关每个压缩文件的数据但是我不被允许创建许多文件只能有一个我决定创建一个压缩文件其中包含有关进一步
Web API - 访问 DbContext 类中的 HttpContext

在我的 C Web API 应用程序中我添加了CreatedDate and CreatedBy所有表中的列现在每当在任何表中添加新记录时我想填充这些列为此目的我已经覆盖SaveChanges and SaveChangesAsy
vector 超出范围后不清除内存

我遇到了以下问题我不确定我是否错了或者它是一个非常奇怪的错误我填充了一个巨大的字符串数组并希望在某个点将其清除这是一个最小的例子 include
从路径中获取文件夹名称

我有一些路c server folderName1 another name something another folder 我如何从那里提取最后一个文件夹名称我尝试了几件事但没有成功我只是不想寻找最后的然后就去休息了 Thank
for循环中计数器变量的范围是多少？

我在 Visual Studio 2008 中收到以下错误 Error 1 A local variable named i cannot be declared in this scope because it would give a
如何将单个 char 转换为 int [重复]

这个问题在这里已经有答案了我有一串数字例如 123456789 我需要提取它们中的每一个以在计算中使用它们我当然可以通过索引访问每个字符但是如何将其转换为 int 我研究过 atoi 但它需要一个字符串作为参数因此我必须将每个字
如何使我的表单标题栏遵循 Windows 深色主题？

我已经下载了Windows 10更新包括黑暗主题文件资源管理器等都是深色主题但是当我创建自己的 C 表单应用程序时标题栏是亮白色的如何使我自己的桌面应用程序遵循我在 Windows 中设置的深色主题你需要调用DwmSetWindo
C++ fmt 库，仅使用格式说明符格式化单个参数

使用 C fmt 库并给定一个裸格式说明符有没有办法使用它来格式化单个参数 example std string str magic format 2f 1 23 current method template
如何让Gtk+窗口背景透明？

我想让 Gtk 窗口的背景透明以便只有窗口中的小部件可见我找到了一些教程 http mikehearn wordpress com 2006 03 26 gtk windows with alpha channels https web
Process.Start 阻塞

我正在调用 Process Start 但它会阻止当前线程 pInfo new ProcessStartInfo C Windows notepad exe Start process mProcess new Process mProce
x86 上未对齐的指针

有人可以提供一个示例将指针从一种类型转换为另一种类型由于未对齐而失败吗在评论中这个答案 https stackoverflow com questions 544928 reading integer size bytes from a
ASP.NET MVC 6 (ASP.NET 5) 中的 Application_PreSendRequestHeaders 和 Application_BeginRequest

如何在 ASP NET 5 MVC6 中使用这些方法在 MVC5 中我在 Global asax 中使用了它现在呢也许是入门班 protected void Application PreSendRequestHeaders obj

随机推荐

如何创建 DOM 构造函数的实例？

当我尝试创建 DOM 的 HTMLElement 实例时 var oElement new HTMLElement 它抛出类型错误非法构造函数为什么我们不能实例化 DOM 的构造函数有办法做到吗谢谢要使用 Javascript
自动缩进：smartindent 和 indentexpr

当我编辑 Python 文件时例如 def my func print Something lt CURSOR IS HERE 我想通过输入添加评论该行会自动重新缩进到该行的开头 def my func print Something
createwindow(...)之后，如何给窗口赋予颜色？

我创建了一个窗口其句柄是handle parent 然后我创建了一个子窗口如下所示 hwnd child CreateWindow child class name T WS CHILDWINDOW 0 0 0 0 hwnd paren
使用 Rails 进行带宽管理？

我想知道是否有人知道一种可以在 Rails 应用程序中以不依赖于 Web 服务器的方式管理带宽的方法例如每个帐户都有带宽限制进出境交通是否会从每月津贴中扣除一种选择是在 application rb 中添加 after filter
如何在 IE8 中禁用 body.blur()？

我正在开发一个在 IE8 中运行的企业 Web 应用程序它出现blur 在主体上调用导致 IE 窗口被发送到后台不幸的是此代码位于由供应商控制的应用程序的一部分中有什么可能的方法来预防blur 在不修改实际调用的代码的情况下在主体上
在 Rails 控制器操作中渲染 html 时模板丢失错误

我正在尝试使用 render html 从控制器操作中渲染原始 html class SomeController lt ApplicationController def raw html render html Some body te
Seaborn Jointplot 为每个类别添加颜色

我想使用seaborn绘制2个变量的相关图jointplot 我尝试了很多不同的方法但我无法根据类别为点添加颜色这是我的代码 import numpy as np import seaborn as sns import matplot
使用 EEPlus 读取 Excel 文件时，Excel 日期字段值与 C# dateTime 相差 1 天

我在使用 EEPlus 库从 Excel xlsx 文件获取正确的日期字段值时遇到问题特殊的问题是在 excel 中我有例如1900 01 04 但在 C 中我得到 1900 01 03 我有一个想法当我从 Excel 读取日期值时
puppeteer 无法在浏览器中加载 chrome 扩展

这是我第一次使用 puppeteer 我想打开 google chrome 页面并导航到我已安装的 chrome 扩展我尝试启用 chrome 扩展但是当我在中运行脚本时headless false模式下浏览器会弹出没有我的扩展程序
Multidex 后 Robolectric 单元测试失败

因此我最近将 robolectric 3 0 升级与我们的主线合并这为我们的应用程序添加了 multidex 支持不幸的是这带来了不幸的副作用导致我们的测试失败无法运行它们只会在第一次尝试安装 MultiDex 失败后停止堆
vue：如何使传递给组件的对象具有反应性？

Codepen 演示 https codepen io lzl124631x pen PayPVp editors 1010 我有一个组件有一个location对象为props 我传入的参数是locations index 这是从 a 中选
有谁知道为什么我收到 HttpWebRequest 超时？

我想知道你是否可以帮助我解决我遇到的错误我创建了一个 HTTP 管理器可以帮助我处理来自网站的 POSTing GETing 数据直到最近我尝试混合使用两者时它一直工作得很好第一个循环一切正常在第二个循环中它挂在 HttpWeb
进行托管到本机互操作时操作系统加载程序锁定

我正在使用以下命令将本机控件 C 加载到 WPF 控件中HwndHost http msdn microsoft com en us library system windows interop hwndhost 28v vs 110 29
使用加速度计获取相对于地平面的设备平面

假设 iPhone 放置在平坦的桌子上我想确定桌面平面的角度其中角度 0 意味着桌子完全垂直于重力矢量我正在使用以下公式 radians atanf z sqrt x 2 y 2 在 h中 double accelerationXAv
如何防止Scala编译时出现java.lang.OutOfMemoryError: PermGen space？

我注意到我的 scala 编译器有一个奇怪的行为编译类时偶尔会抛出 OutOfMemoryError 这是错误消息 info Compiling 1 Scala source to Users gruetter Workspaces sc
我的自定义 AuthorizationPolicy.Evaluate() 方法永远不会触发

我创建了一个具有自定义授权和身份验证的 wcf 服务如您所见 public class AuthorizationPolicy IAuthorizationPolicy string id Guid NewGuid ToString pu
为什么对数组原型的这种更改在我的 jQuery 插件中不起作用？

我已将以下方法添加到数组原型中 Array prototype foreach function func for var i 0 i lt this length i if func this i false break return f
什么是 Vue 3 组合 API 定义方法的类型安全方式

我正在使用 Vue 的组合 API 在 Vue js 3 中并主要在内部构建我的组件逻辑setup While 访问我自己的道具 https v3 vuejs org guide composition api setup html pr
外设传输队列问题

我正在开发一个围绕 CoreBluetooth 的简单包装器用于将任何数据发送到任何设备在开发过程中我在框架中遇到了很多错误它们非常烦人为了使我的包装器稳定我必须缩短一些功能以提高可靠性现在我正在努力从外围设备发送数据好的
可以优化 std::visit 吗？

使用时std visit std variant我在探查器输出中看到std detail variant gen vtable impl函数占用的时间最多我做了这样的测试 3 class families all like this cl

可以优化 std::visit 吗？

可以优化 std::visit 吗？ 的相关文章

随机推荐

热门标签

可以优化 std::visit 吗？的相关文章