为什么 PyTorch C++ 扩展比其等效的 numba 版本慢得多？

2023-12-20

我一直在尝试各种选项来加速 PyTorch 中的一些 for 循环逻辑。这样做的两个明显的选择是使用numba https://stackoverflow.com/a/75580380/1804173 or 编写自定义 C++ 扩展 https://pytorch.org/tutorials/advanced/cpp_extension.html.

作为一个例子，我从数字信号处理中选择了“可变长度延迟线”。使用简单的 Python for 循环可以简单但低效地编写此代码：

def delay_line(samples, delays):
    """
    :param samples: Float tensor of shape (N,)
    :param delays: Int tensor of shape (N,)
    
    The goal is basically to mix each `samples[i]` with the delayed sample
    specified by a per-sample `delays[i]`.
    """
    for i in range(len(samples)):
        delay = int(delays[i].item())
        index_delayed = i - delay
        if index_delayed < 0:
            index_delayed = 0

        samples[i] = 0.5 * (samples[i] + samples[index_delayed])

知道 for 循环在 Python 中的执行情况有多糟糕，我希望通过在 C++ 中实现相同的循环可以获得明显更好的性能。下列的教程 https://pytorch.org/tutorials/advanced/cpp_extension.html，我想出了从 Python 到 C++ 的直译：

void delay_line(torch::Tensor samples, torch::Tensor delays) {

  int64_t input_size = samples.size(-1);

  for (int64_t i = 0; i < input_size; ++i) {
    int64_t delay = delays[i].item<int64_t>();
    int64_t index_delayed = i - delay;
    if (index_delayed < 0) {
      index_delayed = 0;
    }

    samples[i] = 0.5 * (samples[i] + samples[index_delayed]);
  }
}

我还采用了 Python 函数并将其包装到各种 jit 装饰器中以获得该函数的 numba 和 torchscript 版本（请参阅我的其他answer https://stackoverflow.com/a/75580380/1804173有关 numba 包装的详细信息）。然后，我对所有版本执行了基准测试，这还取决于张量是驻留在 CPU 还是 GPU 上。结果相当令人惊讶：

╭──────────────┬──────────┬────────────────────╮
│ Method       │ Device   │   Median time [ms] │
├──────────────┼──────────┼────────────────────┤
│ plain_python │ CPU      │             13.481 │
│ torchscript  │ CPU      │              6.318 │
│ numba        │ CPU      │              0.016 │
│ cpp          │ CPU      │              9.056 │
│ plain_python │ GPU      │             45.412 │
│ torchscript  │ GPU      │             47.809 │
│ numba        │ GPU      │              0.236 │
│ cpp          │ GPU      │             31.145 │
╰──────────────┴──────────┴────────────────────╯

_{Notes: sample buffer size was fixed to 1024; results are medians of 100 executions to ignore artifacts from the initial jit overhead; input data creation and moving it to the device is excluded from the measurements; full benchmark script gist https://gist.github.com/bluenote10/3370da06204b94995614ed014410f6c2}

最显着的结果：C++ 变体似乎出奇地慢。 numba 快两个数量级的事实表明问题确实可以更快地解决。事实上，C++ 变体仍然非常接近众所周知的缓慢的 Python for 循环，这可能表明有些事情不太正确。

我想知道什么可以解释 C++ 扩展的糟糕性能。第一个想到的就是缺少优化。不过，我已经确保编译使用了优化。切换自-O2 to -O3也没有什么区别。

为了隔离 pybind11 函数调用的开销，我用空函数体替换了 C++ 函数，即不执行任何操作。这将时间减少到 2-3μs，这意味着时间确实花在该特定函数体上。

有什么想法为什么我会观察到如此糟糕的性能吗？我可以在 C++ 方面做些什么来匹配 numba 实现的性能吗？

额外问题：GPU 版本是否会比 CPU 版本慢很多？

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 PyTorch C++ 扩展比其等效的 numba 版本慢得多？的相关文章

将 C++ 代码（本机客户端）移植到浏览器（Web 应用程序）

我有一个使用 Qt creator SDK 编写的 C 模块我想将此代码移植到任何网页上运行而不会对最终用户损害源代码用户应该能够在任何浏览器 Chrome Firefox Safari Explorer 上看到此模块的输出而无需安
如何使用带有进度条的 HttpClient 下载文件？

我创建了一个名为SiteDownload并添加了一些下载图像的链接 using System Collections Generic using System Linq using System Net using System Threa
C++，多语言/本地化支持

向 C 程序添加多语言支持的最佳方法是什么如果可能应该从包含键值对 WelcomeMessage Hello s 之类的纯文本文件中读取语言我想到了添加一个 localizedString key 函数来返回加载的语言文件的字符串有
fork 和 exec 之间的区别

两者有什么区别fork and exec 指某东西的用途fork and exec它体现了 UNIX 的精神它提供了一种非常简单的方法来启动新进程 The fork调用基本上复制了当前进程在almost任何方式并非所有内容都会被复制
C++ 标准是否允许未初始化的 bool 导致程序崩溃？

我知道一个未定义的行为 C 几乎可以让编译器做任何它想做的事情然而我遇到了一次令我惊讶的崩溃因为我认为代码足够安全在这种情况下真正的问题仅发生在使用特定编译器的特定平台上并且仅在启用优化的情况下发生我尝试了几种方法来重现问题
氧图。如何将轴旁边的值格式从 1000 更改为 1k

我正在尝试更改轴旁边的值的格式例如从 1000 更改为 1k 或 1000000 更改为 1M 这在 LinearAxis 中可能吗这是我的代码 m Axes Add new LinearAxis Position AxisPositi
委托和接口如何互换使用？

我可以使用接口方法代替委托吗如何我发现搜索接口方法比使用委托更快我希望有一个简单的代码片段理论上可以通过包含单个方法的接口例如 Java 没有委托来完成委托完成的所有工作然而它使代码变得更加冗长并且没有带来什么好处话又说
lambda 表达式到函数指针的转换

这是这个问题的后续问题 Lambda 如何作为参数传递 https stackoverflow com questions 3321283 c0x lambda how can i pass as a parameter 据推测 MSDN
Visual Studio 2013 Intellisense 不会将枚举类型放在方法参数的位置

例如我有以下代码 namespace VS2013 EnumTypes class Program enum SomeEnum One Two static void SomeMethod SomeEnum someEnum some c
WCF 客户端返回空数组 - XML 响应似乎正常

我正在尝试为我们的 Intranet 上托管的 Web 服务创建一个简单的 WCF 客户端 C 使用 Fiddler 和 SoapUI 我可以看到请求和响应似乎正常但是当我运行代码时返回一个空数组我会尝试只粘贴相关的行但会是很多东西
C++ fill() 与 uninitialized_fill()

您好我是初学者我想知道容器的 fill 和 uninitialized fill 之间的区别我在谷歌上进行了快速搜索但没有得到很好的答案有人可以帮助我吗 fill 将值使用赋值运算符分配给已构造的对象 uninitialize
Bool类型返回规则

我使用 dapper ORM 所以我使用两个规则Query
如何在 .NET 中自定义 JSON 枚举的反序列化？

我有以下示例 C 代码它是使用 svcutil exe 应用程序从 xsd 自动生成的 DataContract public enum Foo EnumMember Value bar Bar 1 EnumMember Value ba
使用 unrar 库 - 将文件提取到文件流缓冲区中

我需要的是能够将 rar 文件中的文件提取到流中我正在创建一个测试用例来了解如何使用解压源文件 http www rarlab com rar unrarsrc 3 9 9 tar gz 我已经搜索和修补了一段时间但我不知道如何使用该库
C# 的 xml 序列化中是否有一个属性可以跳过空数组？

C 的 xml 序列化中是否有一个属性可以跳过空数组这将提高 xml 输出的可读性好吧你也许可以添加一个ShouldSerializeFoo method using System using System ComponentMode
Lambda 按值捕获和“mutable”关键字

关键词的必要性mutable在 lambda 中是造成极大混乱的根源考虑代码 int x 10 function
int 类型的构造函数

考虑到成本这些情况是否相同 case 1 int a 5 case 2 int a 5 case 3 int a a 5 这三种语法是不同的请耐心等待我使用用户定义类型而不是 int 稍后我将回到 int T a 5 Direct i
在 Visual Studio C++ 资源编辑器中导入 png 文件

我希望能够在 Visual Studio 资源编辑器中导入 png 文件以便能够在不同的其他项目中使用嵌入的资源有解决办法吗我知道它适用于位图但我对 png 感兴趣因为即使在较低格式 16x16 或 32x32 上也可以使用透明
返回右值 - 这段代码有什么问题？ [复制]

这个问题在这里已经有答案了我遇到了以下代码片段 std string test std string m Hello return std move m int main std string m test 我知道上面的代码是不正确且不安
如何使用 __m128i 执行元素左移？

我发现 SSE 移位指令只能在所有元素上移位相同的量 mm sll epi32 mm slli epi32 这些会移动所有元素但移动量相同 http software intel com sites products documentat

随机推荐

我可以让 Swing JButton 的边距更小吗？

我更喜欢边距最小的按钮大约与文本标题一样宽有没有办法在 Swing 的 JButton 中实现这一点我现在在实践中看到的是即使我尝试使用 setMaximumSize 和类似的方法它最终也会吃掉文本标题将其从右侧切断但这并没有
查询中的日期格式更改

我在 android 中使用 PHP JSON 作为 API 我使用下面的代码从 MYSQL 数据中获取新闻它工作正常但日期格式显示为年月日但我想要得到它日月年我搜索了很多但没有找到任何解决方案这里有人可以解决我的问题吗
如何在 Ant 中动态包含 ant-contrib.jar

我正在寻找一种方法来包含 Ant 文件中的 jar 以便我可以立即使用它并在我的目标中调用它的方法就我而言是ant contrib 1 0b3 jar 最好的方法是将 Ant Contrib jar 文件放入您的项目中例如假设buil
Python ftplib.error_perm: 530 登录验证失败

我想编写一个脚本来连接我的 FTP 服务器但它对我不起作用 from ftplib import FTP ftp FTP ftp set debuglevel 2 ftp connect 192 169 137 100 ftp login
有没有办法使用 Perl 脚本更改 Windows 文件夹图标？

有没有办法使用 Perl 脚本更改 Windows 文件夹图标我的目的是将 xxx documents 文件夹的普通图标更改为其他图标我必须以照顾整个驱动器的方式运行脚本该驱动器包含许多文件夹我必须搜索每个名为文档的文件夹例如
protobuf-net：无法序列化类型数据，如何使用协议缓冲区定义类型数据？

我正在尝试创建一个简单的内存网格可以使用协议缓冲区进行序列化这个想法是用户可以创建定义任何类型的列基元或用户定义的列只要它们是协议缓冲区标记的我的问题是你无法使用协议缓冲区序列化类型数据那么我该如何实现这一点下面的代码显示了
如何防止按 Enter 键结束 DataGridView 中的 EditMode？

我在 Windows 窗体应用程序中有一个自定义 DataGridView 控件当用户按下 Enter 键时我不希望发生任何事情我已经重写了自定义 DataGridView 中的 OnKeyPress 方法以防止 SelectedC
Firemonkey 应用程序中的最小化表单

我用这个 Application Minimize 在 Vcl delphi 应用程序中但在 Firemonkey 中我有未声明的标识符 error 如何最小化我的火猴形态尝试使用WindowState http docwiki emb
如何在 Java for Android (Eclipse) 中插入 swf 动画（flash）

我已经在谷歌上搜索了好几天了但仍然找不到任何东西我已经尝试过一些代码但我对java也很菜鸟所以我尝试过的每一个代码都失败了好吧我将尝试解释一下我正在编写一个使用 3 个活动的应用程序第一个活动有一个打开第二个活动的按钮在第
使用正则表达式匹配 url 中的文件夹名称

我只想匹配文件所在的文件夹名称 eg pic 2009 cat01 jpg图片 2009 01 cat02 jpg 我想只匹配我用粗体输入的内容到目前为止我有这个哪个会匹配图片 2009 猫01 jpg 任何想法不确定我明白你在问什
编辑文件时保留 samba 共享的文件权限

我使用的代码库是从 Git 存储库检出到我的 Linux 机器上的由于我们的生产代码是为了部署在 Linux 上而编写的因此我在 Linux 计算机上进行了所有测试但喜欢使用 Windows 进行日常使用包括代码编辑创作为此我
在 Windows 中调整位图大小的最佳方法是什么？

所以我正在开发一个文本编辑器我使用双缓冲在屏幕上绘画所以基本上我有一个屏幕外位图我在上面绘制然后将其复制到屏幕上现在当文本编辑器窗口调整大小时我还需要调整屏幕外位图的大小那么调整位图大小的好方法是什么我想也许删除旧对象并
eclipse xml编辑器使用空格缩进

我的eclipse版本是Mars Release 4 5 0 Preferences gt XML gt XML Files gt Editor 我无法设置缩进大小的值和无法点击我还无法输入值遇到同样的问题我找到了以下解决方法使
Javascript 代理和扩展语法，与 console.log 相结合

因此我在尝试使用 Proxy 对象并尝试了解它们如何与扩展语法和解构混合时我偶然发现了这种奇怪的行为 const obj origAttr hi const handler get target prop console log pro
工具提示 (title="...") 在 Firefox 中不会显示

我有一个元素title属性即工具提示包装在某个容器中 div div
文件无法从 Django 中的 Web 表单上传

你好我编写了一个非常简单的应用程序来接受工作申请包括简历上传在本地运行捆绑服务器进行开发我可以通过前端的 Web 表单和管理界面成功上传文件在远程服务器带有 mod python 的 Apache 上运行它我可以通过管理界面成
Ruby：如何替换文件中的文本？

以下代码是 xml 文件中的一行
如何在 VS 2008/C# 中获得类似 Eclipse 的类大纲？

我最近刚刚开始使用 VS2008 来完成一个新的工具项目并且在 Eclipse Java 上花费了大量时间我缺少的一件事是我上次使用 VS2005 时可以发誓的东西类大纲我说的是 Eclipse 中的基本轮廓您可以在其中看到类成员
AutoFilter返回正确的结果，但是当 SpecialCells(xlCellTypeVisible).value 时，excel只返回一半的记录

这是我的代码 openWs AutoFilterMode False Range A1 AutoFilter Field 1 Criteria1 gt date1 Operator xlAnd Criteria2 lt date2 Rang
为什么 PyTorch C++ 扩展比其等效的 numba 版本慢得多？

我一直在尝试各种选项来加速 PyTorch 中的一些 for 循环逻辑这样做的两个明显的选择是使用numba https stackoverflow com a 75580380 1804173 or 编写自定义 C 扩展 https p

为什么 PyTorch C++ 扩展比其等效的 numba 版本慢得多？

为什么 PyTorch C++ 扩展比其等效的 numba 版本慢得多？ 的相关文章

随机推荐

热门标签

为什么 PyTorch C++ 扩展比其等效的 numba 版本慢得多？的相关文章