朱莉娅中固定大小数组的最佳传递维度

2024-02-20

我想编写一个以矩阵作为输入的函数。这是复杂项目中频繁的低级调用，因此使该函数尽可能快可能会产生严重的性能影响。因为速度对我来说非常重要，所以我使用以下类型FixedSizeArrays据我所知，这将节省内存使用。但我经常知道输入矩阵的某些属性，但我不确定我是否充分利用了它。

这是一个简单的例子。想象一下我想要尽可能快地执行以下操作的函数：

using FixedSizeArrays

function foo( input::Mat )
# NB: Mat is the FixedSizeArrays matrix type
  return 2 * input
end

显然这是一个简单的例子，但这不是重点。关键是我对矩阵的维度有所了解input：它总是只有两列，我总是可以在运行时指定行数。这似乎是可以传递给编译器以使我的代码更快的信息。我可以将它作为定义大小的参数传递吗input不知何故？这是一个不起作用的示例，但应该可以让您了解我正在尝试做什么。

function bar( int::N, thismat::Mat{N,2,Float64} )
  return 2 * thismat
end

我可以做这样的事情吗？如果我可以的话，这会起作用吗？也许固定大小数组已经做了所有能做的事情。谢谢你的想法！

固定大小的数组已经在大小上进行了专门化。这些数组不适合当行数，N根据您的情况，可能会有所不同。您注意到的任何性能问题可能是由于过度专业化.

让我说得更具体一些。

Julia 编译器能够通过对参数类型的积极专业化来实现零成本抽象。因此，一般来说（也就是说，在所有情况下，除了少数特殊化成本太高或被明确禁用的情况），如果使用两个不同的类型签名调用函数，则将编译该函数的两个版本。

由于a的大小Mat是其类型的一部分，这意味着将为每个可能的大小编译一个版本Mat。所以你所寻求的专业已经完成了。

然而，专业化并不是免费的。有两个与之相关的成本：

第一次对特定签名调用函数时，将分配内存并且必须运行编译器。
当无法推断类型的参数传递给函数时，存在“类型不稳定”，需要动态调度。动态调度涉及运行时查找。

因此，如果你的矩阵的大小(2, N), where N变化并且在编译时未知，性能成本动态调度将会产生。这种性能成本可以通过使用函数屏障技术来限制：对于每个类型不稳定的调用，我们只产生一次该成本，因此限制此类调用的数量可以提高性能。

但是，完全避免这种动态调度会进一步提高性能。可以构造一个数组类型，该数组类型仅对类型中的列数进行编码，并在运行时将行数作为字段。也就是说，您的性能问题可能是由于过度专业化造成的，您需要创建类型以减少专业化程度。

找到正确的平衡点对于尽可能提高应用程序的性能至关重要。事实上，专门研究数组的大小很少有用，例如，即使是 C 和 C++ 代码也倾向于将数组大小作为运行时参数传递，而不是专门研究特定的数组大小。这并没有那么贵。在更多情况下并非如此，FixedSizeArrays.jl不会提高性能，反而会损害性能。在某些情况下它肯定会有所帮助，但你的情况可能不是其中之一。

在你的情况下，为了获得最大性能，我怀疑这样的类型是最快的：

immutable TwoColumnMatrix{T, BaseType} <: AbstractArray{T, 2}
    height::Int
    base::BaseType
end

function TwoColumnMatrix(A::Matrix)
    size(A, 2) == 2 || throw(ArgumentError("must be two columns"))
    TwoColumnMatrix{eltype(A), typeof(A)}(size(A, 1), A)
end

Base.@propagate_inbounds function getindex(M::TwoColumnMatrix, n::Int)
    M.base[n]
end

size(M::TwoColumnMatrix) = (M.height, 2)

您可能需要定义其他方法以获得最大性能，并一如既往地进行基准测试。包装器的开销可能不值得编译器了解维度。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

朱莉娅中固定大小数组的最佳传递维度的相关文章

如何针对 IE 进行优化？

我有一个 JS 密集型应用程序它在 IE 中运行缓慢我将花费大约一周的时间来优化 IE 并且我想要一些关于尝试的方向我发现这个线程引用Drip https ieleak svn sourceforge net svnroot iele
为什么在 data.frame 中预先指定类型会比较慢？

我预先分配了一个大 data frame 以便稍后填写我通常这样做NA是这样的 n lt 1e6 a lt data frame c1 1 n c2 NA c3 NA 我想知道如果我预先指定数据类型是否会让事情变得更快所以我测试了 f1
Numpy 与 Cython 速度

我有一个分析代码它使用 numpy 执行一些繁重的数值运算只是出于好奇尝试使用 cython 进行少量更改来编译它然后我使用 numpy 部分的循环重写它令我惊讶的是基于循环的代码要快得多 8 倍我无法发布完整的代码但我整理
AtomicInteger 实现和代码重复

警告问题有点长但分隔线以下的部分仅供好奇 Oracle 的 JDK 7 实现原子整数 http docs oracle com javase 7 docs api java util concurrent atomic AtomicIn
如何使用资源模块来衡量函数的运行时间？

我想使用Python代码测量函数的CPU运行时间和挂钟运行时间此处建议资源模块如何以 Python 代码不是从终端的形式分别测量函数的 CPU 运行时间和挂钟运行时间 https stackoverflow com q 192046
非规范化如何提高数据库性能？

我听说过很多关于非规范化的内容它是为了提高某些应用程序的性能而进行的但我从来没有尝试过做任何相关的事情所以我只是好奇规范化数据库中的哪些地方会使性能变差或者换句话说非规范化原则是什么如果我需要提高性能如何使用此技术非规范
如何在 PHP 数组中的另一个已知（通过键或指针）元素之后有效地插入元素？

给定一个数组 a array abc 123 k1 gt v1 k2 gt v2 78 tt k3 gt v3 当其内部指针指向其元素之一时如何在当前元素之后插入元素如何在键已知元素例如 k1 之后插入元素表现护理您可以通过使用拆
ListDictionary 类是否有通用替代方案？

我正在查看一些示例代码其中他们使用了ListDictionary对象来存储少量数据大约 5 10 个对象左右但这个数字可能会随着时间的推移而改变我使用此类的唯一问题是与我所做的其他所有事情不同它不是通用的这意味着如果我在这里
如何比 CGContextStrokePath 更快地渲染线条？

我正在使用 CGContextStrokePath 绘制约 768 个点的图表问题是每一秒我都会得到一个新的数据点从而重新绘制图表目前这个已经很繁忙的应用程序占用了 50 的 CPU 图形绘制是在UIView 中的drawRect
我们是否需要使用 MappedByteBuffer.force() 将数据刷新到磁盘？

我正在使用 MappedByteBuffer 来加速文件读写操作我的问题如下我不确定是否需要使用 force 方法将内容刷新到磁盘似乎没有 force getInt 仍然可以完美工作好吧因为这是一个内存映射缓冲区我假设 get
循环中的递归算法复杂度（运行时间）

我想了解您对如何检测以下递归算法的 T n 运行时间的意见 Charm 是一种用于发现事务数据库中频繁闭项集的算法频繁闭项集列表是在一组交易 tids 中多次出现的频繁项例如面包和牛奶是经常一起购买的物品它们是通过将索引为 i 的当
优化算术编码器

我正在优化名为的 C 库的编码步骤PackJPG http www elektronik htw aalen de packjpg 我使用 Intel VTune 对代码进行了分析发现当前的瓶颈是 PackJPG 使用的算术编码器中的以下
在高负载站点中使用 PHP 的策略

在你回答这个问题之前我从未开发过任何足够流行的东西来达到高服务器负载把我当作叹气一个刚刚登陆地球的外星人尽管我了解 PHP 和一些优化技术我正在开发一个工具PHP如果效果好的话可以吸引相当多的用户然而虽然我完全有能力开发该
需要多少个线程才能使它们成为错误的选择？

我必须使用 boost thread 用 C 编写一个不太大的程序当前的问题是处理大量可能是数千或数万数百和数百万也是可能的数量可能的大文件每个文件彼此独立并且它们都驻留在同一目录中我正在考虑使用多线程方法但问题是我应
apachebench 支持多部分 POST 吗？

我想使用apachebench ab 来测试文件上传性能我已阅读手册但找不到实现目标的方法我的目标是尝试使用 POST 方法和 multipart form data 格式通过 HTTP 请求上传文件 ab 支持 p POST FIL
为什么删除 else 会减慢我的代码速度？

考虑以下函数 def fact1 n if n lt 2 return 1 else return n fact1 n 1 def fact2 n if n lt 2 return 1 return n fact2 n 1 它们应该是等价的
Activator.CreateInstance 性能严重下降的案例

我们在 NET 服务器端应用程序中观察到一个有趣的行为 CPU 内存密集型工作会随着时间的推移而减慢我们使用 PerfView 尝试找到罪魁祸首看来Activator CreateInstance是这一个我们是怎么找到它的我们在新会
提高光线追踪命中功能的性能

我有一个简单的 python 光线追踪器渲染 200x200 的图像需要 4 分钟这对于我的口味来说绝对是太多了我想改善这种情况几点我为每个像素发射多条光线以提供抗锯齿功能每个像素总共发射 16 条光线 200x200x16
.NET 程序集大小会影响性能吗？

net 程序集的大小是否会影响性能您的 Windows 窗体 Web 窗体项目中的程序集数量如何来自微软的模式和实践提高 NET 应用程序性能和可扩展性 http msdn microsoft com en us library ms9
为什么对于整数键，“Map”操作比 JavaScript (v8) 中的“Object”慢得多？

我很高兴使用Map对于在我的 JavaScript 代码库中随处访问的索引但我刚刚偶然发现了这个基准 https stackoverflow com a 54385459 365104 https stackoverflow com a

随机推荐

ImportError：无法从“distutils”导入名称“sysconfig”（/usr/lib/python3.8/distutils/__init__.py）

我使用 pip3 安装sudo apt get install python3 pip之后当我运行以下命令来安装 django 时sudo pip3 install django我收到此错误回溯最近一次调用最后一次文件 usr bin
有什么比 Sikuli 更好的工具可以在 Windows 7（或者最好是多平台）上用于屏幕自动化[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
多个 docker compose 文件，指定了 env_file

我正在开发一个项目其中使用 docker 创建基本配置并扩展它我的基本 docker compose yml 文件有links 所以我不能使用extends扩展撰写文件中的参数相反我指定了多个 docker compose 文件do
UIRefreshControl 色调颜色与给定颜色不匹配

刷新颜色与色调颜色不匹配看起来不同我尝试更改色调调整模式但结果是相同的请注意微调器和文本颜色应为 0x2C76BE tvc refreshControl UIRefreshControl new tvc refreshContro
geoChoroplethChart 地图，显示带有标签的城市/兴趣点

我已经实现了信息图地图 http smenglish github io dash snow using 交叉过滤器 http square github io crossfilter and d3 js https en wikiped
微软表示 IE9 具有并行 Javascript 渲染和执行功能

The new JavaScript engine takes advantage of multiple CPU cores through Windows to interpret compile and run code in par
Android 全屏对话框显示透明且位置错误

我正在尝试向我的 Android 应用程序添加一个对话框该对话框在小型设备例如手机上为全屏但在大型设备例如平板电脑上为标准对话框这遵循以下逻辑材料设计规范 https www google com design spec co
字幕位置错误且图例不可见

我有五个列表我打算将它们绘制在两个单独的子图中在子图 1 中我想要列表 1 2 3 和 4 在子图 2 中我想要列表 4 和 5 这些是列表和event index用于设置x label event index event 1 ev
在 PHP 中将所有 HTML 特殊字符转换为 UTF-8？

有人可以帮助我吗如何将所有 HTML 特殊字符转换为 UTF 8 例子 Hello nbsp Word P amp H 转换成 Hello Word P H Use html entity decode http www php net
创建一个变量的所有值的列表，该变量由 R 中的另一个变量分组

我有一个包含两个变量的数据框如下所示 df lt data frame group c 1 1 1 2 2 3 3 4 type c a b a b c c b a gt df group type 1 1 a 2 1 b 3 1 a 4
Xcode 11 GM - 错误：访问构建数据库 - 磁盘 I/O 错误

仅构建用于发布分发的通用二进制框架时遇到以下错误在调试或发布模式下构建非通用方案时可以使用相同的项目和设置项目使用 Objective C 和 Xcode 11 GM 11A419c 现在更新到 Xcode 11 GM Se
连接字符串的“智能”方式？

我正在寻找一种智能方法来用分隔符连接字符串显然我可以自己编写所有这些代码所以我想知道是否有一种简单的方法 LINQ 或者其他我不知道的方法来做到这一点假设我有一组字符串可以是任意数量的字符串 string s1 a strin
如何在 Scala 中为 Option[List[_]] 定义 <*>

这是我之前的后续question https stackoverflow com questions 28850636 example of applicative composition in scala在互联网上找到一个例子假设我定义
将模块记录器配置为 Flask 应用程序记录器

我的 Flask 应用程序使用一个模块该模块获取如下记录器 import logging logger logging getLogger XYZ logger debug stuff 无需修改模块中的任何内容我可以配置flask 以便
如何使用 Go 的 openpgp 包？

我一直在寻找文档 http golang org pkg crypto openpgp 对于 Go 来说openpgp包我想我一定遗漏了一些明显的点例如有一个ReadKeyRing有功能但是没有WriteKeyRing 另一方面我
iOS - 如何创建带有占位符文本的 UITextView？ [复制]

这个问题在这里已经有答案了可能的重复 UITextView 中的占位符 https stackoverflow com questions 1328638 placeholder in uitextview 我对 iOS 比较陌生我不知
为什么inet_ntoa中的缓冲区大小是18？

我查看了的实现inet ntoa like this https code woboq org userspace glibc inet inet ntoa c html and this https android googlesourc
Haskell Stack Ghci 测试套件

我正在尝试使用堆栈在 ghci 中加载我的测试套件并让它加载 QuickCheck 和 hspec 依赖项我怎样才能做到这一点我正在使用 Franklinchen 模板 https github com commercialhaskel
从 QML 访问 QList 时 QT/QML C++ 程序崩溃

我有 2 个用于数据处理的类 CGameList 和 Game 我在 qml 中定义了一个 GameList gamelist 对象来使用它我有一个列表视图显示此游戏列表中的游戏 editGames open 如果我单击此列表中的一个条
朱莉娅中固定大小数组的最佳传递维度

我想编写一个以矩阵作为输入的函数这是复杂项目中频繁的低级调用因此使该函数尽可能快可能会产生严重的性能影响因为速度对我来说非常重要所以我使用以下类型FixedSizeArrays据我所知这将节省内存使用但我经常知道输入矩阵的某些属

朱莉娅中固定大小数组的最佳传递维度

朱莉娅中固定大小数组的最佳传递维度 的相关文章

随机推荐

热门标签

朱莉娅中固定大小数组的最佳传递维度的相关文章