Julia 中的内存分配

2024-03-24

将程序从 Python 翻译成 Julia 后，我非常不满意：

对于小/非常小的输入，Python 更快
对于中等输入，Julia 更快（但没那么快）
对于大输入，Python 更快

我认为原因是我不明白内存分配是如何工作的（这里自学者，没有CS背景）。我会在这里发布我的代码，但它太长且太具体，除了我之外，它对任何人都没有好处。因此我做了一些实验，现在我有一些问题。

考虑这个简单的script.jl:

function main()
    @time begin
        a = [1,2,3]
    end
end
main()

当我运行它时，我得到：

$ julia script.jl
  0.000004 seconds (1 allocation: 96 bytes)

1.为什么是 96 字节？当我设置a = []我得到 64 个字节（为什么空数组的重量如此之大？）。 96 字节 - 64 字节 = 32 字节。但a is an Array{Int64,1}。 3 * 64 位 = 3 * 8 字节 = 24 字节！= 32 字节。

2.为什么我设置了还是得到96字节a = [1,2,3,4]?

3.为什么我运行此命令时会得到 937.500 KB：

function main()
    @time begin
        for _ in 1:10000
            a = [1,2,3]
        end
    end
end
main()

而不是 960.000 KB？

4.为什么，例如，filter()这么低效？看看这个：

check(n::Int64) = n % 2 == 0

function main()
    @time begin
        for _ in 1:1000
            a = [1,2,3]
            b = []
            for x in a
                check(x) && push!(b,x)
            end
            a = b
        end
    end
end
main()
$ julia script.jl
  0.000177 seconds (3.00 k allocations: 203.125 KB)

instead:

check(n::Int64) = n % 2 == 0

function main()
    @time begin
        for _ in 1:1000
            a = [1,2,3]
            a = filter(check,a)
        end
    end
end
main()

$ julia script.jl
  0.002029 seconds (3.43 k allocations: 225.339 KB)

如果我使用匿名函数（x -> x % 2 == 0）我得到的不是检查内部过滤器，而是：

$ julia script.jl
  0.004057 seconds (3.05 k allocations: 206.555 KB)

如果内置函数速度较慢并且需要更多内存，为什么我应该使用它？

快速解答：

1. Array除其他外，我们还可以在标题中跟踪它们的维度和大小。

2. Julia 确保其数组是16 字节对齐 https://en.wikipedia.org/wiki/Data_structure_alignment。如果您查看更多示例的分配情况，该模式就会变得显而易见：

julia> [@allocated(Array{Int64}(i)) for i=0:8]'
1x9 Array{Any,2}:
 64  80  80  96  96  112  112  128  128

3. 以千字节为单位进行报告。 1 KB 有 1024 个字节：

julia> 937.500 * 1024
960000.0

4. 匿名函数和将函数传递给高阶函数，例如filter是 0.4 中已知的性能问题，并已在最新的开发版本中修复。

一般来说，获得比预期更多的分配通常是类型不稳定的标志。我强烈建议阅读手册性能提示页面 http://docs.julialang.org/en/release-0.4/manual/performance-tips/有关此的更多信息。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Julia 中的内存分配的相关文章

每当调用 malloc/free 时输出到 stderr

使用 Linux GCC C 每当调用 malloc free new delete 时我想向 stderr 记录一些内容我试图了解库的内存分配因此我想在运行单元测试时生成此输出我使用 valgrind 进行内存泄漏检测但我找不到
DbConnection 不带 Db，使用内存中的 DataSet（或类似的）作为源

我正在尝试对一些 NET 类进行单元测试这些类出于良好的设计原因需要 DbConnections 来完成其工作对于这些测试我在内存中有某些数据可以作为这些类的输入内存中的数据可以很容易地表示为 DataTable 或包含该 Da
估算缺失数据，同时强制相关系数保持不变

考虑以下 excel 数据集 m r 2 0 3 3 0 8 4 0 1 3 2 1 5 2 2 3 1 9 2 5 1 2 3 0 2 0 2 6 我的目标是使用以下条件填充缺失值将上述两列之间的成对相关性表示为 R 大约 0 68 将
有关 Linux 内存类型的问题

关于Linux内存我有以下问题我知道活动内存是最常访问的内存部分但是有人可以解释一下 linux 如何考虑将内存位置用于活动内存或非活动内存主动存储器由哪些部分组成磁盘文件缓存是否被视为活动内存的一部分有什么区别Buffers
WPF 窗口关闭后不会释放内存

我创建了一个测试代码 private void Application Startup 1 object sender StartupEventArgs e ShutdownMode System Windows ShutdownMode
List.Clear() 在 C# 中是如何实现的？

我假设它使用数组来实现 List 怎么List Clear 实施的它实际上清理了数组还是只是为此列表创建了一个新数组 public class List private Array array public void Clear1 arr
从 QML 实例化 C++ 对象会产生巨大的内存使用开销

实例化一个QObjectC 堆中的派生类为每个对象提供了大约 160 个字节通过注册相同的对象qmlRegisterType 用于从 QML 创建并通过以下方式动态创建对象createObject 每个对象给我 2000 多个字节这是完
gcc 不太可能使用宏

我正在编写一段关键代码其逻辑大致如下 if expression is true do something with extremely low latency before the nuke blows up This branch i
为什么如果内存组织为字，则程序计数器加 1；如果内存组织为字节，则程序计数器加 2？

如果在计算机中一条指令是 16 位并且如果存储器被组织为 16 位字则通过在当前指令的地址中加 1 来计算下一条指令的地址如果内存是按字节组织的可以单独寻址那么我们需要在当前指令地址上加二得到顺序执行的下一条指令的地址为什么会
OpenCL 何时使用全局、私有、本地、常量地址空间

我正在尝试学习 OpenCL 但我很难决定使用哪些地址空间因为我只找到组装的资源声明这些地址空间是什么但没有声明它们为什么存在或何时使用它们资源至少太分散了所以带着这个问题我希望把所有这些信息汇总一下所有地址空间是什么它们为什么
为什么结构中“[0]byte”的位置很重要？

0 byte在golang中不应该占用任何内存空间但这两个结构体的大小不同 type bar2 struct A int 0 byte type bar3 struct 0 byte A int 那么为什么这个位置 0 byte这里重要吗
Java：为什么它使用固定数量的内存？或者它如何管理内存？

JVM 似乎使用了一些固定数量的内存至少我经常看到参数 Xmx 对于最大尺寸和 Xms 对于初始大小这表明我感觉 Java 应用程序不能很好地处理内存我注意到一些事情即使一些非常小的示例演示应用程序也会加载大量内存也许这是因为
64 位大型 malloc

malloc 失败的原因是什么尤其是在 64 位中我的具体问题是尝试在 64 位系统上分配一大块 10GB RAM 该机器有 12GB RAM 和 32GB 交换空间是的 malloc 是极端的但是为什么它会成为一个问题呢这是在带
如何在 Julia 中进行两个变量数值积分？

我可以使用 Julia 在 Julia 中进行单变量数值积分quadgk 一些简单的例子 julia gt f x cos x f generic function with 1 method julia gt quadgk f 0 pi
应用程序无缘无故地被杀死。怀疑 BSS 高。如何调试呢？

我已经在CentOs6 6中成功运行我的应用程序最近硬件主板和内存更新了我的应用程序现在毫无理由地被杀死 root localhost PktBlaster PktBlaster Killed 文件和 ldd 输出 root lo
c# 通过内存地址调用方法

我正在尝试在 C 中的指定内存地址调用函数以下是我在 C 中的操作方法 typedef void do int i auto doActor do 0xAAAABEEF doActor 1 如果可能的话如何在 C 中复制这种行为对 C
赋值运算符和复制构造函数有什么区别？

我不明白C 中赋值构造函数和复制构造函数之间的区别是这样的 class A public A cout lt lt A A lt lt endl The copy constructor A a b The assignment cons
在 C 中复制两个相邻字节的最快方法是什么？

好吧让我们从最明显的解决方案开始 memcpy Ptr const char a b 2 调用库函数的开销相当大编译器有时不会优化它我不会依赖编译器优化但即使 GCC 很聪明如果我将程序移植到带有垃圾编译器的更奇特的平台上我也不
如何使用GDB修改内存内容？

我知道我们可以使用几个命令来访问和读取内存例如 print p x 但是如何更改任何特定位置的内存内容在 GDB 中调试时最简单的是设置程序变量参见GDB 分配 http sourceware org gdb current onl
“gld/st_throughput”和“dram_read/write_throughput”指标之间有什么区别？

在 CUDA 可视化分析器版本 5 中我知道 gld st requested throughput 是应用程序请求的内存吞吐量然而当我试图找到硬件的实际吞吐量时我很困惑因为有两对似乎合格的指标它们是 gld st throug

随机推荐

Scala：将数组放入集合或映射中的轻量级方法

Since 不适用于数组我无法有效地创建一组数组或带有数组键的映射我宁愿不承受将数组转换为向量或列表或其他东西的性能损失是否有一种轻量级的方法来定义数组上的自然比较和哈希码以便我可以将它们放在集合中 Use WrappedArra
异步 CMIS 客户端：与 OpenCMIS 并行下载或上传多个文件

The OpenCMIS 0 14 的变更日志 https www mail archive com announce apache org msg03240 html says 客户端添加了对异步操作的支持图书馆作为 CMIS 客户端
L2 逐出时从 L1 缓存逐出缓存

我有一个关于内存系统遵循的策略的基本问题考虑具有私有 L1 和 L2 缓存的核心在二级缓存之后我们有一个总线一致性流量在该总线上运行现在如果地址 X 的缓存线从二级缓存中逐出是否有必要从一级缓存中逐出该地址驱逐的原因可能是它
从 Node.JS 调用 Haskell

我想从 Node js 对 Haskell 代码进行 RPC 调用 Node 和 Haskell 都有哪些库我只能找到 XML RPC 和 Zeromq 但它们似乎不稳定对于 Haskell 端的 xml rpc haxr 库已经存在很
MySQL/Python -- 提交的更改未出现在循环中

使用 MySQL Connector Python 我有一个循环每 2 秒检查一次值是否发生变化没有所有的内容这是循环打印是为了测试目的 try while True request database get row table s
将文件从请求移动或复制到多个位置

我正在使用 Laravel 并接受输入和文件上传此页面接受用户想要对订单进行的更改最终目标是获取此输入并将其应用于多个订单我可以重复使用每个订单的输入但是对于我来说将该请求中的文件复制到多个目录的好方法是什么例如如文档中所示
SQL Server 中的条件条件

我有一个包含 3 个值的组合框 All Failed Completed ALL 加载所有行无条件 Failed and Completed 在状态列上加载条件 ALL SELECT FROM tbl Location 失败和完成 S
如何在不使用 conda 的情况下从源代码安装 Bob

Bob https www idiap ch software bob 推荐其用户install https www idiap ch software bob install它的包使用conda 但我不想用conda 我如何从源代码安装它
如何使用基于单选按钮输入的jquery跳过隐藏输入字段的验证（删除必需属性）

使用 bootstrap 有一个简单的形式为了进行验证我使用了必需的引导程序效果很好但在我的表单中我根据单选按钮隐藏带有查询的输入字段我的问题是提交表单需要隐藏的输入字段我怎样才能跳过这个我不想验证隐藏的输入 Error
GCC 编译器选项 -wno-four-char-constants 和 -wno-multichar

找不到任何有关的文档 Wno four char constants 但是我怀疑它类似于 Wno multichar 我对么它们是相关的但不是同一件事编译与 Wall pedantic标志分配 int i abc 产生警告多字符
socket.io，“访问控制允许来源”错误

我已经设置了一个带有套接字 io 转动的节点服务器并尝试通过另一台服务器连接到它然而不同计算机上的某些浏览器给我这个错误并使其始终重新连接 XMLHttpRequest 无法加载当请求的凭据模式为 include 时响应中 Ac
jQuery .data() 与 HTML5 data-XXX 性能对比

我发现了这个测试http jsbin com ekofa 2 http jsbin com ekofa 2这表明 HTML5 data XXX 比 jQuery 更快 data 我正在启动一个项目需要将大量小数据片段放置在 HTML 元素
geom_abline 似乎不尊重facet_grid [ggplot2]中的组

只是想了解 geom abline 如何与 ggplot 中的构面一起使用我有一个学生考试成绩的数据集这些位于具有 4 列的数据表 dt 中 student unique student ID cohort grouping facto
当没有其他窗口打开时，System.Windows.Window.ShowDialog() 出现意外行为。知道为什么吗？

当我的 WPF MVVM 应用程序尝试在主窗口启动之前显示两个连续的错误对话框窗口时我发现了这一点经过一些努力确定第一个窗口后应用程序进入循环第二个错误对话框从未出现我解决了这个问题但我希望有人能启发我为什么会发生这种情况看
在 Helm Charts 中添加 Nginx-Ingress/Certmanager 作为依赖项

我有一个带有 nginx ingress certmanager 和一个应用程序的 Kubernetes 集群 Azure 我想知道是否有一种方法可以将整个系统作为一个包这样如果集群出现任何问题它会更容易旋转再上一个我的主要想法是自动
如何在 Heroku 上使用 postgres 扩展？以及如何处理他们的迁移？

我有一个包含 pg search 和queue classic gems 的Rails 应用程序这两个都使用 PostgreSQL 扩展例如 unaccent pg trgm 和 ps something something 抱歉不是
如何创建 n 个非零随机小数的 L 个列表，其中每个列表的总和为 1.0？

寻找一种快速方法来创建 L 数量的 n 个小数列表其总和为 1 每个数字应该 gt 0 01 期望的输出其中 L 200 n 6 0 20 0 22 0 10 0 06 0 04 0 38 0 32 0 23 0 18 0 07 0 0
使用十六进制更改 Excel 单元格的背景色会导致 Excel 在电子表格中显示完全不同的颜色

因此我将 Excel 单元格的内部颜色设置为某个值如下所示 worksheet Cells 1 1 Interior Color 0xF1DCDB 然而当我在 Excel 中打开电子表格时我发现显示的颜色完全不同在上述情况下生成
MEF 依赖关系和版本控制

我有一个使用 MEF 加载零件的系统这些部分中的每一个都依赖于一个核心库当我构建项目时我将版本号添加到 dll 文件中如下所示第1部分 1 0 0 0 dll 第2部分 1 0 0 0 dll 此外还有一个执行 MEF 合成的应
Julia 中的内存分配

将程序从 Python 翻译成 Julia 后我非常不满意对于小非常小的输入 Python 更快对于中等输入 Julia 更快但没那么快对于大输入 Python 更快我认为原因是我不明白内存分配是如何工作的这里自学者没有C

Julia 中的内存分配

Julia 中的内存分配 的相关文章

随机推荐

热门标签

Julia 中的内存分配的相关文章