标准差 NumPy 函数的内存消耗

2023-11-24

我目前正在使用 GDAL 的 Python 绑定来处理相当大的栅格数据集（> 4 GB）。由于将它们立即加载到内存中对我来说不是可行的解决方案，因此我将它们读入较小的块并逐段进行计算。为了避免为每个块读取进行新的分配，我正在使用buf_obj争论（here）将值读入预先分配的 NumPy 数组中。在某一时刻，我必须计算整个栅格的平均值和标准差。自然我也用过np.std用于计算。然而，通过分析程序的内存消耗，我意识到每次调用np.std另外内存被分配和释放。

演示此行为的最小工作示例：

In [1]  import numpy as np
In [2]  a = np.random.rand(20e6)  # Approx. 150 MiB of memory
In [3]  %memit np.mean(a)
peak memory: 187.30 MiB, increment: 0.48 MiB
In [4]  %memit np.std(a)
peak memory: 340.24 MiB, increment: 152.91 MiB

在 GitHub 上的 NumPy 源代码树中搜索发现np.std函数内部调用_var函数来自_methods.py (here）。在一个点上_var计算与平均值的偏差并将其相加。因此，创建了输入数组的临时副本。该函数本质上计算标准差如下：

mu = sum(arr) / len(arr)
tmp = arr - mu
tmp = tmp * tmp
sd = np.sum(tmp) / len(arr)

虽然这种方法适用于较小的输入数组，但绝对不适用于较大的输入数组。由于我使用的是前面提到的较小的内存块，因此从我的程序中的内存角度来看，这个额外的副本并不是一个破坏游戏的问题。然而令我烦恼的是，对于每个块，在读取下一个块之前都会进行新的分配并释放。

NumPy 或 SciPy 中是否还有其他函数使用内存消耗恒定的方法，例如 Welford 算法（维基百科) 一次性计算平均值和标准差？

另一种方法是实现一个自定义版本_var功能与可选out预分配缓冲区的参数（如 NumPy ufuncs）。使用这种方法，不会消除额外的副本，但至少内存消耗将是恒定的，并且可以节省每个块中分配的运行时间。

EDIT:按照 kezzos 的建议测试了 Welford 算法的 Cython 实现。

Cython 实现（由 kezzos 修改）：

cimport cython
cimport numpy as np
from libc.math cimport sqrt

@cython.boundscheck(False)
def iterative_approach(np.ndarray[np.float32_t, ndim=1] a):
    cdef long n = 0
    cdef float mean = 0
    cdef float M2 = 0
    cdef long i
    cdef float delta
    cdef float a_min = 10000000  # Must be set to Inf and -Inf for real cases
    cdef float a_max = -10000000
    for i in range(len(a)):
        n += 1
        delta = a[i] - mean
        mean += delta / n
        M2 += delta * (a[i] - mean)
        if a[i] < a_min:
            a_min = a[i]
        if a[i] > a_max:
            a_max = a[i]
    return a_min, a_max, mean, sqrt(M2 / (n - 1))

NumPy 实现（平均值和标准差可以在一个函数中计算）：

def vector_approach(a):
    return np.min(a), np.max(a), np.mean(a), np.std(a, ddof=1)

使用随机数据集的测试结果（时间以毫秒为单位，25 次中最好）：

----------------------------------
| Size |  Iterative |     Vector |
----------------------------------
|  1e2 |    0.00529 |    0.17149 |
|  1e3 |    0.02027 |    0.16856 |
|  1e4 |    0.17850 |    0.23069 |
|  1e5 |    1.93980 |    0.77727 |
|  1e6 |   18.78207 |    8.83245 |
|  1e7 |  180.04069 |  101.14722 |
|  1e8 | 1789.60228 | 1086.66737 |
----------------------------------

对于较小的数据集，使用 Cython 的迭代方法似乎更快，而对于具有 10000 多个元素的较大数据集，使用 NumPy 向量（可能是 SIMD 加速）方法似乎更快。所有测试均使用 Python 2.7.9 和 NumPy 版本 1.9.2 进行。

请注意，在实际情况下，上层函数将用于计算单个栅格块的统计数据。所有块的标准差和均值将与维基百科中建议的方法相结合（here）。它的优点是不需要对栅格的所有元素进行求和，从而避免了浮点溢出问题（至少在某种程度上）。

我怀疑你会发现任何这样的功能numpy。存在的理由numpy是它利用了矢量处理器指令集——对大量数据执行相同的指令。基本上numpy以内存效率换取速度效率。然而，由于Python的内存密集型特性，numpy通过将数据类型与整个数组而不是每个单独的元素相关联，还能够实现一定的内存效率。

提高速度但仍然牺牲一些内存开销的一种方法是计算块的标准偏差，例如。

import numpy as np

def std(arr, blocksize=1000000):
    """Written for py3, change range to xrange for py2.
    This implementation requires the entire array in memory, but it shows how you can
    calculate the standard deviation in a piecemeal way.
    """
    num_blocks, remainder = divmod(len(arr), blocksize)
    mean = arr.mean()
    tmp = np.empty(blocksize, dtype=float)
    total_squares = 0
    for start in range(0, blocksize*num_blocks, blocksize):
        # get a view of the data we want -- views do not "own" the data they point to
        # -- they have minimal memory overhead
        view = arr[start:start+blocksize]
        # # inplace operations prevent a new array from being created
        np.subtract(view, mean, out=tmp)
        tmp *= tmp
        total_squares += tmp.sum()
    if remainder:
        # len(arr) % blocksize != 0 and need process last part of array
        # create copy of view, with the smallest amount of new memory allocation possible
        # -- one more array *view*
        view = arr[-remainder:]
        tmp = tmp[-remainder:]
        np.subtract(view, mean, out=tmp)
        tmp *= tmp
        total_squares += tmp.sum()
        
    var = total_squares / len(arr)
    sd = var ** 0.5
    return sd

a = np.arange(20e6)
assert np.isclose(np.std(a), std(a))

显示速度加快---越大blocksize，加速度越大。并且显着降低内存开销。较低的内存开销并不完全是 100% 准确的。

In [70]: %timeit np.std(a)
10 loops, best of 3: 105 ms per loop

In [71]: %timeit std(a, blocksize=4096)
10 loops, best of 3: 160 ms per loop

In [72]: %timeit std(a, blocksize=1000000)
10 loops, best of 3: 105 ms per loop

In [75]: %memit np.std(a)
peak memory: 512.70 MiB, increment: 152.59 MiB

In [73]: %memit std(a, blocksize=4096)
peak memory: 360.11 MiB, increment: 0.00 MiB

In [74]: %memit std(a, blocksize=1000000)
peak memory: 360.11 MiB, increment: 0.00 MiB

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

标准差 NumPy 函数的内存消耗的相关文章

Django：如何测试“HttpResponsePermanentRedirect”

我正在为我的 django 应用程序编写一些测试在我看来它使用 HttpResponseRedirect 重定向到其他一些网址那么我该如何测试呢姜戈TestCase类有一个方法assertRedirects https docs d
在Python3.6中调用C#代码

由于完全不了解 C 编码我希望在我的 python 代码中调用 C 函数我知道有很多关于同一问题的问答但由于一些奇怪的原因我无法从示例 python 模块导入简单的 c 类库以下是我所做的事情 C 类库设置我使用的是 VS 20
在 Numpy 中切片后确定结果数组的形状

我很难理解在 numpy 中切片后如何确定结果数组的形状例如我使用以下简单代码 import numpy as np array np arange 27 reshape 3 3 3 slice1 array 1 2 1 slice2
on_delete=models.PROTECT 和 on_delete=models.CASCADE 在 Django 模型上有什么作用？

我对 Django 很熟悉但最近注意到有一个on delete models CASCADE and on delete models PROTECT模型的选项 on delete models CASCADE and on delete
Pandas重置索引未生效[重复]

这个问题在这里已经有答案了我不确定我在哪里误入歧途但我似乎无法重置数据帧上的索引当我跑步时test head 我得到以下输出正如您所看到的数据帧是一个切片因此索引超出范围我想做的是重置该数据帧的索引所以我跑test rese
如何通过双击在浏览器中打开 ipynb 文件

以前我安装了 Canopy 当时我只需双击 ipynb 文件并在浏览器中打开它们即可但是后来我需要Anaconda 一旦我安装了它这个功能就没有了现在我只希望能够简单地双击 ipynb 文件然后该文件就会在 Firefox 中
matplotlib matshow 标签

我一个月前开始使用 matplotlib 所以我仍在学习我正在尝试用 matshow 制作热图我的代码如下 data numpy array a reshape 4 4 cax ax matshow data interpolation
Python：计算数据帧列中所有行中特定字符的实例数

我有一个包含列 toaddress ccaddress body 的数据框 df 我想迭代数据帧的索引以获取 toaddress 和 ccaddress 字段中电子邮件地址的最小最大和平均数量这是通过计算这两列中每个字段中的和的实
如何在Python和Selenium中通过标签名称或id获取元素[重复]

这个问题在这里已经有答案了我正在尝试使用 Python 和 Selenium 获取输入但它向我显示错误我该如何解决这个错误 inputElement send keys getStock getStocklFunc 0 Error i
为什么我用 beautifulSoup 刮的时候有桌子，但没有 pandas

尝试抓取条目页面转换为制表符分隔格式主要拉出序列和 UniProt 登录号当我跑步时 url www signalpeptide de index php sess m listspdb bacteria s details id 10
将 Pandas 列中的列表拆分为单独的列

这是我在 pandas 数据框中的特征列 Feature Cricket 82379 Kabaddi 255 Reality 4751 Cricket 15640 Wildlife 730 LiveTV 13 Football 4129
将输入发送到 python 子进程而不等待结果

我正在尝试为一段代码编写一些基本测试该代码通常通过 stdin 无休止地接受输入直到给出特定的退出命令我想检查程序是否在给出一些输入字符串时崩溃经过一段时间来考虑处理但似乎无法弄清楚如何发送数据而不是陷入等待我不知道的输出关心我
将一个列表的元素除以另一个列表的元素

我有两个清单比如说 a 10 20 30 40 50 60 b 30 70 110 正如你所看到的列表 b 由一个列表的元素总和组成其中 window 2 b 0 a 0 a 1 10 20 30 etc 如何获得另一个列表该列表由
在 MacO 和 Linux 上安装 win32com [重复]

这个问题在这里已经有答案了我的问题很简单我可以安装吗win32com蟒蛇API pywin32特别是在非 Windows 操作系统上我一直在Mac上尝试多个版本pip install pywin32 都失败了下面是一个例子如果你
导入错误：没有名为 google.auth 的模块

当我尝试导入时firebase admin in python 2 7我收到错误导入错误没有名为 google auth 的模块这是Docker文件 https github com ammaratef45 Attendance bl
为什么实现 __iter__ 的对象不被识别为可迭代的？

假设您使用包装对象 class IterOrNotIter def init self self f open tmp toto txt def getattr self item try return self getattribute
如何在sphinx中启用数学？

我在用sphinx http sphinx pocoo org index html与pngmath http sphinx pocoo org ext math html module sphinx ext pngmath扩展来记录我的代
异步和协程与任务队列

我一直在阅读有关 python 3 中的 asyncio 模块的内容以及更广泛地了解 python 中的协程的内容但我不明白是什么让 asyncio 成为如此出色的工具我的感觉是你可以用协程做的所有事情通过使用基于多处理模块例如
来自 django 教程 was_published_recently.admin_order_field = 'pub_date'

From Django 教程 https www jetbrains com help pycharm 2017 1 creating and running your first django project html d28041e21
使用 Python 生成类似于 Messenger 或 kik 代码的圆形二维码

我可以使用 Python 生成圆形 QR 码就像 Facebook Messenger 或 kik 使用的那样吗我访问了很多网站但找不到这种类型的二维码默认情况下 Python 生成方形 QR 码但在我的项目中我想要圆形 QR 码

随机推荐

在 Firefox 和 Internet Explorer 中使用 XPath 选择 HTML 元素的不同结果

我正在尝试在文档中选择特定的 HTML 元素对于 Firefox 我只使用 xpathobj document evaluate xpath document null XPathResult FIRST ORDERED NODE TYP
有没有办法将内部控件放入 ASP.NET 自定义控件中？

我想做类似的事情更新的示例
如何使用扩展 gcc 程序集指定 x87 FPU 堆栈的损坏底部？

In a codebase of ours I found this snippet for fast towards negative infinity1 rounding on x87 inline int my int double
逆向运动动画

我试图在 Three js 中找到或创建反向运动学姿势的工作示例理想情况下我想通过他们的 Collada 导出器从 Makehuman 导出人体模型使用 THREE ColladaLoader 加载它们并以编程方式或通过某些 dat
ValueError：使用序列设置数组元素

为什么要做以下代码示例 np array 1 2 2 3 4 np array 1 2 abc dtype float 都给出以下错误 ValueError setting an array element with a sequence
更改 Three.js collada 对象的纹理和颜色

我最近从官方网站获得了 Three js 示例使用我的 collada 对象 dae ColladaLoader js 现在我的问题是如何更改加载的 collada 对象颜色属性并添加自定义纹理我尝试添加纹理但还没有成功这是我的代码
如何创建 Xamarin 前台服务

尝试创建我的第一个 Xamarin 前台服务但找不到合适的示例 Microsoft 文档中的示例似乎不完整或使用已弃用的Notification Builder https learn microsoft com en us xamari
在 LaTeX 中创建新环境时出现问题

我正在尝试在 LaTeX 中实现这个新环境 newenvironment javacode 2 begin lstlisting language java label 1 caption 2 end lstlisting 然后像这样使用它
自动映射器：将 List 映射到 List

我怎样才能映射一个List
并行查询工作线程陷入死锁

我运行 SQL Server Trace 来跟踪一些死锁问题这条评论让我深受打击Parallel query worker thread was involved in a deadlock作为僵局的一个原因 Q1 这是否意味着同一个查询
Rails：wkhtmltopdf RuntimeError（wkhtmltopdf 的位置未知）

我正在使用 Ubuntu 11 04 在 Ruby on Rails 中开发一个应用程序在应用程序中我需要生成pdf文档所以我正在使用 wicked pdf 和 wkhtmltopdf binary gems 在我的系统的开发环境中一切
Node.js 加密中的 HMAC 与 Google Apps 脚本 (GAS)

你能解释一下使用 Node JS 的加密模块和 Google Apps 脚本创建 HmacSha512 签名之间的区别吗代码 1 Node JS var secret my secret var message message var c
Django 喜欢按钮

我一直在尝试为我的应用程序的每个板上的宠物图片创建一个点赞按钮但我不知道如何创建一个按钮因为它包含一个整数通常我对我创建的功能有一个想法和理解当用户点击喜欢按钮时点赞按钮会加1 并显示在图片附近这是我的图片模块 cla
玩2.1 Json序列化traits？

我有这个 package models import play api libs json import play api libs functional syntax object ModelWrites implicit val tmo
CRM 2011 工作流程“无效指针”错误

我在 CRM 2011 中有一个自定义工作流程它是针对自定义实体记录手动触发的当选择单个记录进行处理时工作流始终会成功但是当选择多条记录时至少有一条会失败即使使用相同的数据每次尝试提供的错误似乎也有所不同到目前为止我遇到的
Javascript toLocaleTimeString() 在最新版本的 Chrome 中返回 ASCII 226 而不是空格

我们使用 Javascript 函数 toLocaleTimeString 来解析日期时间最新版本的 Chrome 在秒和 AM PM 部分之间突然返回 ASCII 226 Edge 没有任何问题旧版本的 Chrome 也没有任何问题
VueRouter 默认子路由不带尾部斜杠

VueRouter 总是在子路由的路径之前添加尾部斜杠假设我有一个这样的路由配置 const routes path home components default HomeBase children path component Hom
使用 OpenCV Python 检测并可视化两个图像之间的差异

我有两张图片希望能清楚地表明差异所在我想为这两个图像添加颜色以便用户可以在一两秒内清楚地发现所有差异例如这里有两张有一些差异的图像 leftImage jpg rightImage jpg 我目前使差异变得明显的方法是创建一个蒙版
如何对 BindingList 进行排序？

我有数千个 MyClass 对象存储在BindingList
标准差 NumPy 函数的内存消耗

我目前正在使用 GDAL 的 Python 绑定来处理相当大的栅格数据集 gt 4 GB 由于将它们立即加载到内存中对我来说不是可行的解决方案因此我将它们读入较小的块并逐段进行计算为了避免为每个块读取进行新的分配我正在使用buf ob

标准差 NumPy 函数的内存消耗

标准差 NumPy 函数的内存消耗 的相关文章

随机推荐

热门标签

标准差 NumPy 函数的内存消耗的相关文章