python numpy 和内存效率(通过引用传递与值传递)

2024-04-09

我最近越来越多地使用 python 来代替 c/c++,因为它使我的编码时间缩短了几倍。同时,当我处理大量数据时,我的python程序运行速度开始变得比c中慢很多。我想知道这是否是由于我使用大型对象/数组效率低下所致。有没有关于 numpy/python 如何处理内存的综合指南?什么时候通过引用传递事物,什么时候通过值传递,什么时候复制事物,什么时候不复制,哪些类型是可变的,哪些不是。


python(以及大多数主流语言)中的对象作为引用传递。

例如,如果我们以 numpy 为例,通过索引现有数组创建的“新”数组只是原始数组的视图。例如:

import numpy as np

>>> vec_1 = np.array([range(10)])
>>> vec_1
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> vec_2 = vec_1[3:] # let vec_2 be vec_1 from the third element untill the end
>>> vec_2
array([3, 4, 5, 6, 7, 8, 9])
>>> vec_2[3] = 10000
array([3, 4, 5, 10000, 7, 8, 9])
>>> vec_1
array([0, 1, 2, 3, 4, 5, 10000, 7, 8, 9])

Numpy 有一个方便的方法来帮助您解决问题,称为 may_share_memory(obj1, obj2)。所以:

>>> np.may_share_memory(vec_1, vec_2)
True

请小心,因为该方法有可能返回误报(尽管我从未见过)。

在 SciPy 2013 上有一个关于 numpy 的教程(http://conference.scipy.org/scipy2013/tutorial_detail.php?id=100 http://conference.scipy.org/scipy2013/tutorial_detail.php?id=100)。最后,这家伙谈到了 numpy 如何处理内存。看它。

根据经验,默认情况下对象几乎不会作为值传递。即使是封装在另一个对象上的。另一个例子,列表进行游览:

Class SomeClass():

    def __init__(a_list):
        self.inside_list = a_list

    def get_list(self):
        return self.inside_list

>>> original_list = range(5)
>>> original_list
[0,1,2,3,4]
>>> my_object = SomeClass(original_list)
>>> output_list = my_object.get_list()
>>> output_list
[0,1,2,3,4]
>>> output_list[4] = 10000
>>> output_list
[0,1,2,3,10000]
>>> my_object.original_list
[0,1,2,3,10000]
>>> original_list
[0,1,2,3,10000]

令人毛骨悚然,是吧? 使用赋值符号(“=”),或在函数末尾返回一个,您将始终创建一个指向该对象或其一部分的指针。仅当您明确这样做时才会复制对象,使用像 some_dict.copy 或 array[:] 这样的复制方法。例如:

>>> original_list = range(5)
>>> original_list
[0,1,2,3,4]
>>> my_object = SomeClass(original_list[:])
>>> output_list = my_object.get_list()
>>> output_list
[0,1,2,3,4]
>>> output_list[4] = 10000
>>> output_list
[0,1,2,3,10000]
>>> my_object.original_list
[0,1,2,3,10000]
>>> original_list
[0,1,2,3,4]

Got it?

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python numpy 和内存效率(通过引用传递与值传递) 的相关文章

随机推荐