为什么本机 python 列表上的 for 循环比 numpy 数组上的 for 循环更快

2024-03-19

我正在阅读介绍 numpy 的章节高性能Python并在我自己的计算机上使用了代码。我无意中用 for 循环运行了 numpy 版本，发现与本机 python 循环相比，结果出奇地慢。

代码的简化版本如下，其中我定义了一个值为 0 的二维数组 X 和另一个值为 1 的二维数组 Y，然后重复将 Y 添加到 X，概念上是 X += Y。

import time
import numpy as np

grid_shape = (1024, 1024)

def simple_loop_comparison():
    xmax, ymax = grid_shape

    py_grid = [[0]*ymax for x in range(xmax)]
    py_ones = [[1]*ymax for x in range(xmax)]

    np_grid = np.zeros(grid_shape)
    np_ones = np.ones(grid_shape)

    def add_with_loop(grid, add_grid, xmax, ymax):
        for x in range(xmax):
            for y in range(ymax):
                grid[x][y] += add_grid[x][y]

    repeat = 20
    start = time.time()
    for i in range(repeat):
        # native python: loop over 2D array
        add_with_loop(py_grid, py_ones, xmax, ymax)
    print('for loop with native list=', time.time()-start)

    start = time.time()
    for i in range(repeat):
        # numpy: loop over 2D array
        add_with_loop(np_grid, np_ones, xmax, ymax)
    print('for loop with numpy array=', time.time()-start)

    start = time.time()
    for i in range(repeat):
        # vectorized numpy operation
        np_grid += np_ones
    print('numpy vectorization=', time.time()-start)

if __name__ == "__main__":
    simple_loop_comparison()

结果如下：

# when repeat=10
for loop with native list= 2.545672655105591
for loop with numpy array= 11.622980833053589
numpy vectorization= 0.020279645919799805

# when repeat=20
for loop with native list= 5.195128440856934
for loop with numpy array= 23.241904258728027
numpy vectorization= 0.04613637924194336

我完全期望 numpy 向量化操作优于其他两个，但我惊讶地发现在 numpy 数组上使用 for 循环结果明显慢于本机 python 列表。我的理解是，至少缓存应该用 numpy 数组相对填充得很好，即使使用 for 循环，它也应该优于没有矢量化的列表。

是否有关于 numpy 或 CPU/缓存/内存如何在低级别工作的我不明白的事情？非常感谢。

编辑：更改标题

一个更简单的情况 - 列表与数组的列表理解：

In [119]: x = list(range(1000000))
In [120]: timeit [i for i in x]
47.4 ms ± 634 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

In [121]: arr = np.array(x)
In [122]: timeit [i for i in arr]
131 ms ± 3.69 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

列表有一个数据缓冲区，其中包含指向内存中其他位置的对象的指针。因此，迭代或索引列表只需要查找该指针并获取对象：

In [123]: type(x[1000])
Out[123]: int

数组将其元素以字节形式存储在数据缓冲区中。获取元素需要（快速）找到这些字节，然后将它们包装在 numpy 对象中（根据 dtype）。这样的对象类似于 0d 单元素数组（具有许多相同的属性）。

In [124]: type(arr[1000])
Out[124]: numpy.int32

此索引不仅获取数字，还重新创建数字。

我经常将对象数据类型数组描述为增强或降级列表。与列表一样，它包含指向内存中其他位置的对象的指针，但它不能按append。我们经常说它失去了数值数组的许多优点。但它的迭代速度介于其他两者之间：

In [125]: arrO = np.array(x, dtype=object)
In [127]: type(arrO[1000])
Out[127]: int
In [128]: timeit [i for i in arrO]
74.5 ms ± 1.42 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

无论如何，我在其他答案中发现，如果必须迭代，请坚持使用列表。如果您从列表开始，那么坚持使用列表通常会更快。正如您注意到的numpy vector速度很快，但创建数组需要时间，这可能会抵消任何节省的时间。

比较从此列表创建数组所需的时间与从头开始创建此类数组所需的时间（使用已编译的 numpy 代码）：

In [129]: timeit np.array(x)
109 ms ± 1.97 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
In [130]: timeit np.arange(len(x))
1.77 ms ± 31.6 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么本机 python 列表上的 for 循环比 numpy 数组上的 for 循环更快的相关文章

Pip install 导致此错误“ cl.exe' failed with exit code 2 ”

我已经阅读了有关此错误的所有其他问题但令人沮丧的是没有一个给出有效的解决方案如果我跑pip install sentencepiece在命令行中它给出了以下输出 src sentencepiece sentencepiece wra
将打开关闭的 Google Chrome 浏览器添加到 Selenium linkedin_scraper 代码中

我正在尝试抓取一些知名人士的 LinkedIn 个人资料该代码获取一堆 LinkedIn 个人资料 URL 然后使用Selenium and scrape linkedin收集信息并将其作为 json 文件保存到文件夹中我遇到的问题是
PrintStream是有缓冲的，但是flush不会降低性能，而BufferedOutputStream会加速性能

我预计由于 PrintStream 是缓冲的通过在每次 print 之后添加刷新操作速度性能应该会显着降低但事实并非如此如下面的代码片段所示此外将 PrintStream 包裹在 BufferedOutputStream 周围可
绘制“plot”而不是“scatter”时，图例选择会中断

再会这个问题是后续问题为什么图例选取仅适用于 ax twinx 而不适用于 ax https stackoverflow com q 60167378 9282844 下面提供的最小代码分别绘制了两条曲线ax1 and ax2 ax1 t
Pandas Pivot_Table ：非数字值的行计算百分比

这是我在数据框 df 中的数据 Document Name Time SPS2315511 A 1 HOUR SPS2315512 B 1 2 HOUR SPS2315513 C 2 3 HOUR SPS2315514 C 1 HOUR S
在函数调用之间保存数据的Pythonic方式是什么？

对我来说上下文是我需要在调用修改该值的函数之间保留的单个 int 的信息我可以使用全局但我知道这是不鼓励的现在我使用了包含 int 的列表形式的默认参数并利用了可变性以便在调用之间保留对值的更改如下所示 def increm
当 DetailView 遇到时更新模型字段。 [姜戈]

我有一个类似的 DetailViewviews py views py class CustomView DetailView context object name content model models AppModel templa
如何使用python读取最后一行的特定位置

我有一个太大的 txt 文件并且有几行类似的行如下所示字1 字2 字3 字4 553 75 我对位置 4 值感兴趣即最后一行 553 75 我的文件文本 word1 word2 word3 word4 553 20 word1 w
有没有任何方法可以使用 openpyxl 获取 .xlsx 工作表中存在的行数和列数？

有没有任何方法可以使用 openpyxl 获取 xlsx 工作表中存在的行数和列数在xlrd中 sheet ncols sheet nrows 将给出列数和行数 openpyxl中有这样的方法吗给定一个变量sheet 可以通过以下方式之
如何在 Python 中执行相当于预处理器指令的操作？

有没有办法在 Python 中执行以下预处理器指令 if DEBUG lt do some code gt else lt do some other code gt endif There s debug 这是编译器预处理的特殊值 if
python中打印字符串的长度

有没有什么方法可以找到即使是最好的猜测 Python中字符串的打印长度例如 potaa bto 是 8 个字符len但 tty 上只打印 6 个字符宽预期用途 s potato x1b 01 32mpotato x1b 0 0mp
请求response.iter_content()获取不完整的文件（1024MB而不是1.5GB）？

您好我一直在使用此代码片段从网站下载文件到目前为止小于 1GB 的文件都很好但我注意到 1 5GB 文件不完整 s is requests session object r s get fileUrl headers headers
如何使用数据库在 Django 中的应用程序之间交换数据？

我正在使用 Django 在网络上工作我创建了 2 个应用程序第一个用于客户端注册并将其数据添加到数据库第二个应用程序供用户访问和查看交互界面这个想法是使用第二个应用程序从数据库中的客户端获取数据并使用它向用户显示一些信息我的问
HTML if 语句在 CDN 失败时加载本地 JS/CSS

当从 CDN 或任何外部服务器加载 CSS JS 文件时有可能即使概率很低由于外部故障而丢失该文件在这种情况下 html 页面将因缺乏适当的 CSS 和 JS 而被损坏有没有一种实用的方法可以在 CDN 故障时加载本地版本 IF
网页抓取 - 如何识别网页上的主要内容

给定一个新闻文章网页来自任何主要新闻来源例如时报或彭博社我想识别该页面上的主要文章内容并丢弃其他杂项元素例如广告菜单侧边栏用户评论在大多数主要新闻网站上都可以使用的通用方法是什么有哪些好的数据挖掘工具或库最好是基于Py
django 组合对两个不同基本模型的查询

我有两个不同的查询集我想将两个查询集合并 q1 tbl nt 123 objects values list id value geometry filter restriction height exclude condition id
测试中的模型 - Django 1.7 问题

我正在尝试将我的项目移植为使用 Django 1 7 除了一件事之外一切都很好测试文件夹内的模型 Django 1 7 新迁移在内部运行 migrate 命令在运行syncdb之前这意味着如果模型未包含在迁移中它将不会填充到数据库
Jinja2中获取请求参数

如何检索请求参数a在 Jinja2 模板中 http foo bar a 1 我这个答案有点晚了但其他解决方案并没有真正考虑到您对 Flask 的使用事实上您将 Flask 与 Jinja2 一起使用这使得您的情况与其他框架有点不同
如何使用 Python 将我的 GoPro Hero 4 相机直播连接到 openCV？

我在尝试从我的新 GoPro Hero 4 相机捕获实时流并使用 openCV 对其进行一些图像处理时遇到麻烦这是我的试用创建的窗口上没有显示任何内容 import cv2 import argparse import time imp
Selenium Python 使用代理运行浏览器[重复]

这个问题在这里已经有答案了我正在尝试编写一个非常简单的脚本该脚本从 txt 文件获取代理不需要身份验证并用它打开浏览器然后沿着代理列表循环此操作一定次数我确实知道如何打开 txt 文件并使用它我的主要问题是让代理正常工作我见

随机推荐

Android Studio 3.0 发现未知元素

我更新Android Studio后我的一个项目无法构建错误信息是 Error 20 error unknown element
如何在 BigQuery 查询中转义百分号？

我们尝试从 BigQuery 中仅包含百分号的字段中选择行我们已经尝试过各种其他问题的答案如下所示 SELECT COUNT 1 FROM Table WHERE field name LIKE 这会产生带有单引号或双引号的无效转义字
preg_replace 行首的双空格到制表符 (\t)

只是一个简单的快速问题我想用制表符替换行开头的双空格目前我正在尝试preg replace 2 t text 但这仅替换了第一次出现的双倍空格 EDIT preg replace PATTERN REPLACEMENT HalloWor
在两种不同模型用户和活动管理员的情况下，如何定义设备的自定义故障？

我有两种模式用户和活动管理员我想在这两种模式上应用我的devise集成我有我的custom failure rb如下 class CustomFailure lt Devise FailureApp def redirect ur
我应该关心大量的依赖关系吗？

我正要包括HtmlUnit http htmlunit sourceforge net项目中的库我解压了 zip 文件发现它不少于12 个依赖项 http htmlunit sourceforge net dependencies ht
.vue 单文件组件中使用的基础问题

我发现使用时有问题祖布基金会 http foundation zurb com班级在 vue 单文件组件 https v2 vuejs org v2 guide single file components html 起初我无法得到显示模态
VSTS 构建 Nuget 打包器不起作用

我正在尝试在构建后打包一个库以在我的 VSTS Packages feed 上发布但任务 Nuget Packager 不起作用我尝试了很多设置组合但无法使其发挥作用我尝试使用 Net Core 和 Net 4 6 2 打包该库尝
在 ASP.NET Core MVC 中，是否可以从项目文件夹外部添加 View 文件夹？

我的大部分观点都是有规律的
如何检查 Python 引发异常的函数范围？

我最近发现了 Python 中非常有用的 i 标志 i inspect interactively after running script also PYTHONINSPECT x and force prompts even if st
相当于 De Bruijn LSB，但适用于 MSB

有谁知道类似于 De Bruijn 的 LSB 但针对 MSB 的算法吗或者确定 MSB 的最有效方法我知道 Log 2 Val 会这样做但我不知道这是否是最有效的方法我需要它的原因是我需要将小端转换为大端我知道这个的标准算法然
如何检查 PyTorch 是否正在使用 GPU？

如何检查 PyTorch 是否正在使用 GPU 这nvidia smi命令可以检测 GPU 活动但我想直接从 Python 脚本内部检查它这些功能应该有助于 gt gt gt import torch gt gt gt torch cu
在批处理和 VBS 混合中使用变量

This thread https stackoverflow com questions 9074476 is it possible to embed and execute vbscript within a batch file w
Boost.Asio安装问题

我已经使用 bjam install 安装了 boost 库但是当我编译程序时 include boost asio hpp int main return 0 出现此类错误 tmp ccVR3eeF o In function stat
虚拟化页表的工作原理

阅读有关虚拟化页表概念的内容其中部分页表放入虚拟内存中维基百科 https en wikipedia org wiki Page table Virtualized page table以及 Patterson 和 Hennessy 页
ExecutorService，如何等待所有任务完成

等待所有任务的最简单方法是什么ExecutorService完成我的任务主要是计算所以我只想运行大量作业每个核心一个现在我的设置如下所示 ExecutorService es Executors newFixedThreadPool
如何将 NSDate 对象设置为午夜？

我有一个NSDate对象我想将其设置为任意时间例如午夜以便我可以使用timeIntervalSince1970一致检索数据的功能无需担心时间when对象已创建我尝试过使用NSCalendar并使用一些 Objective C 方法
同构弦

给定两个字符串 s 和 t 确定它们是否同构如果 s 中的字符可以替换得到 t 则两个字符串是同构的所有出现的字符都必须替换为另一个字符同时保留字符的顺序任何两个字符都不能映射到同一个字符但一个字符可以映射到其自身例如给定 e
如何在magento中调用另一个动作？

是否可以在magento中调用另一个动作例如让我们考虑两种操作方法添加动作更新操作调用 addAction 时是否可以实际调用 updateAction 谢谢巴兰您可以进行转发例如 public function addAc
Objective-C 中的自动解析库 - [自动 XML/JSON 到对象转换]

Objective C 中是否有一个我可以在 iPhone 中使用的库在其中我可以提前告诉库这些标签应该在 xml 文件中出现然后该库会自动为我解析它并给我一个 NSDictionary 数组作为回报或类似的东西简而言之我正在寻找一
为什么本机 python 列表上的 for 循环比 numpy 数组上的 for 循环更快

我正在阅读介绍 numpy 的章节高性能Python并在我自己的计算机上使用了代码我无意中用 for 循环运行了 numpy 版本发现与本机 python 循环相比结果出奇地慢代码的简化版本如下其中我定义了一个值为 0 的二维数组

为什么本机 python 列表上的 for 循环比 numpy 数组上的 for 循环更快

为什么本机 python 列表上的 for 循环比 numpy 数组上的 for 循环更快 的相关文章

随机推荐

热门标签

为什么本机 python 列表上的 for 循环比 numpy 数组上的 for 循环更快的相关文章