在python中向量化6个for循环累积和

2024-04-30

数学问题是：

总和中的表达式实际上比上面的表达式复杂得多，但这是一个最小的工作示例，以免事情过于复杂。我使用 6 个嵌套 for 循环在 Python 中编写了此代码，正如预期的那样，即使在 Numba、Cython 和朋友的帮助下，它的性能也非常糟糕（真正的形式性能很差，需要评估数百万次）。这里是使用嵌套 for 循环和累积和编写的：

import numpy as np

def func1(a,b,c,d):
    '''
    Minimal working example of multiple summation
    '''
    B = 0
    for ai in range(0,a):
        for bi in range(0,b):
            for ci in range(0,c):
                for di in range(0,d):
                    for ei in range(0,ai+bi):
                        for fi in range(0,ci+di):
                            B += (2)**(ei-fi-ai-ci-di+1)*(ei**2-2*(ei*fi)-7*di)*np.math.factorial(ei)


    return a, b, c, d, B

该表达式由 4 个数字作为输入来控制func1(4,6,3,4)的输出B是 21769947.844726562。

我四处寻找这方面的帮助，发现了几个 Stack 帖子，其中一些例子是：

NumPy 中的外部积：矢量化六个嵌套循环 https://stackoverflow.com/questions/41808217/exterior-product-in-numpy-vectorizing-six-nested-loops

在 Python/Numpy 中使用不同的数组形状向量化三重 for 循环 https://stackoverflow.com/questions/32755768/vectorizing-triple-for-loop-in-python-numpy-with-different-array-shapes

Python 向量化嵌套 for 循环 https://stackoverflow.com/questions/39667089/python-vectorizing-nested-for-loops

我尝试使用从这些有用的帖子中学到的知识，但经过多次尝试，我不断得到错误的答案。即使对内部总和之一进行矢量化也会为实际问题带来巨大的性能增益，但总和范围不同的事实似乎让我感到困惑。有人对如何取得进展有任何建议吗？

EDIT 3:

最终（我认为）版本，更干净，更快地融入了来自max9111 的回答 https://stackoverflow.com/a/53320252.

import numpy as np
from numba import as nb

@nb.njit()
def func1_jit(a, b, c, d):
    # Precompute
    exp_min = 5 - (a + b + c + d)
    exp_max = b
    exp = 2. ** np.arange(exp_min, exp_max + 1)
    fact_e = np.empty((a + b - 2))
    fact_e[0] = 1
    for ei in range(1, len(fact_e)):
        fact_e[ei] = ei * fact_e[ei - 1]
    # Loops
    B = 0
    for ai in range(0, a):
        for bi in range(0, b):
            for ci in range(0, c):
                for di in range(0, d):
                    for ei in range(0, ai + bi):
                        for fi in range(0, ci + di):
                            B += exp[ei - fi - ai - ci - di + 1 - exp_min] * (ei * ei - 2 * (ei * fi) - 7 * di) * fact_e[ei]
    return B

这已经比之前的任何选项都快得多，但我们仍然没有利用多个 CPU。一种方法是在函数本身内部实现，例如并行化外循环。这会在每次调用创建线程时增加一些开销，因此对于较小的输入实际上会慢一些，但对于较大的值应该会明显更快：

import numpy as np
from numba import as nb

@nb.njit(parallel=True)
def func1_par(a, b, c, d):
    # Precompute
    exp_min = 5 - (a + b + c + d)
    exp_max = b
    exp = 2. ** np.arange(exp_min, exp_max + 1)
    fact_e = np.empty((a + b - 2))
    fact_e[0] = 1
    for ei in range(1, len(fact_e)):
        fact_e[ei] = ei * fact_e[ei - 1]
    # Loops
    B = np.empty((a,))
    for ai in nb.prange(0, a):
        Bi = 0
        for bi in range(0, b):
            for ci in range(0, c):
                for di in range(0, d):
                    for ei in range(0, ai + bi):
                        for fi in range(0, ci + di):
                            Bi += exp[ei - fi - ai - ci - di + 1 - exp_min] * (ei * ei - 2 * (ei * fi) - 7 * di) * fact_e[ei]
        B[ai] = Bi
    return np.sum(B)

或者，如果您想要评估函数的许多点，您也可以在该级别进行并行化。这里a_arr, b_arr, c_arr and d_arr是要评估函数的值的向量：

from numba import as nb

@nb.njit(parallel=True)
def func1_arr(a_arr, b_arr, c_arr, d_arr):
    B_arr = np.empty((len(a_arr),))
    for i in nb.prange(len(B_arr)):
        B_arr[i] = func1_jit(a_arr[i], b_arr[i], c_arr[i], d_arr[i])
    return B_arr

最佳配置取决于您的输入、使用模式、硬件等，因此您可以结合不同的想法来适合您的情况。

EDIT 2:

其实，忘记我之前说的话了。最好的办法是以更有效的方式 JIT 编译算法。首先计算昂贵的部分（我采用指数和阶乘），然后将其传递给编译后的循环函数：

import numpy as np
from numba import njit

def func1(a, b, c, d):
    exp_min = 5 - (a + b + c + d)
    exp_max = b
    exp = 2. ** np.arange(exp_min, exp_max + 1)
    ee = np.arange(a + b - 2)
    fact_e = scipy.special.factorial(ee)
    return func1_inner(a, b, c, d, exp_min, exp, fact_e)

@njit()
def func1_inner(a, b, c, d, exp_min, exp, fact_e):
    B = 0
    for ai in range(0, a):
        for bi in range(0, b):
            for ci in range(0, c):
                for di in range(0, d):
                    for ei in range(0, ai + bi):
                        for fi in range(0, ci + di):
                            B += exp[ei - fi - ai - ci - di + 1 - exp_min] * (ei * ei - 2 * (ei * fi) - 7 * di) * fact_e[ei]
    return B

在我的实验中，这是迄今为止最快的选项，并且几乎不需要额外的内存（仅预先计算的值，其大小与输入成线性关系）。

a, b, c, d = 4, 6, 3, 4
# The original function
%timeit func1_orig(a, b, c, d)
# 2.07 ms ± 33.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
# The grid-evaluated function
%timeit func1_grid(a, b, c, d)
# 256 µs ± 25 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
# The precompuation + JIT-compiled function
%timeit func1_jit(a, b, c, d)
# 19.6 µs ± 3.25 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)

好吧，总是可以选择对整个事情进行网格评估：

import numpy as np
import scipy.special

def func1(a, b, c, d):
    ai, bi, ci, di, ei, fi = np.ogrid[:a, :b, :c, :d, :a + b - 2, :c + d - 2]
    # Compute
    B = (2.) ** (ei - fi - ai - ci - di + 1) * (ei ** 2 - 2 * (ei * fi) - 7 * di) * scipy.special.factorial(ei)
    # Mask out of range elements for last two inner loops
    m = (ei < ai + bi) & (fi < ci + di)
    return np.sum(B * m)

print(func1(4, 6, 3, 4))
# 21769947.844726562

I used scipy.special.factorial https://docs.scipy.org/doc/scipy/reference/generated/scipy.special.factorial.html因为显然np.factorial https://docs.scipy.org/doc/numpy/reference/generated/numpy.factorial.html由于某种原因不适用于数组。

显然，这样的内存成本会增加very增加参数时速度会加快。该代码实际上执行了不必要的计算，因为两个内部循环的迭代次数不同，因此（在此方法中）您必须使用最大的计算，然后删除不需要的计算。希望矢量化能够弥补这一点。一个小型 IPython 基准测试：

a, b, c, d = 4, 6, 3, 4
# func1_orig is the original loop-based version
%timeit func1_orig(a, b, c, d)
# 2.9 ms ± 110 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
# func1 here is the vectorized version
%timeit func1(a, b, c, d)
# 210 µs ± 6.34 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

EDIT:

请注意，之前的方法也不是全有或全无的事情。您可以选择仅对某些循环进行网格评估。例如，两个最里面的循环可以像这样矢量化：

def func1(a, b, c, d):
    B = 0
    e = np.arange(a + b - 2).reshape((-1, 1))
    f = np.arange(c + d - 2)
    for ai in range(0, a):
        for bi in range(0, b):
            ei = e[:ai + bi]
            for ci in range(0, c):
                for di in range(0, d):
                    fi = f[:ci + di]
                    B += np.sum((2.) ** (ei - fi - ai - ci - di + 1) * (ei ** 2 - 2 * (ei * fi) - 7 * di) * scipy.special.factorial(ei))
    return B

这仍然有循环，但它确实避免了额外的计算，并且内存需求要低得多。哪一个最好取决于我猜输入的大小。在我的测试中，使用原始值 (4, 6, 3, 4)，这甚至比原始函数慢；另外，对于这种情况，似乎为创建新数组ei and fi在每个循环上进行操作比在预先创建的循环的一部分上进行操作要快。然而，如果将输入乘以 4 (14, 24, 12, 16)，那么这比原始值（大约 x5）快得多，尽管仍然比完全矢量化的（大约 x3）慢。另一方面，我可以使用这个（大约 5 分钟）计算输入缩放十倍（40,60,30,40）的值，但由于内存的原因不能使用前一个（我没有测试如何原始功能需要很长时间）。使用@numba.jit有一点帮助，虽然不是很大（不能使用nopython由于阶乘函数）。您可以根据输入的大小尝试对更多或更少的循环进行矢量化。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在python中向量化6个for循环累积和的相关文章

为什么从 Pandas 1.0 中删除了日期时间？

我在 pandas 中处理大量数据分析并每天使用 pandas datetime 最近我收到警告 FutureWarning pandas datetime 类已弃用并将在未来版本中从 pandas 中删除改为从 datetime 模块
元组有什么用？

我现在正在学习 Python 课程我们刚刚介绍了元组作为数据类型之一我阅读了它的维基百科页面但是我无法弄清楚这种数据类型在实践中会有什么用处我可以提供一些需要一组不可变数字的示例吗也许是在 Python 中这与列表有何不同每
在 django ORM 中查询时如何将 char 转换为整数？

最近开始使用 Django ORM 我想执行这个查询 select student id from students where student id like 97318 order by CAST student id as UNSIG
Python 中的舍入浮点问题

我遇到了 np round np around 的问题它没有正确舍入我无法包含代码因为当我手动设置值而不是使用我的数据时返回有效但这是输出 In 177 a Out 177 0 0099999998 In 178 np rou
用枢轴点拟合曲线 Python

我有下面的图我想用 2 条线来拟合它使用 python 我设法适应上半部分 def func x a b x np array x return a x b popt pcov curve fit func up x up y 我想用另
跟踪 pypi 依赖项 - 谁在使用我的包

无论如何是否可以通过 pip 或 PyPi 来识别哪些项目在 Pypi 上发布可能正在使用我的包也在 PyPi 上发布我想确定每个包的用户群以及可能尝试积极与他们互动预先感谢您的任何答案即使我想做的事情是不可能的这实际上是不
Pandas 日期时间格式

是否可以用零后缀表示 pd to datetime 似乎零被删除了 print pd to datetime 2000 07 26 14 21 00 00000 format Y m d H M S f 结果是 2000 07 26 14
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
如何将张量流模型部署到azure ml工作台

我在用Azure ML Workbench执行二元分类到目前为止一切正常我有很好的准确性我想将模型部署为用于推理的 Web 服务我真的不知道从哪里开始 azure 提供了这个doc https learn microsoft co
如何在 Python 中解析和比较 ISO 8601 持续时间？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 Python v2 库它允许我解析和比较 ISO 8601 持续时间may处于不同单
从Python中的字典列表中查找特定值

我的字典列表中有以下数据 data I versicolor 0 Sepal Length 7 9 I setosa 0 I virginica 1 I versicolor 0 I setosa 1 I virginica 0 Sepal
Cython 和类的构造函数

我对 Cython 使用默认构造函数有疑问我的 C 类 Node 如下 Node h class Node public Node std cerr lt lt calling no arg constructor lt lt std e
加快网络抓取速度

我正在使用一个非常简单的网络抓取工具抓取 23770 个网页scrapy 我对 scrapy 甚至 python 都很陌生但设法编写了一个可以完成这项工作的蜘蛛然而它确实很慢爬行 23770 个页面大约需要 28 小时我看过scr
Python3 在 DirectX 游戏中移动鼠标

我正在尝试构建一个在 DirectX 游戏中执行一些操作的脚本除了移动鼠标之外我一切都正常是否有任何可用的模块可以移动鼠标适用于 Windows python 3 Thanks I used pynput https pypi or
使用特定颜色和抖动在箱形图上绘制数据点

我有一个plotly graph objects Box图我显示了箱形图中的所有点我需要根据数据的属性为标记着色如下所示我还想抖动这些点下面未显示 Using Box我可以绘制点并抖动它们但我不认为我可以给它们着色 fig a
如何解决 PDFBox 没有 unicode 映射错误？

我有一个现有的 PDF 文件我想使用 python 脚本将其转换为 Excel 文件目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico
python import inside函数隐藏现有变量

我在我正在处理的多子模块项目中遇到了一个奇怪的 UnboundLocalError 分配之前引用的局部变量问题并将其精简为这个片段使用标准库中的日志记录模块 import logging def foo logging info fo
模拟pytest中的异常终止

我的多线程应用程序遇到了一个错误主线程的任何异常终止例如未捕获的异常或某些信号都会导致其他线程之一死锁并阻止进程干净退出我解决了这个问题但我想添加一个测试来防止回归但是我不知道如何在 pytest 中模拟异常终止如果我只
Django-tables2 列总计

我正在尝试使用此总结列中的所有值文档 https github com bradleyayers django tables2 blob master docs pages column headers and footers rst 但页
如何应用一个函数 n 次？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案假设我有一个函数它接受一个参数并返回相同类型的结果 def increment x return x 1 如何制作高阶函数repeat可以

随机推荐

ImageMagick - 向图像添加白色透明覆盖层

我需要拍摄一张正常的图像并添加白色透明覆盖层使其看起来像这样不要注意转换后图像上的文本或它是原始图像的裁剪版本这一事实我需要简单地将顶部转换为完全相同的图像只是使用白色透明的覆盖层我还需要它是一个 cli 命令更新答案这更容
如何在Sql Server 2008全文搜索中忽略html标签

我正在使用 SQL Server 2008 全文搜索引擎开发一个知识库项目项目包含在文章和文件中其中每篇文章都有多个文件在这些文章中全部内容是纯html 现在我在 SQL Server 2008 上成功创建了全文目录和索引并且我
Python sched.scheduler 超过最大递归深度

我最近开始学习 Python 我正在制作的简单应用程序的一部分包括一个在其自己的线程中运行的带有 hh mm ss 显示的计时器环顾网络我发现了两种实现此目的的方法使用 sched scheduler 使用threading Time
创建自定义 BigDecimal 类型

在我的应用程序中所有 BigDecimal 数字都被缩放为具有两位小数换句话说每次我在代码中创建一个新的 BigDecimal 时我也需要使用方法scale BigDecimal x BigDecimal ZERO x setSca
如何在 Rails Admin 中隐藏添加新选项

我正在自定义 Rails Admin https github com sferik rails admin https github com sferik rails admin 我需要禁用隐藏某些型号的添加新选项任何帮助都会为我
Python：使用html解析器提取特定数据

我开始使用 Python 中的 HTMLParser 从网站中提取数据我得到了我想要的一切除了两个 HTML 标签内的文本以下是 HTML 标签的示例 a href http wold livingsources org vocabu
当我在 Excel 中运行宏时标题被切断

我在主电子表格中设置了一个标题在其中运行不同的宏以对信息进行不同的排序当我运行宏时标题的底部部分被切断我的标题确实包含图像不确定这是否与之有关我还在所有宏中运行以下代码部分来格式化第一行信息 Rows 1 1 WrapText
将日期时间转换为时间跨度

我想转换一个DateTime实例化为TimeSpan举例来说可能吗我环顾四周但找不到我想要的东西我只找到了时差更具体地说我想转换DateTime实例以毫秒为单位然后将其保存到IsolatedStorage 中您可以只使用日期
Smalltalk 和 IoC

我看到很多 Net 和 Java 的 IoC 框架有谁知道为什么 Smalltalk 没有等效的框架这更像是一个哲学问题我想知道 Smalltalk 的做事方式中是否有某些东西排除了 IoC 框架的必要性 MVC http en wi
更改 Word 文档的页边距

我创建了一个带有按钮的 Web 部件单击该按钮后会生成一个包含特定列表的列表项值的 Word 文档我希望能够更改文档的边距顶部底部边距但我不确定如何继续谁能阐明如何实现这一目标到目前为止我的代码如下 void Generat
从 ggplot 转换时，plotly 会删除分组图例（按颜色、按符号）

我不太明白为什么当我转换由ggplot to plotly using ggplotly The 情节帮助页面 https plotly com ggplot2 legend 没有任何信息我认为他们的示例在该页面上甚至无法正常工作任何帮
GLSL - 计算表面法线

我有一个用 GLSL 编写的简单顶点着色器我想知道是否有人可以帮助我计算表面的法线我正在升级一个平面所以当前的灯光模型看起来很奇怪这是我当前的代码 varying vec4 oColor varying vec3 oEyeNo
在 R 中生成具有不同样本大小的多项式随机变量

我需要生成具有不同样本大小的多项随机变量假设我已经生成了样本大小如下所示 samplesize c 50 45 40 48 然后我需要根据这个不同的样本大小生成多项随机变量我尝试使用 for 循环并使用 apply 函数 sapply
将表达式转换为带有扭曲的合取范式

我有一个必须与之交互的库它基本上充当数据源检索数据时我可以将特殊的过滤表达式传递给该库稍后将其转换为 SQL WHERE 部分这些表达方式非常有限它们必须是合取范式喜欢 A or B or C and D or E or
readRDS 无法读入 R 中的文件。是否有替代方案？

我正在尝试读取从此处下载的 RDS 文件 https github com jheng5 googleCharts tree master inst examples bubble https github com jcheng5 goog
“班级未注册”是哪个班级？

考虑这段代码 try ISomeObject pObj uuidof SomeClass ISomeObject pObj2 uuidof SomeOtherClass catch com error e Log what failed I
如何使用 dotenv 从 .env 和 .env.local 加载环境变量？

这可能看起来像一个新手问题但我无法找到使用 dotenv 从节点中的 env 和 env local 文件加载环境变量的方法有可能吗如果不使用 dotenv 现在人们如何从这两个文件加载环境变量引用自 dotenv 的 npm 页面
Node.js 支持的操作系统

是否有关于 Node js 支持的确切操作系统的官方声明我唯一能找到的是this one https docs appdynamics com display PRO42 Node js Supported Environments No
为路径创建别名

是否可以在 PowerShell 中为路径创建别名例如我必须一直写下去 PS PS C Users Jacek gt cd C windows microsoft net framework v4 0 30319 如果我能写我会很高兴
在python中向量化6个for循环累积和

数学问题是总和中的表达式实际上比上面的表达式复杂得多但这是一个最小的工作示例以免事情过于复杂我使用 6 个嵌套 for 循环在 Python 中编写了此代码正如预期的那样即使在 Numba Cython 和朋友的帮助下它的性能

在python中向量化6个for循环累积和

在python中向量化6个for循环累积和 的相关文章

随机推荐

热门标签

在python中向量化6个for循环累积和的相关文章