Python 中 FFT 的循环加速（使用“np.einsum”）

2024-04-25

Problem:我想加速包含大量乘积和求和的 python 循环np.einsum，但我也愿意接受任何其他解决方案。

我的函数采用形状为 (n,n,3) 的向量配置 S（我的情况：n=72），并对 N*N 点的相关函数进行傅里叶变换。相关函数定义为每个向量与其他向量的乘积。它乘以向量位置乘以 kx 和 ky 值的余弦函数。每个位置i,j最后求和得到k空间中的一个点p,m:

def spin_spin(S,N):
    n= len(S)
    conf = np.reshape(S,(n**2,3))
    chi = np.zeros((N,N))
    kx = np.linspace(-5*np.pi/3,5*np.pi/3,N)
    ky = np.linspace(-3*np.pi/np.sqrt(3),3*np.pi/np.sqrt(3),N)

    x=np.reshape(triangular(n)[0],(n**2))
    y=np.reshape(triangular(n)[1],(n**2))
    for p in range(N):
        for m in range(N):
            for i in range(n**2):
                for j in range(n**2):        
                    chi[p,m] += 2/(n**2)*np.dot(conf[i],conf[j])*np.cos(kx[p]*(x[i]-x[j])+ ky[m]*(y[i]-y[j]))
    return(chi,kx,ky)

我的问题是，我需要大约 100*100 个点，用 kx*ky 表示，并且循环需要很多小时才能完成具有 72*72 向量的晶格的这项工作。计算次数：72*72*72*72*100*100 我无法使用内置的 FFTnumpy，由于我的三角形网格，所以我需要一些其他选项来减少这里的计算成本。

My idea:首先，我认识到将配置重塑为向量列表而不是矩阵可以降低计算成本。此外，我使用了 numba 包，这也降低了成本，但仍然太慢。我发现计算此类对象的一个好方法是np.einsum功能。计算每个向量与每个向量的乘积是通过以下方式完成的：

np.einsum('ij,kj -> ik',np.reshape(S,(72**2,3)),np.reshape(S,(72**2,3)))

棘手的部分是计算里面的项np.cos。在这里，我想计算形状 (100,1) 列表与向量位置之间的乘积（例如np.shape(x)=(72**2,1)）。特别是我真的不知道如何实现x方向和y方向的距离np.einsum.

重现代码（可能您不需要这个）：首先你需要一个矢量配置。你可以简单地用np.ones((72,72,3)或者以随机向量为例：

def spherical_to_cartesian(r, theta, phi):
    '''Convert spherical coordinates (physics convention) to cartesian coordinates'''
    sin_theta = np.sin(theta)
    x = r * sin_theta * np.cos(phi)
    y = r * sin_theta * np.sin(phi)
    z = r * np.cos(theta)

    return x, y, z # return a tuple

def random_directions(n, r):
    '''Return ``n`` 3-vectors in random directions with radius ``r``'''
    out = np.empty(shape=(n,3), dtype=np.float64)

    for i in range(n):
        # Pick directions randomly in solid angle
        phi = random.uniform(0, 2*np.pi)
        theta = np.arccos(random.uniform(-1, 1))
        # unpack a tuple
        x, y, z = spherical_to_cartesian(r, theta, phi)
        out[i] = x, y, z

    return out
S = np.reshape(random_directions(72**2,1),(72,72,3))

（本例中的重塑需要在函数中对其进行整形spin_spin回到 (72**2,3) 形状。）

对于向量的位置，我使用由下式定义的三角形网格

def triangular(nsize):
    '''Positional arguments of the spin configuration'''

    X=np.zeros((nsize,nsize))
    Y=np.zeros((nsize,nsize))
    for i in range(nsize):
        for j in range(nsize):
            X[i,j]+=1/2*j+i
            Y[i,j]+=np.sqrt(3)/2*j
    return(X,Y)

优化的 Numba 实施

代码中的主要问题是调用外部 BLAS 函数np.dot反复地以极其small数据。在此代码中，仅计算一次会更有意义，但如果您必须在循环中执行此计算，请编写 Numba 实现。Example https://stackoverflow.com/a/59356461/4045774

优化功能（暴力破解）

import numpy as np
import numba as nb

@nb.njit(fastmath=True,error_model="numpy",parallel=True)
def spin_spin(S,N):
    n= len(S)
    conf = np.reshape(S,(n**2,3))
    chi = np.zeros((N,N))
    kx = np.linspace(-5*np.pi/3,5*np.pi/3,N).astype(np.float32)
    ky = np.linspace(-3*np.pi/np.sqrt(3),3*np.pi/np.sqrt(3),N).astype(np.float32)

    x=np.reshape(triangular(n)[0],(n**2)).astype(np.float32)
    y=np.reshape(triangular(n)[1],(n**2)).astype(np.float32)

    #precalc some values
    fact=nb.float32(2/(n**2))
    conf_dot=np.dot(conf,conf.T).astype(np.float32)

    for p in nb.prange(N):
        for m in range(N):
            #accumulating on a scalar is often beneficial
            acc=nb.float32(0)
            for i in range(n**2):
                for j in range(n**2):        
                    acc+= conf_dot[i,j]*np.cos(kx[p]*(x[i]-x[j])+ ky[m]*(y[i]-y[j]))
            chi[p,m]=fact*acc

    return(chi,kx,ky)

优化功能（去除多余计算）

做了很多多余的计算。这是有关如何删除它们的示例。这也是一个以双精度进行计算的版本。

@nb.njit()
def precalc(S):
    #There may not be all redundancies removed
    n= len(S)
    conf = np.reshape(S,(n**2,3))
    conf_dot=np.dot(conf,conf.T)
    x=np.reshape(triangular(n)[0],(n**2))
    y=np.reshape(triangular(n)[1],(n**2))

    x_s=set()
    y_s=set()
    for i in range(n**2):
        for j in range(n**2):
            x_s.add((x[i]-x[j]))
            y_s.add((y[i]-y[j]))

    x_arr=np.sort(np.array(list(x_s)))
    y_arr=np.sort(np.array(list(y_s)))


    conf_dot_sel=np.zeros((x_arr.shape[0],y_arr.shape[0]))
    for i in range(n**2):
        for j in range(n**2):
            ii=np.searchsorted(x_arr,x[i]-x[j])
            jj=np.searchsorted(y_arr,y[i]-y[j])
            conf_dot_sel[ii,jj]+=conf_dot[i,j]

    return x_arr,y_arr,conf_dot_sel

@nb.njit(fastmath=True,error_model="numpy",parallel=True)
def spin_spin_opt_2(S,N):
    chi = np.empty((N,N))
    n= len(S)

    kx = np.linspace(-5*np.pi/3,5*np.pi/3,N)
    ky = np.linspace(-3*np.pi/np.sqrt(3),3*np.pi/np.sqrt(3),N)

    x_arr,y_arr,conf_dot_sel=precalc(S)
    fact=2/(n**2)
    for p in nb.prange(N):
        for m in range(N):
            acc=nb.float32(0)
            for i in range(x_arr.shape[0]):
                for j in range(y_arr.shape[0]):        
                    acc+= fact*conf_dot_sel[i,j]*np.cos(kx[p]*x_arr[i]+ ky[m]*y_arr[j])
            chi[p,m]=acc

    return(chi,kx,ky)

@nb.njit()
def precalc(S):
    #There may not be all redundancies removed
    n= len(S)
    conf = np.reshape(S,(n**2,3))
    conf_dot=np.dot(conf,conf.T)
    x=np.reshape(triangular(n)[0],(n**2))
    y=np.reshape(triangular(n)[1],(n**2))

    x_s=set()
    y_s=set()
    for i in range(n**2):
        for j in range(n**2):
            x_s.add((x[i]-x[j]))
            y_s.add((y[i]-y[j]))

    x_arr=np.sort(np.array(list(x_s)))
    y_arr=np.sort(np.array(list(y_s)))


    conf_dot_sel=np.zeros((x_arr.shape[0],y_arr.shape[0]))
    for i in range(n**2):
        for j in range(n**2):
            ii=np.searchsorted(x_arr,x[i]-x[j])
            jj=np.searchsorted(y_arr,y[i]-y[j])
            conf_dot_sel[ii,jj]+=conf_dot[i,j]

    return x_arr,y_arr,conf_dot_sel

@nb.njit(fastmath=True,error_model="numpy",parallel=True)
def spin_spin_opt_2(S,N):
    chi = np.empty((N,N))
    n= len(S)

    kx = np.linspace(-5*np.pi/3,5*np.pi/3,N)
    ky = np.linspace(-3*np.pi/np.sqrt(3),3*np.pi/np.sqrt(3),N)

    x_arr,y_arr,conf_dot_sel=precalc(S)
    fact=2/(n**2)
    for p in nb.prange(N):
        for m in range(N):
            acc=nb.float32(0)
            for i in range(x_arr.shape[0]):
                for j in range(y_arr.shape[0]):        
                    acc+= fact*conf_dot_sel[i,j]*np.cos(kx[p]*x_arr[i]+ ky[m]*y_arr[j])
            chi[p,m]=acc

    return(chi,kx,ky)

Timings

#brute-force
%timeit res=spin_spin(S,100)
#48 s ± 671 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

#new version
%timeit res_2=spin_spin_opt_2(S,100)
#5.33 s ± 59.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit res_2=spin_spin_opt_2(S,1000)
#1min 23s ± 2.43 s per loop (mean ± std. dev. of 7 runs, 1 loop each)

编辑（SVML 检查）

import numba as nb
import numpy as np

@nb.njit(fastmath=True)
def foo(n):
    x   = np.empty(n*8, dtype=np.float64)
    ret = np.empty_like(x)
    for i in range(ret.size):
            ret[i] += np.cos(x[i])
    return ret

foo(1000)

if 'intel_svmlcc' in foo.inspect_llvm(foo.signatures[0]):
    print("found")
else:
    print("not found")

#found

如果有一个not found read 这个链接。 https://numba.pydata.org/numba-doc/dev/user/performance-tips.html#intel-svml它应该可以在 Linux 和 Windows 上运行，但我还没有在 macOS 上进行测试。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 中 FFT 的循环加速（使用“np.einsum”）的相关文章

在云服务器中运行 python 脚本的最简单方法是什么？

我有一个网络爬行 python 脚本需要几个小时才能完成并且无法在我的本地计算机上完整运行有没有一种方便的方法可以将其部署到简单的 Web 服务器该脚本基本上将网页下载到文本文件中如何最好地实现这一点谢谢既然你说性能是一个问题
在 Heroku 应用程序中同时运行 Django 和 Node

我想在我的 heroku 实例上同时运行 django 应用程序和节点应用程序这是我的进程文件 web python manage py runserver 0 0 0 0 PORT web node bin node modules a
mod_wsgi 下的 psp（python 服务器页面）代码？

有没有办法在 apache mod wsgi 下运行 psp python 服务器页面代码虽然我们正在转向基于 wsgi 的新框架但我们仍然有一些用 psp 编写的遗留代码这些代码在 mod python 下运行我们希望能够在托管
如何在 Python 中使用 Selenium 运行无头 Chrome？

我正在尝试使用 selenium 进行一些操作我真的希望我的脚本能够快速运行我认为使用无头 Chrome 运行我的脚本会使其速度更快首先这个假设是否正确或者我是否使用无头驱动程序运行我的脚本并不重要我希望无头 Chrome 能够
使用SchemDraw库自动保存图像

我想在Python中使用这个库来生成电气图 https cdelker bitbucket io SchemDraw https cdelker bitbucket io SchemDraw 我想在服务器中运行这段代码这个想法是生成图像
python 2.7 字符 \u2013 [重复]

这个问题在这里已经有答案了我有以下代码 coding utf 8 print u William Burges 1827 81 was an English architect and designer 当我尝试从cmd运行它时我收到以
python 线程是如何工作的？

我想知道 python 线程是并发运行还是并行运行例如如果我有两个任务并在两个线程中运行它们它们是同时运行还是计划同时运行我知道GIL并且线程仅使用一个 CPU 核心这是一个复杂的问题需要大量解释我将坚持使用 CPython
将numpy字符串数组转换为int数组[重复]

这个问题在这里已经有答案了我有一个 numpy ndarray a 0 99 0 56 0 56 2 02 0 96 如何将其转换为int 输出 a 0 99 0 0 0 56 0 56 2 02 0 96 我想要 0 0 代替空白 im
Python 中意外的缩进错误[重复]

这个问题在这里已经有答案了我有一段简单的代码我不明白我的错误来自哪里解析器在第 5 行 if 语句上用意外的缩进向我咆哮有人看到这里的问题吗我不 def gen fibs a b 0 1 while True a b b a b
如何动态构造方法？

我设计了一个类它非常标准具有一些方法属性 class foo def f1 self print f1 def f2 self print f2 def fn self print fn 现在我想创建一个包含一组 foo 实例的类 cl
使用光栅重新投影 .tiff 文件：CRSError：无法解析 WKT。 OGR 错误代码 6

我正在尝试使用以下代码将 tiff 文件重新投影到 EPSG 32638 我安装过的版本光栅版本 1 1 5 Numpy 版本 1 18 1 这是我正在使用的代码 https rasterio readthedocs io en late
为 Mercurial 执行 hgweb.cgi 时，指定的 CGI 应用程序行为不当...

我有 IIS 6 我将 Mercurial 安装在 c program files mercurial 中我在 c program files python 中安装了 Python 2 6 I added extension handli
如何在 python 中将 selenium webelement 转换为字符串变量

from selenium import webdriver from time import sleep from selenium common exceptions import NoSuchAttributeException fr
在 Python 中删除表达式树及其每个子表达式树中第一个元素周围的括号

目标是实现简化操作删除表达式树及其每个子表达式树中第一个元素周围的括号其中表达式作为括在各个括号中的字符串输入给出这必须适用于任意数量的括号例如 12 3 45 6 gt 123 45 6 删除 12 周围的括号然后删除 45 周
抑制来自 python pandas 描述的名称 dtype

可以说我有 r pd DataFrame A 1 B pd Series 1 index list range 4 dtype float32 And r B describe mean std min max 给出输出 mean 1 0
如何编辑多个 Pandas DataFrame 浮点列的字符串格式？

我有一个pd DataFrame浮点数 import numpy as np import pandas as pd pd DataFrame np random rand 5 5 0 1 2 3 4 0 0 795329 0 125540
Pandas：Drop() int64 基于值返回对象

我需要删除其中一列低于某个值的所有行我使用了下面的命令但这将列作为对象返回我需要将其保留为int64 df customer id df drop df customer id df customer id lt 9999999 in
pyspark：将 schemaRDD 保存为 json 文件

我正在寻找一种将数据从 Apache Spark 以 JSON 格式导出到各种其他工具的方法我认为一定有一种非常简单的方法来做到这一点示例我有以下 JSON 文件 jfile json key value a1 key2 value
Django - 在启动时执行代码

我正在使用 Django 1 9 3 我有一个包含多个应用程序的项目我想在项目启动时更新其中一个应用程序的表用例例如假设我想在我的网站上销售商品我有一个包含模型项目的应用程序我在 Django 之外有一个网络服务它提供服务 g
将下载的字体添加到 Tkinter

我想下载一个开源字体并在我的 Python Tkinter 程序中使用它如何告诉 Tkinter 从目录导入字体或将字体放在与程序相同的文件夹中 Note 我已经寻找答案一段时间了甚至阅读了 Tkinter 的 API 参考了解我能找

随机推荐

从 Perl 守护程序运行时，为什么 FFMpeg 在五秒后停止？

我用 Perl 编写了一个小守护程序它调用 FFMpeg 对视频进行编码但编码在 5 秒左右后停止我用这段代码来启动它 my t echo ffmpeg command gt gt self gt FFMPEG OUTPUT my l
在 flutter 应用程序中实现轮廓文本字段输入和标签文本

我想要一个带有边框的文本字段输入边框内有标签如下图所示先感谢您我想你想要实现这样的目标 Inactive Active Validation 您可以使用此小部件来实现此设计 class OutlineBorderTextFormFi
y -= m < 3 是什么意思？

在查看一些示例 C 代码时我发现了这一点 y m lt 3 这是做什么的它是某种压缩的 for 循环之类的吗据我所知用谷歌搜索是不可能的 m lt 3或者是1 or 0 取决于真值 So y y 1 when m lt 3 is t
golang - 省略 json 属性进行序列化的优雅方法

我有一个用户结构其中包含密码等敏感字段 type User struct UID string json uid binding required Password string json password binding require
T-SQL-在单个查询中包含计数总和（*）

使用表 i 以及字段 date entered 和 code 我编写了一个查询来列出每年 code 12A 的计数 select distinct year date entered as Yr count as Cnt from i wh
如何使用 JavaScript 四舍五入到任意数量的有效数字？

我尝试了下面的示例代码 function sigFigs n sig if n 0 return 0 var mult Math pow 10 sig Math floor Math log n lt 0 n n Math LN10 1 r
在 Converter 中将 JSF 日历日期转换为 JodaTime

JodaTime 可能是最好的日期和时间库因此我很想从后台 bean 的 JodaTime 实例中的前端 xhtml Calendar 小部件接收用户输入因此我正在考虑使用 JSF Converter 来完成这项工作这样做明智吗同
在node.js 中创建链式方法？

是否可以在 Node js 中创建像这样的异步链式方法 File create file jpg rename renamed jpg append Hello World 也就是说非阻塞你基本上想要abstractAPI 上的文件处理操
ShapeDrawable 中的偏移形状

我正在尝试使用扩展 ShapeDrawable 的类来绘制一个带有边框的圆角矩形请参阅here https stackoverflow com questions 2145131 trying to draw a button how t
有没有基于bootstrap的可视化网页编辑器？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
在完全自动反转重复周期之间延迟 SwiftUI 中的重复动画

我正在 SwiftUI 中构建一个 Apple Watch 应用它可以读取用户的心率并将其显示在心形符号旁边我有一个动画可以让心形符号反复跳动由于我知道实际用户的心率因此我希望使其以与用户心率相同的速率跳动并在每次速率变化时更新动
GAM SDK 测试安装后不显示 Gmail 上下文小工具

在 Google Apps Marketplace SDK 中测试安装流程后我无法在 Gmail 中看到上下文小工具以下是我创建项目所采取的步骤以域管理员身份登录创建 Google Apps 控制台项目创建 OAuth2 客户端
如何在 Angular 6+ 中的本地计算机上运行 Dist 文件夹？

我正在构建应用程序Angular6 现在我运行命令ng build prod这给了我一个 dist 文件夹如何在本地主机上检查或提供该文件夹你可以使用http服务器 https www npmjs com package http se
如何列出已安装的 go 软件包

据我所知go distribution带有某种package manager After go 1 4 1我已经运行的安装go help为了找到任何能够列出本地安装的子命令go packages 但不幸的是没有那么该怎么做呢 goinst
python: from x import y 改变之前的导入结果

我试图理解 python 中的包和模块名称隐藏规则并偶然发现了一种情况我不明白为什么我看到的结果有意义这种情况发生在 python 2 中 from future import absolute imports 和Python 3 假
HTML5 视频在移动浏览器上自动播放

我使用以下 HTML5 和 JQuery 代码来播放 URL 位于数组 URLArray 中的视频播放列表 function NextFrag if index lt URLArray length VideoContainer html
PHP 数组表示法中的大括号

我刚刚遇到了一段非常奇怪的 php 代码 oink pig 1 var dump oink oink pig 123123 echo oink pig gt 123123 echo oink pig gt 123123 它的工作原理类似于数
TypeScript + NodeJS readline 属性缺失

我正在使用 TypeScript 开发一个小项目tsc v 2 4 2和节点 v6 10 3 我想在 CLI 中捕获按键所以我尝试import as readline from readline 然后稍后使用readline emitKe
使用列表项的多重过滤器逻辑

以下代码将搜索任何重复的类 li class duplicate duplicate 在无序列表中的列表项中它将显示结果 show and hide 其他的当前版本目前它适用于两种场景 First 它显示具有相同类别至少一个或多个
Python 中 FFT 的循环加速（使用“np.einsum”）

Problem 我想加速包含大量乘积和求和的 python 循环np einsum 但我也愿意接受任何其他解决方案我的函数采用形状为 n n 3 的向量配置 S 我的情况 n 72 并对 N N 点的相关函数进行傅里叶变换相关函数定义为

Python 中 FFT 的循环加速（使用“np.einsum”）

Python 中 FFT 的循环加速（使用“np.einsum”） 的相关文章

随机推荐

热门标签

Python 中 FFT 的循环加速（使用“np.einsum”）的相关文章