python - 在 memmap 和 CPU 中工作时进行快速矩阵乘法和归约的方法

2023-12-01

您好，我在进行快速矩阵乘法、加法、function_overwrite 和轴缩减求和以及在没有 RAM 的 CPU 上使用 numpy.memmaps 时遇到问题（我认为）。仅当使用 numexpr 时，我才有可能避免从点创建数组。

For example:

a=np.require(np.memmap('a.npy',mode='w+',order='C',dtype=np.float64,shape=(10,1)),requirements=['O']) 
b=np.memmap('b.npy',mode='w+',order='C',dtype=np.float64,shape=(1,5))
c=np.memmap('c.npy',mode='w+',order='C',dtype=np.float64,shape=(1,5))
#func -> some method, like i.e. sin()
#in numexpr it will be simple
ne.evaluate('sum(func(b*a+c),axis=1)')
#in numpy with einsum it will have to be with creating additional out-of-dot handling array
d=np.require(np.memmap('d.npy',mode='w+',order='C',dtype=np.float64,shape=(10,5)),requirements=['O']) 

np.einsum('ij,kj->ki',b,a,out=d)
d+=c
func(d,out=d)
np.einsum('ij->i',d,out=c)

使用没有 RAM 的 CPU 是否有可能比 numexpr 更快？ Cython + FORTRAN lapack 或 blass 怎么样？欢迎任何提示或技巧！谢谢你的帮助！

编辑信息：顺便说一句，我使用的笔记本电脑配备 Intel Core2Duo t9300 CPU、2.7 GB RAM（由于一些 BIOS 问题，只能从 4GB 看到）、SSD 250GB、旧的 Intel GPU。由于 RAM 水平较低（主要由 Firefox 和一些插件使用），因此没有太多空间用于编码，因此这就是我避免使用它的原因 xD。

我觉得我在编程方面处于高级水平（步骤 1/1000），但现在我不知道代码如何在硬件上工作 - 我只是猜测（所以我的想法可能会出现一些错误 xD）。

EDIT:我在 cython 中编写了一些代码，用于使用 numexpr 和 cython prange for 循环计算正弦波。

脉动数据（om、eps、Spectra、Amplitude）存储在 OM numpy.memmap 中，时间数据（t、z）存储在 TI numpy.memmap 中。 OM 的形状类似于 (4,1,2500)，TI 的形状类似于 (2,1,5e+5,1) - 我只需要它的形状。

cdef inline void sine_wave_numexpr(OM,TI,int num_of_threads):

    cdef long m,n=10
    cdef Py_ssize_t s=TI.shape[2]/n
    cdef str ex_sine_wave=r'sum(A*sin(om*ti+eps),axis=1)'
    cdef dict dct={'A':OM[3],'om':OM[0],'eps':OM[2]}
    for m in range(n):
        sl=slice(s*m,s*(m+1))
        dct['ti']=TI[0,0,sl]
        evaluate(ex_sine_wave,
                    global_dict=dct,
                    out=TI[1,0,sl,0])
cdef inline void sine_wave_cython(double[:,:,::1]OM,double[:,:,:,::1]TI,int num_of_threads):
    cdef int i,j
    cdef Py_ssize_t n,m
    cdef double t,A,om,eps
    n=OM.shape[2]
    m=TI.shape[2]
    for i in prange(m,nogil=True,num_threads=num_of_threads):
        t=TI[0,0,i,0]
        for j in prange(n,num_threads=num_of_threads):
            A=OM[3,0,j]
            om=OM[0,0,j]
            eps=OM[2,0,j]
            TI[1,0,i,0]+=A*sin(om*t+eps)

cpdef inline void wave_elevation(double dom,OM,TI,int num_of_threads, str method='cython'):
    cdef int ni
    cdef double i,j
    cdef Py_ssize_t shape=OM.shape[2]
    numexpr_threads(num_of_threads)
    OM[2,0]=2.*np.random.standard_normal(shape)
    evaluate('sqrt(dom*2*S)',out=OM[3],
            local_dict={'dom':dom,'S':OM[1]})
    if method=='cython':
        sine_wave_cython(OM,TI,num_of_threads)
    elif method=='numexpr':
        sine_wave_numexpr(OM,TI,num_of_threads)
    TI.shape=TI.shape[:3]

我刚刚开始使用 Cython，所以它可能没有得到很好的优化。就目前而言，使用 prange 的代码与使用 numexpr 的代码花费的时间相同（包括这部分在内的所有代码的 RAM 使用量为 100 MB，CPU 为 50%，SSD 较低 - 计算时间为 1-2 分钟）。我尝试使用内存视图，但随着时间的推移，这创建了一些本地副本并使用了 RAM。我需要达到高级步骤 3/1000 才能了解如何使用内存视图。

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python - 在 memmap 和 CPU 中工作时进行快速矩阵乘法和归约的方法的相关文章

在 Python 2.7 中出现“ImportError：无法导入名称 HTTPSConnection”错误

我正在尝试在 AWS ElasticBeanstalk 中部署 django 当我按照所示步骤操作时here http docs aws amazon com elasticbeanstalk latest dg create deploy
如果 Excel 文件是由程序创建的，Pandas read_excel 对于具有简单公式的单元格返回 nan [重复]

这个问题在这里已经有答案了 I use pd read excel读取由以下命令创建的 excel 文件openpyxl并从一个网址下载解析后的数据框将给出nan如果单元格值是公式 which formula is simply 100
scipy.optimize on pandas dataframe

我试图搜索它但结果很差有人可以向我解释一下如何在 Pandas DataFrame 上执行 optimize minimize 以便最小化 DataFrame 中的类别和结果列之间的错误考虑这个例子 import pandas as
Python 转换矩阵

我有一个如下所示的列表 2 1 3 1 2 3 1 2 2 2 我想要的是一个转换矩阵它向我显示如下序列 1 后跟 1 的频率是多少 1 后面跟着 2 的频率是多少 1 后跟 3 的频率是多少 2 后跟 1 的频率是多少 2 后跟 2 的
为什么在访问 Python 对象属性时使用 getattr() 而不是 __dict__ ？

在具有一定程度的 Python 对象自省的源代码示例和 SO 答案中常见的模式是 getattr some object attribute name string 是否有理由优先选择这种模式 some object dict attri
使用 NumPy 编写一个函数来计算具有特定公差的积分

我想编写一个自定义函数来以特定容差对表达式 python 或 lambda 函数进行数字积分我知道与scipy integrate quad人们可以简单地改变epsabs但我想使用 numpy 自己编写该函数 From 这篇博文 htt
如何在Windows中的Python 3.9下pip安装pickle？

我需要pickle https docs python org 3 9 library pickle html module pickle包安装在我的下面Python 3 9在 Windows 10 下我尝试过的当尝试与pip inst
Python-验证我的文档 xls 中是否存在工作表

我正在尝试在空闲时间设计一个小程序加载 xls 文件然后在要扫描的文档中选择一张纸步骤1 用户导入 xls文件导入程序后检查文件是否存在我能做到的第 2 步我要求用户提供要分析的文档表 xls 的名称这就是它停止的地方该程
Python：在字典中查找具有唯一值的键？

我收到一个字典作为输入并且想要返回一个键列表其中字典值在该字典的范围内是唯一的我将用一个例子来澄清假设我的输入是字典 a 构造如下 a dict a cat 1 a fish 1 a dog 2 lt unique a bat 3
python Recipe：列出最接近等于值的项[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案考虑像这样的列表 0 3 7 10 12 15 19 21 我想获得最接近任何值的最近的最小数字所以如果我通过4 我会得到3 如果我
如何在matplotlib中调整x轴

I have a graph like this x轴上的数据表示小时所以我希望x轴设置为0 24 48 72 而不是现在的值很难看到 0 100 之间的数据 fig1 plt figure ax fig1 add subplot 11
Python：如何在不先创建整个列表的情况下计算列表的总和？

通常我们必须 1 声明一个列表 2 使用以下方法计算该列表的总和sum 但现在我希望指定一个以 1 开头间隔为 4 100 个元素的列表如下所示 1 5 9 13 17 21 25 29 33 37 我不想涉及数学公式所以 1 如何在
Python 读取未格式化的直接访问 Fortran 90 给出不正确的输出

这是数据的写入方式它是一个二维浮点矩阵我不确定大小 open unit 51 file rmsd nn output form unformatted access direct status replace recl Npoints
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org
两种 ODE 求解器之间的差异

我想知道两者之间有什么区别ODEINT and solve ivp用于求解微分方程它们之间有什么优点和缺点 f1 solve ivp f 0 1 y0 y0 is the initial point f2 odeint f y0 0 1
为boost python编译的.so找不到模块

我正在尝试将 C 代码包装到 python 中只需一个类即可导出两个函数我编译为map so 当我尝试时import map得到像噪音一样的错误 Traceback most recent call last File
MoviePY 无法在 Windows 上检测 ImageMagick 二进制文件

我刚买了一台新笔记本电脑想要设置MoviePY在那新的Windows 64x Python3 7 0 机器我对所有内容都进行了三次检查但是当涉及到我的代码的文本部分时它向我抛出了这个错误 OSError MoviePy Error
基于值的 matplotlib 条形图颜色

有没有一种方法可以根据条形图的值对条形图的条形进行着色例如 values below 0 5 red values between 0 5 to 0 green values between 0 to 08 blue etc 我找到了一些
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import

随机推荐

由于下列问题，存档提交失败。错误 ITMS-90039

我从 xcode 将应用程序上传到应用程序商店时遇到错误类型不匹配 info plist 键 UILaunchImageName 的值不是该键所需的类型更新 xcode 7 后出现此错误只需从 info plist 文件中删除 UIL
如何解决点击事件被触发两次的问题？

我有一个一页应用程序它使用backbone js 通过鼠标触发一次单击事件通过触摸设备触发点击事件两次取消绑定一键事件会在触摸设备上停止我不知道从哪里开始寻找这是JS classy on click button function
Python基于多种条件的随机样本选择

我想在 python 中从以下 df 中进行随机样本选择使得结果样本中至少 65 的颜色应为黄色并且所选数量的累积总和应小于或等于 18 原始数据集 Date Id color qty 02 03 2018 A red 5 03 03
EF 4.1：为什么将常量转换为变量会导致额外的子查询？

今天我发现实体框架向它生成的 SQL 添加了不必要的子查询我开始挖掘我的代码试图缩小它可能来自的范围过了很长一段时间后我查明了造成这种情况的原因但现在我比开始时更困惑因为我不知道为什么会导致这种情况基本上我发现在某些情况
在 PySimpleGUI 中渲染 HTML？

有谁知道是否可以让 PySimpleGUI 渲染 HTML 我并不想要一个成熟的浏览器只是一个位于 PySimpleGUI 窗口中的 HTML 查看器我知道 tkinter 有一个名为tk html widgets 我也在调查什么web
就地编辑 CMS 建议 [关闭]

Closed 这个问题是无关目前不接受答案我需要找到一个非常易于使用对于编辑作者的 CMS 最好使用类似的就地编辑SiteCore 不过我们不需要像 SiteCore 这样庞大而强大的东西用户需要能够添加页面使用我们在开
SignalR 应用程序无法在 IIS 下运行

我正在尝试在 Visual Studio 2012 中构建 SignalR 应用程序我的问题是它在 Visual Studio 调试下运行良好在 Windows 7 上使用 Visual Studio 2012 但是当我尝试在 Wind
在QML插件的QGLWidget上渲染QImage

我正在尝试写一个QML插件从视频中读取帧使用自定义小部件来执行该任务而不是 QtMultimedia Phonon 并且每个帧都转换为QImageRGB888 然后显示在QGLWidget 出于性能原因现在屏幕上没有任何内容并且屏幕
比较盒装长整型值 127 和 128

我想比较两个Long对象值使用if状况当这些值是小于 128 the if条件工作正常但当他们大于或等于128 比较失败 Example Long num1 127 Long num2 127 if num1 num2 Works ok
运行时错误：populate() 在 Django 中不可重入

我正在尝试部署django网站项目名称是pom 我尝试使用 apache2 在 ec2 服务器中运行 django 网站并收到以下错误阿帕奇错误文件 Fri Jul 24 12 37 33 621285 2015 info pid 20
为什么多维数组中需要更高维度的维度范围？

根据该帖子将 2D 数组传递给 C 函数 int array 10 10 void passFunc int a 10 lt Notice 10 here passFunc array 从编译器内部的角度来看为什么需要这个更高的维度另
奇怪地使用方括号来调用函数

使用方括号调用函数是如何工作的 100 toString function toString native code 100 toString length 1 这里到底发生了什么这是括号表示法任何属性都可以使用点或方括号表示法来访问
减小图像的文件大小

我用安卓相机拍了一张照片结果是一个字节数组我通过将其写入SD卡 FileOutputStream 来保存它结果是文件大小接近 3mb 的图像我想减小此文件大小因此压缩图像如果在将字节数组写入输出流之前能够减少文件大小那就太好了
让你的程序使用 GUI

我想编写一个程序能够通过控制鼠标键盘并能够查看屏幕上的内容来使用其他程序 I used AutoIt做类似的事情但有时我不得不作弊因为语言不是那么强大或者也许只是我很糟糕我无法用它做那么多 P 所以我需要截屏然后我
IntelliJ：将 jar 包含在 jar 工件中

使用 IntelliJ 9 0 2 Community Edition 在 Mac 上进行开发我有一个程序依赖于两个库罐子我已经弄清楚如何让 IntelliJ 为我的源代码制作一个 jar 使用 Artifact 选项卡甚至将两个 j
如何重写此查询以避免错误：您无法在 FROM 子句中指定用于更新的目标表

update websites set master 2 where url select url from websites where id 12 显然 mysql 不允许您对正在更新的表运行选择查询将其放入派生表中这会具体化为临时
接口没有构造函数，那么如何继承呢？

据我所知子类构造函数通过使用调用超类构造函数super 但既然接口没有构造函数那么如何实现继承呢但是由于接口没有任何构造函数如何进行继承很简单接口不能有任何实例字段因此无需构造任何内容您无法将代码放置在接口中至少在 Jav
Chrome 内容脚本未在 about:blank 页面中加载

我正在开发一个 Chrome 扩展它将根据以下清单加载内容脚本 content scripts matches
EWS 管理：获取预约的必需和可选与会者

就我现在而言我知道如何从交换服务器获取约会但是一旦我想查看必填和可选的与会者这些字段都是空的我检查了约会三次有一个与会者除了我我是否必须以不同的方式配置 Outlook 或者我是否遗漏了某些内容 List
python - 在 memmap 和 CPU 中工作时进行快速矩阵乘法和归约的方法

您好我在进行快速矩阵乘法加法 function overwrite 和轴缩减求和以及在没有 RAM 的 CPU 上使用 numpy memmaps 时遇到问题我认为仅当使用 numexpr 时我才有可能避免从点创建数组 For e

python - 在 memmap 和 CPU 中工作时进行快速矩阵乘法和归约的方法

python - 在 memmap 和 CPU 中工作时进行快速矩阵乘法和归约的方法 的相关文章

随机推荐

热门标签

python - 在 memmap 和 CPU 中工作时进行快速矩阵乘法和归约的方法的相关文章