优化Python：大数组、内存问题

2024-05-04

我在运行 python / numypy 代码时遇到速度问题。我不知道如何让它更快，也许其他人？

假设有一个表面有两个三角剖分，一个是细三角剖分 (..._fine)，有 M 个点，一个是粗剖分，有 N 个点。此外，还有每个点的粗网格数据（N 个浮点数）。我正在尝试执行以下操作：

对于细网格上的每个点，找到粗网格上最接近的 k 个点并获取平均值。简而言之：从粗到细插值数据。

我的代码现在是这样的。对于大数据（在我的例子中，M = 2e6，N = 1e4），代码运行大约 25 分钟，猜测是由于显式 for 循环没有进入 numpy。有什么想法如何通过智能索引来解决这个问题吗？ M x N 阵列耗尽了 RAM..

import numpy as np

p_fine.shape => m x 3
p.shape => n x 3

data_fine = np.empty((m,))
for i, ps in enumerate(p_fine):
    data_fine[i] = np.mean(data_coarse[np.argsort(np.linalg.norm(ps-p,axis=1))[:k]])

Cheers!

首先感谢您的详细帮助。

首先，Divakar，您的解决方案大大提高了速度。根据我的数据，代码运行时间略低于 2 分钟，具体取决于块大小。

我也尝试过 sklearn 并最终得到

def sklearnSearch_v3(p, p_fine, k):
    neigh = NearestNeighbors(k)
    neigh.fit(p)
    return data_coarse[neigh.kneighbors(p_fine)[1]].mean(axis=1)

最终速度相当快，对于我的数据大小，我得到以下结果

import numpy as np
from sklearn.neighbors import NearestNeighbors

m,n = 2000000,20000
p_fine = np.random.rand(m,3)
p = np.random.rand(n,3)
data_coarse = np.random.rand(n)
k = 3

yields

%timeit sklearv3(p, p_fine, k)
1 loop, best of 3: 7.46 s per loop

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Arrays

performance

NumPy

largedata

优化Python：大数组、内存问题的相关文章

为什么n++执行速度比n=n+1快？

在C语言中为什么n 执行速度快于n n 1 int n n int n n n 1 我们的老师在今天的课堂上问了这个问题这不是家庭作业如果您正在开发一个石器时代编译器的情况下石器时代 n比n 比n n 1 机器通常有incre
删除flask中的一对一关系

我目前正在使用 Flask 开发一个应用程序并且在删除一对一关系中的项目时遇到了一个大问题我的模型中有以下结构 class User db Model tablename user user id db Column db String
Pandas 日期时间格式

是否可以用零后缀表示 pd to datetime 似乎零被删除了 print pd to datetime 2000 07 26 14 21 00 00000 format Y m d H M S f 结果是 2000 07 26 14
将 python2.7 与 Emacs 24.3 和 python-mode.el 一起使用

我是 Emacs 新手我正在尝试设置我的 python 环境到目前为止我已经了解到在 python 缓冲区中使用 python mode el C c C c将当前缓冲区的内容加载到交互式 python shell 中显然使用了什么
检查两个数是否是彼此的排列？

给定两个数字 a b 使得 1 例如 123 是 312 的有效排列我也不想对数字中的数字进行排序如果您指的是数字的字符例如 1927 和 9721 则至少有几种方法如果允许排序一种方法是简单地sprintf将它们放入两个缓冲
使用 xlrd 打开 BytesIO (xlsx)

我正在使用 Django 需要读取上传的 xlsx 文件的工作表和单元格使用 xlrd 应该可以但因为文件必须保留在内存中并且可能不会保存到我不知道如何继续的位置本例中的起点是一个带有上传输入和提交按钮的网页提交后文件被捕获req
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
Jupyter Notebook 找不到 Python 模块

不知道发生了什么但每当我使用 ipython 氢原子或 jupyter 笔记本时都找不到任何已安装的模块我知道我安装了 pandas 但笔记本说找不到我应该补充一点当我正常运行脚本时 python script py 它确实导入
Python3 在 DirectX 游戏中移动鼠标

我正在尝试构建一个在 DirectX 游戏中执行一些操作的脚本除了移动鼠标之外我一切都正常是否有任何可用的模块可以移动鼠标适用于 Windows python 3 Thanks I used pynput https pypi or
从 NumPy ndarray 中选择行

我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组例如此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
import matplotlib.pyplot 给出 AttributeError: 'NoneType' 对象没有属性 'is_interactive'

我尝试在 Pycharm 控制台中导入 matplotlib pyplt import matplotlib pyplot as plt 然后作为回报我得到 Traceback most recent call last File D Pr
仅第一个加载的 Django 站点有效

我最近向 stackoverflow 提交了一个问题标题为使用mod wsgi在apache上多次请求后Django无限加载 https stackoverflow com questions 71705909 django infini
模拟pytest中的异常终止

我的多线程应用程序遇到了一个错误主线程的任何异常终止例如未捕获的异常或某些信号都会导致其他线程之一死锁并阻止进程干净退出我解决了这个问题但我想添加一个测试来防止回归但是我不知道如何在 pytest 中模拟异常终止如果我只
Scipy Sparse：SciPy/NumPy 更新后出现奇异矩阵警告

我的问题是由大型电阻器系统的节点分析产生的我基本上是在设置一个大的稀疏矩阵A 我的解向量b 我正在尝试求解线性方程A x b 为了做到这一点我正在使用scipy sparse linalg spsolve method 直到最近一切都
Django-tables2 列总计

我正在尝试使用此总结列中的所有值文档 https github com bradleyayers django tables2 blob master docs pages column headers and footers rst 但页
Pandas 每周计算重复值

我有一个Dataframe包含按周分组的日期和 ID df date id 2022 02 07 1 3 5 4 2022 02 14 2 1 3 2022 02 21 9 10 1 2022 05 16 我想计算每周有多少 id 与上周重
在 JavaScript 函数的 Django 模板中转义字符串参数

我有一个 JavaScript 函数它返回一组对象 return Func id name 例如我在传递包含引号的字符串时遇到问题 Dr Seuss ABC BOOk 是无效语法 I tried name safe 但无济于事有什么解
更改 Tk 标签小部件中单个单词的颜色

我想更改 Tkinter 标签小部件中单个单词的字体颜色我知道可以使用文本小部件来实现与我想要完成的类似的事情例如使单词 YELLOW 显示为黄色 self text tag config tag yel fg clr yellow s
使用 z = f(x, y) 形式的 B 样条方法来拟合 z = f(x)

作为一个潜在的解决方案这个问题 https stackoverflow com questions 76476327 how to avoid creating many binary switching variables in gekk
使用随机放置的 NaN 创建示例 numpy 数组

出于测试目的我想创建一个M by Nnumpy 数组与c随机放置的 NaN import numpy as np M 10 N 5 c 15 A np random randn M N A mask np nan 我在创建时遇到问题mas

随机推荐

Microsoft Graph API 中的一个或多个属性包含无效值

我想在 Azure Active Directory B2C 上创建用户我按照给定链接中的每个步骤进行操作Here https learn microsoft com en us azure active directory b2c ac
如何重定向到外部404页面Python Flask

我正在尝试将 404 重定向到外部 URL 如下所示 app route 404 def http error handler error return flask redirect http www exemple com 404 404
将 vbCrLf 应用于文本框的内容

我在 Excel vba 项目中有一个用户窗体在设计时它是空的在表单初始化事件中我有以下代码 Private Sub UserForm Initialize txtSQL value SELECT MyName ColY vbCrLf
在 gridLayout 中从右向左放置项目

我有一个GridLayout在我的其中一个布局中我想从右到左放置项目这意味着我希望将单元格 1 1 放在布局的右上角我已经测试了这些代码GridView so far 1 android gravity right and andro
如何在 php 数组中添加条件？

这是数组 anArray array theFirstItem gt a first item if True conditionalItem gt it may appear base on the condition theLastIt
未初始化成员的警告在 C++11 上消失

我编译这个简单的程序 include
使用回溯（而不是 DFS）背后的直觉

我正在解决单词搜索 https leetcode com problems word search description LeetCode com 上的问题给定一个 2D 板和一个单词查找该单词是否存在于网格中该单词可以由顺序相邻单
使用 swift 在 WKWebView 上显示活动指示器

我正在处理以下代码并尝试在页面加载时在视图中显示活动指示器我尝试实施WKNavigationDelegate方法但我失败了因为没有任何显示对于如何解决这个问题有任何的建议吗我没有设置 SupportWebView 视图dele
在哪里存储字符串值？在 strings.xml 中还是在常量类中？

在android中我们可以将字符串值存储在strings xml文件中或某些常量类中作为静态最终变量在某些情况下是否有理由选择一个而不是另一个简而言之代码中使用的值始终使用常量类优点代码保持集成并且您的包可以在其他项目上下
CPU缓存：两个地址之间的距离是否需要小于8字节才能具有缓存优势？

这似乎是一个奇怪的问题假设缓存行的大小为 64 字节此外假设 L1 L2 L3 具有相同的缓存行大小 this https stackoverflow com a 15333156 8385554帖子说英特尔酷睿 i7 就是这种情况
移动列表中特定元素的简单函数

我是 Haskell 的新手我正在尝试弄清楚如何创建一个函数 shift Eq a gt a gt a gt Int gt a shift x h t z 输入一个通用列表和一个相同类型的元素 x 前提条件元素x存在于列表中 Outp
使用 Mockito 对 Runnable 进行单元测试

我有这样的代码我想为其编写单元测试 public class TestClass private final Executor executor private final Handler handler TestClass Execut
Jetpack Compose 中的自定义 Toast

我想要在 Jetpack Compose 中自定义 Toast 但没有找到任何与此相关的有用文档如有任何帮助我们将不胜感激自定义 Toast 已被弃用取而代之的是 SnackBar 因此他们大多不会获得 Jetpack Compo
PL/pgSQL 中的 EXPLAIN ANALYZE 给出错误：“查询没有结果数据的目的地”

我试图理解 PL pgSQL 函数中 select 语句的查询计划但我不断收到错误我的问题如何获取查询计划以下是重现该问题的简单案例相关表名为 test table CREATE TABLE test table name cha
将 erlang shell 作为守护进程/服务运行

显然我有一个在 Erlang shell 中运行的 Erlang 程序我想监视它这就是我要的当机器启动时 Erlang shell 应该随之启动并且在 shell 中运行的程序也应该随之启动如果 Erlang shell 由于某
ActionDispatch::Http::UploadedFile.content_type 在 Rspec 测试中未初始化

背景我有一个Book模型与一个cover file通过我的 Rails 控制器之一使用上传的文件设置的属性我正在使用 Rails v4 0 4 Goal 我想测试是否仅保存具有特定内容类型的文件我计划创建 Rspec 测试示例Acti
Lucene外来字符问题

我在使用 Zend Lucene 和等外来字符时遇到了一些严重的问题这些问题在创建索引和查询索引时都会出现我已经尝试过 iso 8859 1 和 utf 8 ISO 8859 1 不起作用的查询看起来像 area sk ne 使用 Z
在长时间运行期间发送 Windows 消息？

我在运行的大型操作中收到以下消息 CLR 无法转换从 COM 上下文 0x1fe458 到 COM 上下文 0x1fe5c8 60 秒这拥有目的地的线程上下文公寓最有可能要么进行非抽水等待要么处理很长时间的运行无需泵送 W
从后台线程更新可观察列表的正确方法

我正在尝试遵循 MVC 进行测试项目因此我的模型应该完全独立于我的观点但是我不确定应该如何更新在后台线程中更新的可观察列表正在给出有关上传的字符串文件以便消息显示在 UI 上的 ListView 中我正在使用 JavaFX 并尝
优化Python：大数组、内存问题

我在运行 python numypy 代码时遇到速度问题我不知道如何让它更快也许其他人假设有一个表面有两个三角剖分一个是细三角剖分 fine 有 M 个点一个是粗剖分有 N 个点此外还有每个点的粗网格数据 N 个浮点数我正

优化Python：大数组、内存问题

优化Python：大数组、内存问题 的相关文章

随机推荐

热门标签

优化Python：大数组、内存问题的相关文章