如何矢量化（利用 pandas/numpy）而不是使用嵌套 for 循环

2024-02-26

我希望有效地使用pandas (or numpy) 而不是嵌套for循环与if解决特定问题的语句。这是一个玩具版本：

假设我有以下两个 DataFrame

import pandas as pd
import numpy as np

dict1 = {'vals': [100,200], 'in': [0,1], 'out' :[1,3]}
df1 = pd.DataFrame(data=dict1)

dict2 = {'vals': [500,800,300,200], 'in': [0.1,0.5,2,4], 'out' :[0.5,2,4,5]}
df2 = pd.DataFrame(data=dict2)

现在我希望循环遍历每个数据帧的每一行，并在满足特定条件时将值相乘。这段代码适用于我想要的

ans = []

for i in range(len(df1)):
    for j in range(len(df2)):
        if (df1['in'][i] <= df2['out'][j] and df1['out'][i] >= df2['in'][j]):
            ans.append(df1['vals'][i]*df2['vals'][j])

np.sum(ans)

然而，显然这是very效率低下，实际上我的数据帧可能有数百万个条目，这使得它无法使用。我也不是让我们pandas or numpy高效的向量实现。有谁知道如何有效地矢量化这个嵌套循环？

我觉得这段代码类似于矩阵乘法，因此可以利用它取得进展outer？这是if我发现很难融入这种情况，因为if逻辑需要比较每个条目df1针对所有条目df2.

您还可以使用 Numba 等编译器来完成这项工作。这也将优于矢量化解决方案，并且不需要临时数组。

Example

import numba as nb
import numpy as np
import pandas as pd
import time

@nb.njit(fastmath=True,parallel=True,error_model='numpy')
def your_function(df1_in,df1_out,df1_vals,df2_in,df2_out,df2_vals):
  sum=0.
  for i in nb.prange(len(df1_in)):
      for j in range(len(df2_in)):
          if (df1_in[i] <= df2_out[j] and df1_out[i] >= df2_in[j]):
              sum+=df1_vals[i]*df2_vals[j]
  return sum

Testing

dict1 = {'vals': np.random.randint(1, 100, 1000),
         'in': np.random.randint(1, 10, 1000),
         'out': np.random.randint(1, 10, 1000)}
df1 = pd.DataFrame(data=dict1)
dict2 = {'vals': np.random.randint(1, 100, 1500),
         'in': 5*np.random.random(1500),
         'out': 5*np.random.random(1500)}
df2 = pd.DataFrame(data=dict2)

# First call has some compilation overhead
res=your_function(df1['in'].values, df1['out'].values, df1['vals'].values,
                  df2['in'].values, df2['out'].values, df2['vals'].values)

t1 = time.time()
for i in range(1000):
  res = your_function(df1['in'].values, df1['out'].values, df1['vals'].values,
                      df2['in'].values, df2['out'].values, df2['vals'].values)

print(time.time() - t1)

Timings

vectorized solution @AGN Gazer: 9.15ms
parallelized Numba Version: 0.7ms

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

NumPy

vectorization

如何矢量化（利用 pandas/numpy）而不是使用嵌套 for 循环的相关文章

如何在 kubernetes 上使多个 pod 相互通信

我是 Kubernetes 新手我正在尝试通过 microk8s 将应用程序部署到 Kubernetes 该应用程序包含Python Flask后端 Angular前端 Redis和MySQL数据库我将映像部署在多个 Pod 中状态显
是否可以在 Sphinx 中隐藏 Python 函数参数？

假设我有以下函数该函数记录在Numpydoc 风格 https github com numpy numpy blob master doc HOWTO DOCUMENT rst txt 并且文档是自动生成的Sphinx http sph
Python pandas：删除字符串中分隔符之后的所有内容

我有数据框其中包含例如 vendor a ProductA vendor b ProductA vendor a Productb 我需要删除所有内容包括两个以便我最终得到 vendor a vendor b vendor a 我尝
S3 选择检索 CSV 中的标头

我尝试使用以下代码从存储在 S 存储桶中的 CSV 中获取记录子集 s3 boto3 client s3 bucket bucket file name file sql stmt SELECT S FROM s3object S LIMI
使用Python进行图像识别[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个想法就是我想识别图像中的字母可能是 bmp或 jpg 例如这是一个包含字母 S 的 bmp 图像我想做的是使用Pyth
将分布拟合到直方图

I want to know the distribution of my data points so first I plotted the histogram of my data My histogram looks like th
比较两个文本文件并计算差异

我一直在尝试在Python中比较两个文本文件本质上我想打开它们并一次比较一个字符如果字符不同则向计数器添加1 然后显示该值这是我到目前为止所拥有的 usr bin env python diff 0 import random im
为什么我在将数据上传到数据库时不断看到“正在重置断开的连接”？

我正在通过 REST API 将数亿个项目从 Heroku 上的云服务器上传到 AWS EC2 中的数据库我正在使用 Python 并且经常在日志中看到以下 INFO 日志消息 requests packages urllib3 conn
如何在返回的 AJAX 调用上使用 django 模板标签？

我有一个简单的 AJAX 脚本它在名为的搜索字段中获取输入的字符串AJAXBox并调用一个视图函数该函数使用过滤器查询数据库并返回与输入参数匹配的所有 User 对象的查询集当我使用 django 模板标签迭代查询集时它不起作用我
如何将一串Python代码编译成一个可以调用函数的模块？

在 Python 中我有一串 Python 源代码其中包含以下函数 mySrc def foo print foo def bar print bar 我想将这个字符串编译成某种形式类似模块的对象这样我就可以调用代码中包含的函数这是我
Bottle 是否可以处理没有并发的请求？

起初我认为 Bottle 会并发处理请求所以我编写了如下测试代码 import json from bottle import Bottle run request response get post import time app B
Numpy 通过一个数组的值总结另一个数组

我正在尝试找到一种矢量化方法来完成以下任务假设我有一个 x 和 y 值的数组请注意 x 值并不总是整数并且可以为负数 import numpy as np x np array 1 1 1 3 2 2 2 5 4 4 dtype flo
TypeError: ufunc 'subtract' 不包含签名匹配类型的循环 dtype('

当尝试获取小玩具数据集的直方图时 numpy 通过 matplotlib 出现奇怪的错误我只是不确定如何解释该错误这使得很难知道下一步该做什么不过没找到太多相关的这个nltk问题 https stackoverflow com que

在Python中打开网站框架或图像

所以我对 python 相当熟练并且经常使用 urllib2 和 Cookies 来实现网站自动化我刚刚偶然发现了 webbrowser 模块它可以在默认浏览器中打开一个网址我想知道是否可以从该 url 中仅选择一个对象并打开它具
Python 可以替代 Java 小程序吗？

除了制作用于物理模拟如抛射运动重力等的教育性 Java 小程序之外还有其他选择吗如果你想让它在浏览器中运行你可以使用PyJamas http pyjs org 这是一个 Python 到 Javascript 的编译器和工具集
Django 迁移错误 'TypeError: 序列项 1: 需要一个类似字节的对象，在 mysql-connector-pythoncursor_cent.py 文件上找到 str'

我正在 Django 项目中使用 mysql connector 来处理 mysql 请求问题是我正在使用 django admin startproject project 设置一个简单的项目当我尝试进行简单的管理 py 迁移时这是
在哪里可以找到Python内置序列类型的时间和空间复杂度

我一直无法找到此信息的来源无法亲自查看 Python 源代码来确定这些对象是如何工作的有谁知道我可以在网上找到这个吗结帐时间复杂度 http wiki python org moin TimeComplexitypy dot org
Matplotlib 渲染日期、图像的问题

我在使用 conda forge 的 Matplotlib v 3 1 3 和 python 3 7 时遇到问题我拥有 Matplotlib 所需的所有依赖项当我输入这段代码时它应该可以工作我得到了泼溅艺术它基于此 YouTube
Python模糊字符串匹配作为相关样式表/矩阵

我有一个文件其中包含 x 个字符串名称及其关联的 ID 本质上是两列数据我想要的是一个格式为 x by x 的相关样式表将相关数据作为 x 轴和 y 轴但我想要 fuzzywuzzy 库的函数 fuzz ratio x y 作为输出
将字典写入 csv 时遇到问题，其中键作为标题，值作为列

我有一本字典看起来像 mydict foo 1 2 bar 3 4 asdf 5 6 我正在尝试将其写入 CSV 文件使其看起来像 foo bar asdf 1 3 5 2 4 6 我花了最后一个小时寻找解决方案我发现的最接近的解决方

随机推荐

检索 SQL 表中的列数 - C#

我对 C 很陌生我正在尝试使用以下方法检索列数 SELECT count FROM sys columns 您能否解释一下如何使用该命令并将其放入变量中要连接到数据库您可以使用SqlConnection类然后要检索行数您可以使用E
为什么使用数组作为索引会改变多维 ndarray 的形状？

我有一个 4 D NumPy 数组轴为 x y z t 我想获取对应于 t 0 的切片并排列 y 轴上的顺序我有以下内容 import numpy as np a np arange 120 reshape 4 5 3 2 b a 1
Xcode Storyboard - 在哪里设置 UITableViewCell 高度

我正在使用 Xcode 7 并且我正在尝试设置故事板中 UITableViewCell 的高度设置为不同的设备具有不同的单元高度例如正常和紧凑 x 常规我找不到这些设置的位置这只能通过编程来实现吗单击表视图然后单击尺寸检查器
Flask、mod_wsgi 和 Apache：导入错误

我在错误日志中收到以下信息导入错误没有名为flask的模块它看起来完全像Django mod wsgi apache 导入错误没有名为 djproj urls 的模块 https stackoverflow com question
从数据文件夹备份中恢复mysql数据库

我已经卸载了旧的XAMPP并删除了所有内容d xampp folder并安装了新的当我复制备份文件夹时带有我的数据库的名称包含所有 frm and opt文件到D xampp mysql data 数据库显示在 phpmyadmin
Android Lollipop 不显示 android:背景图像

我设计了使用 JPEG 图像作为布局背景的屏幕完整的 UI 屏幕在 Android 8 中正确可见姜饼至 Android 19 Kitkat 布局背景在 Android 20 中不可见 Lollipop 我正在使用应用程序兼容性库请
删除引导程序中标题图像中的细线

我在标题菜单中有带有 bootstrap 和 svg sprite 的基本代码并且图标中有一条细细的灰色背景线 http codepen io anon pen dpzKoQ editors 1100 http codepen io a
无法显示此文件的设计器，因为无法设计其中的任何类

我们有以下共享组件 public class OurServiceBase System ServiceProcess ServiceBase 此类具有我们在所有下游服务中所需的功能例如标准化执行调度和日志记录功能在一个新项目中我添加
在打字稿中导入html模板

我试图import我的 html 模板以便 webpack 能够识别它们并在我构建时包含它们 webpack d 根据这个 GitHub 问题 https github com Microsoft TypeScript issues 27
使用 CLI omxplayer 调整音频音量级别 - Raspberry Pi

我有一个 bash 脚本可以通过 omxplayer 在 Raspberry Pi 上播放 mp3 文件但无法控制本地耳机音量GUI 是否有一个命令CLI我可以在 bash 脚本中实现吗我搜索了很多但找不到这样的命令 Code
“DataView 在 System.data 中未标记为可序列化”是什么意思？

当我将 dataview 存储在 viewstate 中时 net 显示错误 Dataview 在 system data 中未标记为可序列化但当我将其存储在会话中时它可以正常工作吗背后的原因是什么还有哪些其他对象没有标记为可序列
如何将选项传递给“集合”字段 Symfony 2.1 中的 CustomType？

I have SuperType实体表格Super 在这种形式中我有一个collection现场ChildType实体的表单类型Child class SuperType public function buildForm FormBuil
从 byte[] 下载 PDF 文件

我一直在努力做一个PDF文件下载自bytes 在 ASP Net MVC C 中下面的代码工作正常我需要将代码转换为 NET Core对于相同的PDF下载过程 string fileName testFile pdf byte pdfa
在主屏幕中安装启动器图标一次

当用户安装 Android 应用程序时会在应用程序菜单中创建启动器图标我采访过的许多用户都希望当他们安装应用程序时他们的主屏幕启动板上应该自动出现一个图标许多应用程序都以某种方式实现了这一点我的偏好是在安装时出现一个窗口询
如何在 VB.Net 中运行 Powershell 脚本

我需要在 VB Net 中运行 Exchange 2007 powershell 脚本但我似乎找不到显示如何在加载模块的情况下执行此操作的方法做到这一点的最佳方法是什么您可以在VB中运行powershell脚本请查看以下链接 htt
单击按钮即可更新 D3 等值线州地图数据

我使用 d3 datamaps 和 topojson 创建了一个 choropleth 州地图我在根据按钮单击更改原始地图数据时遇到问题首选方法是仅在更改函数内刷新原始地图的数据相反我让按钮执行函数消除包含地图的 div 然后重新创
Sqlite3_step() 在此查询上不断返回 SQLITE_MISUSE。有什么指点吗？

我试图在 viewDidLoad 例程中打开一个 sqlite 数据库并尝试将 sql 查询发送到该数据库但 sqlite step 每次都会失败我不确定这里出了什么问题我只是尝试将其作为 sqlite3 的 hello world
提交响应后 FormResponse.getId() 返回错误值

我正在编写一个程序需要各种谷歌表单响应的ID 我的程序首先创建表单对象并获取响应 var form FormApp openByUrl var allResponses form getResponses 如果表单响应是几个小时前的那么
转换时区时注意夏令时

我有一个 Redshift 数据表其中所有时间值都存储在 CST 中并且我根据邮政编码位置将时间值转换为相应的时区当我这样做时我知道所有时间值都是标准时间因此我的函数用法是 CASE WHEN convert timezone
如何矢量化（利用 pandas/numpy）而不是使用嵌套 for 循环

我希望有效地使用pandas or numpy 而不是嵌套for循环与if解决特定问题的语句这是一个玩具版本假设我有以下两个 DataFrame import pandas as pd import numpy as np dict1

如何矢量化（利用 pandas/numpy）而不是使用嵌套 for 循环

如何矢量化（利用 pandas/numpy）而不是使用嵌套 for 循环 的相关文章

随机推荐

热门标签

如何矢量化（利用 pandas/numpy）而不是使用嵌套 for 循环的相关文章