Pandas：将 Lambda 应用于多个数据帧

2024-04-10

我试图弄清楚如何同时将 lambda 函数应用于多个数据帧，而不需要先将数据帧合并在一起。我正在处理大型数据集（>60MM 记录），并且需要格外小心内存管理。

我希望有一种方法可以将 lambda 应用于底层数据帧，这样我就可以避免首先将它们缝合在一起，然后在继续该过程的下一步之前从内存中删除中间数据帧的成本。

我有通过使用基于 HDF5 的数据帧来避免内存不足问题的经验，但我宁愿先尝试探索不同的东西。

我提供了一个玩具问题来帮助演示我正在谈论的内容。

import numpy as np
import pandas as pd

# Here's an arbitrary function to use with lambda
def someFunction(input1, input2, input3, input4):
    theSum = input1 + input2
    theAverage = (input1 + input2 + input3 + input4) / 4
    theProduct = input2 * input3 * input4
    return pd.Series({'Sum' : theSum, 'Average' : theAverage, 'Product' : theProduct})

# Cook up some dummy dataframes
df1 = pd.DataFrame(np.random.randn(6,2),columns=list('AB'))
df2 = pd.DataFrame(np.random.randn(6,1),columns=list('C'))
df3 = pd.DataFrame(np.random.randn(6,1),columns=list('D'))

# Currently, I merge the dataframes together and then apply the lambda function
dfConsolodated = pd.concat([df1, df2, df3], axis=1)

# This works just fine, but merging the dataframes seems like an extra step
dfResults = dfConsolodated.apply(lambda x: someFunction(x['A'], x['B'], x['C'], x['D']), axis = 1)

# I want to avoid the concat completely in order to be more efficient with memory. I am hoping for something like this:
# I am COMPLETELY making this syntax up for conceptual purposes, my apologies.
dfResultsWithoutConcat = [df1, df2, df3].apply(lambda x: someFunction(df1['A'], df1['B'], df2['C'], df3['D']), axis = 1)

我知道这个问题有点老了，但这是我想出的一种方法。这不是很好，但是很有效。

基本思想是查询应用函数内的第二个数据帧。通过使用传递的系列的名称，您可以识别列/索引并使用它从其他数据帧检索所需的值。

def func(x, other):
    other_value = other.loc[x.name]
    return your_actual_method(x, other_value)

result = df1.apply(lambda x: func(x, df2))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

memory

pandas

Lambda

DataFrame

Pandas：将 Lambda 应用于多个数据帧的相关文章

从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
无故运行测试时 PyCharm 抛出“AttributeError: 'module' object has no attribute”

因此我有一个 Django REST Framework 项目有一天它无法在 PyCharm 中运行测试从命令行我可以使用它们来运行它们paver or the manage py直接地曾经有一段时间当我们没有在文件顶部导入类的超
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
Pandas dataframe：每批行的操作

我有一个熊猫数据框df我想计算每批行的一些统计信息例如假设我有一个batch size 200000 对于每批batch sizerows 我想要一列的唯一值的数量ID我的数据框我怎样才能做这样的事情呢这是我想要的一个例子 prin
小部件之间的自定义信号

尝试将信号从一个 gtk EventBox 子级发送到另一个在 init HeadMode 第 75 行上出现错误类型错误未知信号名称消息发送 why usr bin env python coding utf8 import p
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
ValueError：不支持连续[重复]

这个问题在这里已经有答案了我正在使用 GridSearchCV 进行线性回归的交叉验证不是分类器也不是逻辑回归我还使用 StandardScaler 对 X 进行标准化我的数据框有 17 个特征 X 和 5 个目标 y 观察约11
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
使用 Conda 更新特定模块会删除大量软件包

我最近开始使用 Anaconda Python 发行版因为它提供了许多开箱即用的数据分析库使用 conda 创建环境和安装软件包也轻而易举但是当我想更新 Python 本身或任何其他模块时我遇到了一些严重的问题我事先被告知我的很多
`pyqt5'错误`元数据生成失败`

我正在尝试安装pyqt5使用带有 M1 芯片和 Python 3 9 12 的 mac 操作系统我怀疑M1芯片可能是原因我收到一个错误metadata generation failed 最小工作示例 directly in the t
在 Spyder 的变量资源管理器中查看局部变量

我是 python 新手正在使用 Spyder 的 IDE 我欣赏它的一项功能是它的变量资源管理器然而根据一些研究我发现它只显示全局变量我找到的解决方法是使用检查模块 import inspect local vars def m
合并数据框而不重复行

我想合并两个数据框但如果有多个匹配项则不想重复行相反我想总结一下那天的观察结果来自合并提取两个数据框中与指定列匹配的行并将其连接在一起如果有多个匹配项则所有可能的匹配项各贡献一行这是一些示例代码 days lt as d
在 Windows 上使用带有对数刻度的 matplotlib 时出现 Unicode 错误

我正在使用 python 2 6 和 matplotlib 如果我运行 matplotlib 库页面中提供的示例 histogram demo py 它工作正常我已经大大简化了这个脚本 import numpy as np import
以编程方式使用 Sphinx 特定指令解析 .rst 文件

我希望能够在 Python 中解析基于 sphinx 的 rst 以便进一步处理和检查就像是 import sphinx p sphinx parse path to file rst do something with p 似乎在 do
iOS 视图控制器内存在被关闭后未释放

当用户单击按钮时它会显示一个带有两个视图控制器的新选项卡栏视图控制器我是这样做的 ACLevelDownloadController dvc ACLevelDownloadController alloc initWithNibName
Python问题：打开和关闭文件返回语法错误

大家好我发现了这个有用的 python 脚本它允许我从网站获取一些天气数据我将创建一个文件和其中的数据集有些东西不起作用它返回此错误 File
如何绘制堆积比例图？

我有一个数据框 x lt data frame id letters 1 3 val0 1 3 val1 4 6 val2 7 9 id val0 val1 val2 1 a 1 4 7 2 b 2 5 8 3 c 3 6 9 我想绘制一个
操作错误：(sqlite3.OperationalError) SQL 变量太多，同时将 SQL 与数据帧一起使用

我有一个熊猫数据框如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4
过度使用委托对性能来说是一个坏主意吗？ [复制]

这个问题在这里已经有答案了考虑以下代码 if IsDebuggingEnabled instance Log GetDetailedDebugInfo GetDetailedDebugInfo 可能是一个昂贵的方法因此我们只想在调试模式

随机推荐

静态变量与成员

如果某个类的数据将被修改并且需要在整个程序中保留但仅在一个成员函数中使用那么最好将该变量设为其所在例程的局部静态变量还是使其成为该例程的局部静态变量班级成员问题不是数据将在整个程序中使用而是如果您创建此类的两个对象您是否希
使用 nltk 中的meteor_score模块评估模型时如何实现meteor分数？

我目前有 2 个文件 reference txt 和 model txt 这两个文本文件包含原始字幕和训练后生成的字幕我可以简单地执行以下操作来获取流星分数 score nltk translate meteor score meteor
如何以MVVM模式加载wpf用户控件

我正在创建一个采用 mvvm 模式的 wpf 用户控件所以我们有视图代码隐藏文件中没有代码视图模型模型数据访问文件 I have 主窗口 xaml 作为视图文件我需要与之绑定主窗口模型 cs 通常在 wpf 应用程序中我们
pandas groupby 和rolling_apply 忽略NaN

我有一个 pandas 数据框我想计算列的滚动平均值在 groupby 子句之后但是我想排除 NaN 例如如果 groupby 返回 2 NaN 1 则结果应为 1 5 而当前它返回 NaN 我尝试了以下方法但似乎不起作用 df
如何将变量的值（字符串）设置为等于数组中的键？

我有以下数组 var deckArray card1 rank suit card2 rank suit card3 rank suit card4 rank suit card5 rank suit card6 rank suit car
如何在ArrayAdapter中的列表开头添加对象？

ArrayAdapter 有方法add T object 在列表末尾添加一个对象有没有办法在列表的开头添加对象您可以使用 insert T object int index http developer android com refe
从模板访问模型

在玩 ember 时我发现有时模型存储在控制器的content属性有时模型也可以直接在控制器上使用然而当这种情况发生时我不明白让我用一个我在组装 ember MVC 时发现的例子来解释一下设置 A 开始我定义了一个自定义Me
如何使调整 WPF 窗口大小时不那么“滞后”？

我对 WPF 世界比较陌生我立即注意到的一件事是当您调整窗口大小时窗口内容的绘制是多么滞后例如如果窗口边缘有滚动条则这些滚动条在缩小时将部分隐藏并且在放大时它们与窗口边框之间有空间即使在 Visual Studio 中创建的
Drupal 6模块安装文件未在数据库中创建表

我正在使用 Schema API 在 Drupa 6 17 上为我的模块创建表但这些表并未在数据库中创建我安装了架构模块它告诉我虽然我的模块的架构被识别但它的表不在数据库中它出现在缺失下 Tables in the sche
React Native - 设置 secureTextEntry 时无法更改字体

const entryInput forwardRef props ref gt return
从 url 获取子域名？

我需要从 url 中获取一些值就像如果网址是http www random mysite com 然后我想以某种方式得到random 但是如果使用的话这应该也有效www http or https 网址前面那么如何才能做到这一点呢我试
如何使用 ORMLite 查询构建器获取表中的总记录

如同 select count from tablename 在 ORMLITE 中应该查询什么我尝试过类似的东西 int total dao queryBuilder select count 如何使用 ORMLite 查询构建器获取表
JavaScript .hashchange 性能。它能带来任何放缓吗？

jQuery hashchange 事件 http benalman com projects jquery hashchange plugin 对我来说它看起来是目前最成熟的解决方案如果我错了请纠正我我真的很喜欢这个用于操作浏览器
Facebook Messenger 平台/机器人欢迎配置出现奇怪错误

我在为 Messenger 机器人配置欢迎消息时遇到奇怪的错误我一直在使用相同的代码如下所示直到昨晚它一直工作正常我尝试了 cURL 和Postman https www getpostman com 它们都不起作用 curl X
适用于 Android 的 USB 主机

I am trying to communicate with my freeduino board which is similar to arduino uno via usb through android device nexus
在Java中检查服务器上的路径是否存在[重复]

这个问题在这里已经有答案了我正在创建一个 Java 程序在其中将文件上传到特定路径上的服务器我在用jSch for sftp 因此在上传文件之前我想检查服务器上是否存在给定的目录 if path exists upload fil
使用 AVAudioEngine 将 AVAudioInputNode 连接到 AVAudioUnitEffect

我想处理来自设备内置麦克风的音频 AVAudioInputNode 带有音频单元效果 AVAudioUnitEffect 对于我的例子我正在使用AVAudioUnitReverb 连接中AVAudioUnitReverb导致应用程序崩溃
Swift 3：从 UIBezierPath 创建 UIImage

我有一个UIBezierPath 我最终需要一个UIImageView从中现在我正在尝试首先创建一个UIImage 然后是一个UIImageView从那我正在快速工作并且我已经研究过类似的问题并且答案要么不起作用要么产生形状而不是
ASP.NET MVC 1 向前兼容 ASP.NET MVC 2 吗？

我可以使用 MVC 2 程序集顺利运行 MVC 1 应用程序吗我知道一些 3rd 方工具在 MVC 2 中出现了问题但我们假设我没有使用这些其他工具曾经有过重大变化 http go microsoft com fwlink LinkI
Pandas：将 Lambda 应用于多个数据帧

我试图弄清楚如何同时将 lambda 函数应用于多个数据帧而不需要先将数据帧合并在一起我正在处理大型数据集 gt 60MM 记录并且需要格外小心内存管理我希望有一种方法可以将 lambda 应用于底层数据帧这样我就可以避免首先将它

Pandas：将 Lambda 应用于多个数据帧

Pandas：将 Lambda 应用于多个数据帧 的相关文章

随机推荐

热门标签

Pandas：将 Lambda 应用于多个数据帧的相关文章