Pandas 中最快的计算方法？

2024-03-28

给定这两个数据框：

df1 =
     Name  Start  End
  0  A     10     20
  1  B     20     30
  2  C     30     40

df2 =
     0   1
  0  5   10
  1  15  20
  2  25  30

df2没有列名，但您可以假设列 0 的偏移量为df1.Start第 1 列的偏移量为df1.End。我想转置df2 onto df1获得开始和结束差异。决赛df1数据框应如下所示：

  Name  Start  End  Start_Diff_0  End_Diff_0  Start_Diff_1  End_Diff_1  Start_Diff_2  End_Diff_2
0    A     10   20             5          10            -5           0           -15         -10
1    B     20   30            15          20             5          10            -5           0
2    C     30   40            25          30            15          20             5          10

我有一个可行的解决方案，但我对此不满意，因为在处理具有数百万行的数据帧时运行时间太长。下面是模拟处理 30,000 行的示例测试用例。正如您可以想象的那样，在 1GB 数据帧上运行原始解决方案 (method_1) 将是一个问题。有没有更快的方法使用 Pandas、Numpy 或其他包来做到这一点？

UPDATE:我已将提供的解决方案添加到基准测试中。

# Import required modules
import numpy as np
import pandas as pd
import timeit

# Original
def method_1():
    df1 = pd.DataFrame([['A', 10, 20], ['B', 20, 30], ['C', 30, 40]] * 10000, columns=['Name', 'Start', 'End'])
    df2 = pd.DataFrame([[5, 10], [15, 20], [25, 30]], columns=None)
    # Store data for new columns in a dictionary
    new_columns = {}
    for index1, row1 in df1.iterrows():
        for index2, row2 in df2.iterrows():
            key_start = 'Start_Diff_' + str(index2)
            key_end = 'End_Diff_' + str(index2)
            if (key_start in new_columns):
                new_columns[key_start].append(row1[1]-row2[0])
            else:
                new_columns[key_start] = [row1[1]-row2[0]]
            if (key_end in new_columns):
                new_columns[key_end].append(row1[2]-row2[1])
            else:
                new_columns[key_end] = [row1[2]-row2[1]]
    # Add dictionary data as new columns
    for key, value in new_columns.items():
        df1[key] = value

# jezrael - https://stackoverflow.com/a/60843750/452587
def method_2():
    df1 = pd.DataFrame([['A', 10, 20], ['B', 20, 30], ['C', 30, 40]] * 10000, columns=['Name', 'Start', 'End'])
    df2 = pd.DataFrame([[5, 10], [15, 20], [25, 30]], columns=None)
    # Convert selected columns to 2d numpy array
    a = df1[['Start', 'End']].to_numpy()
    b = df2[[0, 1]].to_numpy()
    # Output is 3d array; convert it to 2d array
    c = (a - b[:, None]).swapaxes(0, 1).reshape(a.shape[0], -1)
    # Generate columns names and with DataFrame.join; add to original
    cols = [item for x in range(b.shape[0]) for item in (f'Start_Diff_{x}', f'End_Diff_{x}')]
    df1 = df1.join(pd.DataFrame(c, columns=cols, index=df1.index))

# sammywemmy - https://stackoverflow.com/a/60844078/452587
def method_3():
    df1 = pd.DataFrame([['A', 10, 20], ['B', 20, 30], ['C', 30, 40]] * 10000, columns=['Name', 'Start', 'End'])
    df2 = pd.DataFrame([[5, 10], [15, 20], [25, 30]], columns=None)
    # Create numpy arrays of df1 and df2
    df1_start = df1.loc[:, 'Start'].to_numpy()
    df1_end = df1.loc[:, 'End'].to_numpy()
    df2_start = df2[0].to_numpy()
    df2_end = df2[1].to_numpy()
    # Use np tile to create shapes that allow elementwise subtraction
    tiled_start = np.tile(df1_start, (len(df2), 1)).T
    tiled_end = np.tile(df1_end, (len(df2), 1)).T
    # Subtract df2 from df1
    start = np.subtract(tiled_start, df2_start)
    end = np.subtract(tiled_end, df2_end)
    # Create columns for start and end
    start_columns = [f'Start_Diff_{num}' for num in range(len(df2))]
    end_columns = [f'End_Diff_{num}' for num in range(len(df2))]
    # Create dataframes of start and end
    start_df = pd.DataFrame(start, columns=start_columns)
    end_df = pd.DataFrame(end, columns=end_columns)
    # Lump start and end into one dataframe
    lump = pd.concat([start_df, end_df], axis=1)
    # Sort the columns by the digits at the end
    filtered = lump.columns[lump.columns.str.contains('\d')]
    cols = sorted(filtered, key=lambda x: x[-1])
    lump = lump.reindex(cols, axis='columns')
    # Hook lump back to df1
    df1 = pd.concat([df1,lump],axis=1)

print('Method 1:', timeit.timeit(method_1, number=3))
print('Method 2:', timeit.timeit(method_2, number=3))
print('Method 3:', timeit.timeit(method_3, number=3))

Output:

Method 1: 50.506279182
Method 2: 0.08886280600000163
Method 3: 0.10297686199999845

我建议在这里使用 numpy - 将选定的列转换为2d numpy第一步中的数组::

a = df1[['Start','End']].to_numpy()
b = df2[[0,1]].to_numpy()

输出是 3d 数组，将其转换为2d array:

c = (a - b[:, None]).swapaxes(0,1).reshape(a.shape[0],-1)
print (c)
[[  5  10  -5   0 -15 -10]
 [ 15  20   5  10  -5   0]
 [ 25  30  15  20   5  10]]

最后生成列名称和DataFrame.join http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html添加到原来的：

cols = [item for x in range(b.shape[0]) for item in (f'Start_Diff_{x}', f'End_Diff_{x}')]
df = df1.join(pd.DataFrame(c, columns=cols, index=df1.index))
print (df)
  Name  Start  End  Start_Diff_0  End_Diff_0  Start_Diff_1  End_Diff_1  \
0    A     10   20             5          10            -5           0   
1    B     20   30            15          20             5          10   
2    C     30   40            25          30            15          20   

   Start_Diff_2  End_Diff_2  
0           -15         -10  
1            -5           0  
2             5          10

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pandas 中最快的计算方法？的相关文章

python pandas 标记如果列中每个值有多个唯一行

在下面的数据框中我有三列 Code Category Count X A 89734 X A 239487 Y B 298787 Z B 87980 W C 098454 我需要添加一列如果一个类别有多个唯一代码如上例中的 B 它会获
如何在python中将纬度经度转换为十进制？

假设我有以下内容 latitude 20 55 70 010N longitude 32 11 50 000W 转换为十进制形式最简单的方法是什么有图书馆吗从秒形式转换会更简单吗 149520 220N 431182 897W 为了处理
vscode python 远程解释器

通过使用 VSCode Visual Studio Code 我在本地 Python Anaconda 解释器上执行 Python 代码现在我想对其进行设置以便能够在远程 Python 解释器上执行该代码我有一个 Linux 设备它
有没有办法将类实例定义为 None ？

例如当我有这样一个Node类定义 class Node def init self val None next None self val val self next next def bool self return self val
无法在python中使用selenium打开IE

我正在 Windows 10 计算机 Internet Explorer 11 python 3 6 selenium 3 4 3 和 IEDriverServer 3 5 上运行我正在尝试使用以下代码打开 IE from seleniu
Python 的局限性是什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我花了几天时间阅读有关 C 和 Python 的内容发现 Python 非常简单且易于学习所以我想知道它真的值得花时间学习吗或者我应该花时
Selenium + Python如何监听元素的变化

这个想法是创建一个机器人来读取聊天消息所有消息都在一个ul gt li 不必写消息例如 ul class message list li class message Hello There li li class message Hel
仅使用 NumPy einsum 处理上三角元素

我使用 numpy einsum 来计算形状为 3 N 的列向量 pts 数组与其自身的点积从而得到形状为 N N 的矩阵 dotps 与所有点积这是我使用的代码 dotps np einsum ij ik gt jk pts pts
长异常链的优雅替代方案？ [复制]

这个问题在这里已经有答案了很多时候我发现自己写的东西看起来像这样 try procedure a except WrongProcedureError try procedure b except WrongProcedureError
不和谐.py |如何检查正在发送的消息是直接发送到机器人 (DM) 还是在聊天中发送？

我想检查发送的消息 on message 是否在发送给机器人的 DM 中或者只是在任何其他地方发送例如公会中的聊天任何帮助将不胜感激 client event async def on message message if messa
PyQt5：如何将 QPushButton 连接到插槽？

好吧几乎所有教程可理解的用人类语言编写的文档都是针对 PyQt4 的但是 PyQt5 改变了整个将按钮连接到插槽的工作方式但我仍然不知道如何做到这一点我在 QtDesigner 中做了一个快速 gui 并且有一个 QPushB
如何在Python 2.7中访问ODB文件

我想在 Python 中访问 ODB 文件使用 LibreOffice Base 创建并提取一个表以供进一步使用 ODB包含多个表一种关系设计和多种表单是否可以在不使用任何 SQL 的情况下实现这一目标 Edit 由于我自己解析这种
包含多个双引号的 CSV 拆分正则表达式

我有一个包含文本的 CSV 列数据每行用双引号分隔一行中的示例文本类似于此 notice 新行和每行之前的空格是故意的 Lorem ipsum dolor sit amet consectetur adipisicing elit se
如何像 urllib 这样的模拟/存根 python 模块

我需要测试一个需要使用 urllib urlopen 它也使用 urllib urlencode 查询外部服务器上的页面的函数服务器可能宕机页面可能发生变化我不能依赖它进行测试控制 urllib urlopen 返回内容的最佳方法是
pandas/numpy int64 中意外的 32 位整数溢出（python 3.6）

让我从示例代码开始 import numpy from pandas import DataFrame a DataFrame nums 2233 23160 43608 a nums numpy int64 a nums print a
Matplotlib 条形图 - 有些条形不可见并且宽度似乎不同[重复]

这个问题在这里已经有答案了该问题与 matplotlib 条形图有关具体来说当我绘制条形图时有些条形不可见 Dots and bars uses the same data series so should be in the sa
如何使用 numpy 将向量填充和/或截断为指定长度？

我有几个清单 a 1 2 3 b 1 2 3 4 5 6 其长度可变我想返回一个长度为 5 的向量这样如果输入列表长度 5 那么它将在第 5 个元素处被截断例如输入a会回来np array 1 2 3 0 0 并输入b会回来np a
如何获取使用 Dataproc 工作流模板提交的 jobId

我已在 Airflow 操作员的帮助下使用 Dataproc 工作流模板提交了 Hive 作业 DataprocWorkflowTemplateInstantiateInlineOperator https airflow readthed
如何将焦点设置到 django 表单元素的 CharField

我的登录页面使用 Django 表单 I want to set focus to the first textField username when the page loads 我尝试使用 Jquery 如下但没有得到结果 forms
Discord 音乐机器人 VoiceClient' 对象没有属性 'create_ytdl_player'

我想编写自己的不和谐机器人它可以播放 youtube 上的一些歌曲但它不会创建 ydl 播放器这是错误Command raised an exception AttributeError VoiceClient object has

随机推荐

从 eclipse 中卸载和删除插件

我正在从 eclipse 卸载选项中卸载名为 X 的插件现在为了明确方法我进入 eclipse 插件目录并从那里删除插件 jar 文件现在我尝试重新安装相同的插件并且 eclipse 提示错误期间发生错误 org eclipse
结构化 Spark 流指标检索

我有一个具有结构化 Spark 流的应用程序我想获取一些指标例如调度延迟延迟等通常此类指标可以在 Spark UI Streaming 选项卡中找到但是结构化流不存在此类功能我知道那么如何获取这些指标值呢目前我尝试使用查
Java 泛型：泛型映射（深拷贝）的方法签名

我有几个Map其本身可能再次包含Maps 任何类型我写了一个带有签名的方法 public static
netbeans jvi vimrc 文件位置

我已经开始使用 netbeans vim 插件 Jvi 并且我似乎找不到 vimrc 文件位置我发现一个选项似乎说它将把 vimrc 保存在主文件夹中但那里没有我正在使用Ubuntu 谢谢 jVi 不支持 vimscript 因此它不
文本框的日期验证

我一直用它来将日期设为 mm dd yyyy 格式
ViewModelProviders 在 1.1.0 中已弃用

看着谷歌文档 https developer android com topic libraries architecture viewmodel for ViewModel 他们展示了下面的示例代码说明如何获得ViewModel val
观察角度指令中 ngModel.$invalid 的变化

我有一个指令替换select具有自定义输入控件的元素这是它的简化版本 angular module MyModule directive reflector function timeout return require ngModel
Android 从 youtube 获取视频链接

您好我正在开发一个 Android 应用程序我的应用程序的一部分想要将歌曲标题解析到 YouTube 并获取视频链接获得 100 正确的视频并不重要那么我如何从 youtube 检索数据呢任何人都可以帮助我找到解决方案这对我来说
gzip 文件如何存储在 HDFS 中

HDFS存储支持压缩格式来存储压缩文件我知道 gzip 压缩不支持夹板现在假设该文件是一个 gzip 压缩文件其压缩大小为 1 GB 现在我的问题是该文件将如何存储在 HDFS 中块大小为 64MB 由此link http com
非常奇怪的 Application.ThreadException 行为

我正在使用应用程序线程异常 http msdn microsoft com en us library system windows forms application threadexception aspx事件来处理和记录我的 winf
查找 lambda 表达式中的自由变量

有谁知道如何找出 lambda 表达式中的自由变量自由变量是不属于 lambda 参数的变量我当前的方法这对我毫无帮助是简单地使用 car 和 cdr 来遍历表达式我的主要问题是确定一个值是否是一个变量或者它是否是方案原语之一有
世博会：无效的 sdkVersion“32.0.0”

在尝试使用 expo 配置根据安装指南运行反应本机应用程序时我发现了此错误错误 sdkVersion 无效有效选项为 10 0 0 11 0 0 12 0 0 13 0 0 14 0 0 15 0 0 16 0 0 17 0 0 18
BGTaskScheduler.shared.register 未调用

我正在使用后台刷新来安排本地通知并更新我的小部件问题是没有调用任务注册方法 func application application UIApplication didFinishLaunchingWithOptions launchOp
p4v 不显示签出文件的完整列表

如果我在 p4v 中签出 4000 个文件它不会显示默认更改列表中的完整文件列表它只是说已签出 4000 个文件有什么方法可以查看 4000 个文件的完整列表吗通过编辑 gt 首选项菜单打开首选项对话框单击服务器数据您将看
Flash上传图片调整客户端大小

有谁知道如何使用 Flash 调整客户端图像大小例子客户选择一张 1200x800 的图像在上传之前 Flash 会将其变成一半或其他什么有什么想法吗 Plupload 是开源的拥有良好的文档并支持多个平台包括 Gears 和
尝试连接到 PubNub 服务时获取 PNTimeoutCategory

得到PNTimeoutCategory尝试连接到 PubNub 服务时以下是PNStatus我们收到的类别 PNErrorData information null throwable com pubnub api PubNubExcep
是否有一个直接的解决方案可以在命中 dropWhile 谓词之前*接收元素？

给定一个条件我想搜索元素列表并返回满足条件的第一个元素和前一个元素在 C C 中这很简单 int i 0 for i if arr i 0 break 当我们得到满足条件的索引后获取前一个元素就很容易了通过 arr i 1 在哈斯克
Ubuntu 14.04 桌面上的 Jenkins.log 位置

Setup 我目前正在 Ubuntu 14 04 桌面计算机上运行 Jenkins 实例我已经通过 WAR 发行版安装了 Jenkins 并在主机上将 Jenkins 作为服务运行 Issue 我正在尝试访问描述的 jenkins log
将匿名类型作为方法参数传递

在我的插件架构中我当前将插件名称字符串方法名称字符串和参数对象数组传递给我的插件服务以执行指定的方法并返回结果 T 类型插件服务的执行方法如下所示 public TResult Execute
Pandas 中最快的计算方法？

给定这两个数据框 df1 Name Start End 0 A 10 20 1 B 20 30 2 C 30 40 df2 0 1 0 5 10 1 15 20 2 25 30 df2没有列名但您可以假设列 0 的偏移量为df1 Star

Pandas 中最快的计算方法？

Pandas 中最快的计算方法？ 的相关文章

随机推荐

热门标签

Pandas 中最快的计算方法？的相关文章