Pandas 中最快的计算方法?

2024-03-28

给定这两个数据框:

df1 =
     Name  Start  End
  0  A     10     20
  1  B     20     30
  2  C     30     40

df2 =
     0   1
  0  5   10
  1  15  20
  2  25  30

df2没有列名,但您可以假设列 0 的偏移量为df1.Start第 1 列的偏移量为df1.End。我想转置df2 onto df1获得开始和结束差异。决赛df1数据框应如下所示:

  Name  Start  End  Start_Diff_0  End_Diff_0  Start_Diff_1  End_Diff_1  Start_Diff_2  End_Diff_2
0    A     10   20             5          10            -5           0           -15         -10
1    B     20   30            15          20             5          10            -5           0
2    C     30   40            25          30            15          20             5          10

我有一个可行的解决方案,但我对此不满意,因为在处理具有数百万行的数据帧时运行时间太长。下面是模拟处理 30,000 行的示例测试用例。正如您可以想象的那样,在 1GB 数据帧上运行原始解决方案 (method_1) 将是一个问题。有没有更快的方法使用 Pandas、Numpy 或其他包来做到这一点?

UPDATE:我已将提供的解决方案添加到基准测试中。

# Import required modules
import numpy as np
import pandas as pd
import timeit

# Original
def method_1():
    df1 = pd.DataFrame([['A', 10, 20], ['B', 20, 30], ['C', 30, 40]] * 10000, columns=['Name', 'Start', 'End'])
    df2 = pd.DataFrame([[5, 10], [15, 20], [25, 30]], columns=None)
    # Store data for new columns in a dictionary
    new_columns = {}
    for index1, row1 in df1.iterrows():
        for index2, row2 in df2.iterrows():
            key_start = 'Start_Diff_' + str(index2)
            key_end = 'End_Diff_' + str(index2)
            if (key_start in new_columns):
                new_columns[key_start].append(row1[1]-row2[0])
            else:
                new_columns[key_start] = [row1[1]-row2[0]]
            if (key_end in new_columns):
                new_columns[key_end].append(row1[2]-row2[1])
            else:
                new_columns[key_end] = [row1[2]-row2[1]]
    # Add dictionary data as new columns
    for key, value in new_columns.items():
        df1[key] = value

# jezrael - https://stackoverflow.com/a/60843750/452587
def method_2():
    df1 = pd.DataFrame([['A', 10, 20], ['B', 20, 30], ['C', 30, 40]] * 10000, columns=['Name', 'Start', 'End'])
    df2 = pd.DataFrame([[5, 10], [15, 20], [25, 30]], columns=None)
    # Convert selected columns to 2d numpy array
    a = df1[['Start', 'End']].to_numpy()
    b = df2[[0, 1]].to_numpy()
    # Output is 3d array; convert it to 2d array
    c = (a - b[:, None]).swapaxes(0, 1).reshape(a.shape[0], -1)
    # Generate columns names and with DataFrame.join; add to original
    cols = [item for x in range(b.shape[0]) for item in (f'Start_Diff_{x}', f'End_Diff_{x}')]
    df1 = df1.join(pd.DataFrame(c, columns=cols, index=df1.index))

# sammywemmy - https://stackoverflow.com/a/60844078/452587
def method_3():
    df1 = pd.DataFrame([['A', 10, 20], ['B', 20, 30], ['C', 30, 40]] * 10000, columns=['Name', 'Start', 'End'])
    df2 = pd.DataFrame([[5, 10], [15, 20], [25, 30]], columns=None)
    # Create numpy arrays of df1 and df2
    df1_start = df1.loc[:, 'Start'].to_numpy()
    df1_end = df1.loc[:, 'End'].to_numpy()
    df2_start = df2[0].to_numpy()
    df2_end = df2[1].to_numpy()
    # Use np tile to create shapes that allow elementwise subtraction
    tiled_start = np.tile(df1_start, (len(df2), 1)).T
    tiled_end = np.tile(df1_end, (len(df2), 1)).T
    # Subtract df2 from df1
    start = np.subtract(tiled_start, df2_start)
    end = np.subtract(tiled_end, df2_end)
    # Create columns for start and end
    start_columns = [f'Start_Diff_{num}' for num in range(len(df2))]
    end_columns = [f'End_Diff_{num}' for num in range(len(df2))]
    # Create dataframes of start and end
    start_df = pd.DataFrame(start, columns=start_columns)
    end_df = pd.DataFrame(end, columns=end_columns)
    # Lump start and end into one dataframe
    lump = pd.concat([start_df, end_df], axis=1)
    # Sort the columns by the digits at the end
    filtered = lump.columns[lump.columns.str.contains('\d')]
    cols = sorted(filtered, key=lambda x: x[-1])
    lump = lump.reindex(cols, axis='columns')
    # Hook lump back to df1
    df1 = pd.concat([df1,lump],axis=1)

print('Method 1:', timeit.timeit(method_1, number=3))
print('Method 2:', timeit.timeit(method_2, number=3))
print('Method 3:', timeit.timeit(method_3, number=3))

Output:

Method 1: 50.506279182
Method 2: 0.08886280600000163
Method 3: 0.10297686199999845

我建议在这里使用 numpy - 将选定的列转换为2d numpy第一步中的数组::

a = df1[['Start','End']].to_numpy()
b = df2[[0,1]].to_numpy()

输出是 3d 数组,将其转换为2d array:

c = (a - b[:, None]).swapaxes(0,1).reshape(a.shape[0],-1)
print (c)
[[  5  10  -5   0 -15 -10]
 [ 15  20   5  10  -5   0]
 [ 25  30  15  20   5  10]]

最后生成列名称和DataFrame.join http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.join.html添加到原来的:

cols = [item for x in range(b.shape[0]) for item in (f'Start_Diff_{x}', f'End_Diff_{x}')]
df = df1.join(pd.DataFrame(c, columns=cols, index=df1.index))
print (df)
  Name  Start  End  Start_Diff_0  End_Diff_0  Start_Diff_1  End_Diff_1  \
0    A     10   20             5          10            -5           0   
1    B     20   30            15          20             5          10   
2    C     30   40            25          30            15          20   

   Start_Diff_2  End_Diff_2  
0           -15         -10  
1            -5           0  
2             5          10  
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Pandas 中最快的计算方法? 的相关文章

随机推荐

  • 从 eclipse 中卸载和删除插件

    我正在从 eclipse 卸载选项中卸载名为 X 的插件 现在为了明确方法 我进入 eclipse 插件目录并从那里删除插件 jar 文件 现在我尝试重新安装相同的插件 并且 eclipse 提示错误 期间发生错误 org eclipse
  • 结构化 Spark 流指标检索

    我有一个具有结构化 Spark 流的应用程序 我想获取一些指标 例如调度延迟 延迟等 通常 此类指标可以在 Spark UI Streaming 选项卡中找到 但是 结构化流不存在此类功能我知道 那么如何获取这些指标值呢 目前 我尝试使用查
  • Java 泛型:泛型映射(深拷贝)的方法签名

    我有几个Map其本身可能再次包含Maps 任何类型 我写了一个带有签名的方法 public static
  • netbeans jvi vimrc 文件位置

    我已经开始使用 netbeans vim 插件 Jvi 并且我似乎找不到 vimrc 文件位置 我发现一个选项似乎说它将把 vimrc 保存在主文件夹中 但那里没有 我正在使用Ubuntu 谢谢 jVi 不支持 vimscript 因此它不
  • 文本框的日期验证

    我一直用它来将日期设为 mm dd yyyy 格式
  • ViewModelProviders 在 1.1.0 中已弃用

    看着谷歌文档 https developer android com topic libraries architecture viewmodel for ViewModel 他们展示了下面的示例代码 说明如何获得ViewModel val
  • 观察角度指令中 ngModel.$invalid 的变化

    我有一个指令替换select具有自定义输入控件的元素 这是它的简化版本 angular module MyModule directive reflector function timeout return require ngModel
  • Android 从 youtube 获取视频链接

    您好 我正在开发一个 Android 应用程序 我的应用程序的一部分想要将歌曲标题解析到 YouTube 并获取视频链接 获得 100 正确的视频并不重要 那么我如何从 youtube 检索数据呢 任何人都可以帮助我找到解决方案 这对我来说
  • gzip 文件如何存储在 HDFS 中

    HDFS存储支持压缩格式来存储压缩文件 我知道 gzip 压缩不支持夹板 现在假设该文件是一个 gzip 压缩文件 其压缩大小为 1 GB 现在我的问题是 该文件将如何存储在 HDFS 中 块大小为 64MB 由此link http com
  • 非常奇怪的 Application.ThreadException 行为

    我正在使用应用程序线程异常 http msdn microsoft com en us library system windows forms application threadexception aspx事件来处理和记录我的 winf
  • 查找 lambda 表达式中的自由变量

    有谁知道如何找出 lambda 表达式中的自由变量 自由变量是不属于 lambda 参数的变量 我当前的方法 这对我毫无帮助 是简单地使用 car 和 cdr 来遍历表达式 我的主要问题是确定一个值是否是一个变量或者它是否是方案原语之一 有
  • 世博会:无效的 sdkVersion“32.0.0”

    在尝试使用 expo 配置根据安装指南运行反应本机应用程序时 我发现了此错误 错误 sdkVersion 无效 有效选项为 10 0 0 11 0 0 12 0 0 13 0 0 14 0 0 15 0 0 16 0 0 17 0 0 18
  • BGTaskScheduler.shared.register 未调用

    我正在使用后台刷新来安排本地通知并更新我的小部件 问题是没有调用任务注册方法 func application application UIApplication didFinishLaunchingWithOptions launchOp
  • p4v 不显示签出文件的完整列表

    如果我在 p4v 中签出 4000 个文件 它不会显示默认更改列表中的完整文件列表 它只是说已签出 4000 个文件 有什么方法可以查看 4000 个文件的完整列表吗 通过 编辑 gt 首选项 菜单打开首选项对话框 单击 服务器数据 您将看
  • Flash上​​传图片调整客户端大小

    有谁知道如何使用 Flash 调整客户端图像大小 例子 客户选择一张 1200x800 的图像 在上传之前 Flash 会将其变成一半或其他什么 有什么想法吗 Plupload 是开源的 拥有良好的文档并支持多个平台 包括 Gears 和
  • 尝试连接到 PubNub 服务时获取 PNTimeoutCategory

    得到PNTimeoutCategory尝试连接到 PubNub 服务时 以下是PNStatus我们收到的类别 PNErrorData information null throwable com pubnub api PubNubExcep
  • 是否有一个直接的解决方案可以在命中 dropWhile 谓词之前*接收元素?

    给定一个条件 我想搜索元素列表并返回满足条件的第一个元素和前一个元素 在 C C 中这很简单 int i 0 for i if arr i 0 break 当我们得到满足条件的索引后 获取前一个元素就很容易了 通过 arr i 1 在哈斯克
  • Ubuntu 14.04 桌面上的 Jenkins.log 位置

    Setup 我目前正在 Ubuntu 14 04 桌面计算机上运行 Jenkins 实例 我已经通过 WAR 发行版安装了 Jenkins 并在主机上将 Jenkins 作为服务运行 Issue 我正在尝试访问描述的 jenkins log
  • 将匿名类型作为方法参数传递

    在我的插件架构中 我当前将插件名称 字符串 方法名称 字符串 和参数 对象数组 传递给我的插件服务 以执行指定的方法并返回结果 T 类型 插件服务的执行方法如下所示 public TResult Execute
  • Pandas 中最快的计算方法?

    给定这两个数据框 df1 Name Start End 0 A 10 20 1 B 20 30 2 C 30 40 df2 0 1 0 5 10 1 15 20 2 25 30 df2没有列名 但您可以假设列 0 的偏移量为df1 Star