两个 DataFrame 中每一行和每一列之间的差异（Python / Pandas）

2024-02-25

是否有更有效的方法来比较一个 DF 中每一行中的每一列与另一个 DF 中每一行中的每一列？这对我来说很草率，但我的循环/应用尝试要慢得多。

df1 = pd.DataFrame({'a': np.random.randn(1000),
                   'b': [1, 2] * 500,
                   'c': np.random.randn(1000)},
                   index=pd.date_range('1/1/2000', periods=1000))
df2 = pd.DataFrame({'a': np.random.randn(100),
                'b': [2, 1] * 50,
                'c': np.random.randn(100)},
               index=pd.date_range('1/1/2000', periods=100))
df1 = df1.reset_index()
df1['embarrassingHackInd'] = 0
df1.set_index('embarrassingHackInd', inplace=True)
df1.rename(columns={'index':'origIndex'}, inplace=True)
df1['df1Date'] = df1.origIndex.astype(np.int64) // 10**9
df1['df2Date'] = 0
df2 = df2.reset_index()
df2['embarrassingHackInd'] = 0
df2.set_index('embarrassingHackInd', inplace=True)
df2.rename(columns={'index':'origIndex'}, inplace=True)
df2['df2Date'] = df2.origIndex.astype(np.int64) // 10**9
df2['df1Date'] = 0
timeit df3 = abs(df1-df2)

10 个循环，3 个循环中最好的：每个循环 60.6 毫秒

我需要知道进行了哪个比较，因此将每个相反索引丑陋地添加到比较 DF 中，以便它将最终出现在最终 DF 中。

预先感谢您的任何帮助。

您发布的代码显示了生成减法表的巧妙方法。然而，它并没有发挥 Pandas 的优势。 Pandas DataFrame 将底层数据存储在基于列的块中。因此，按列检索数据的速度最快，而不是按行检索。由于所有行都具有相同的索引，因此减法是按行执行的（将每一行与其他每一行配对），这意味着存在大量基于行的数据检索df1-df2。这对于 Pandas 来说并不理想，特别是当并非所有列都具有相同的数据类型时。

减法表是 NumPy 所擅长的：

In [5]: x = np.arange(10)

In [6]: y = np.arange(5)

In [7]: x[:, np.newaxis] - y
Out[7]: 
array([[ 0, -1, -2, -3, -4],
       [ 1,  0, -1, -2, -3],
       [ 2,  1,  0, -1, -2],
       [ 3,  2,  1,  0, -1],
       [ 4,  3,  2,  1,  0],
       [ 5,  4,  3,  2,  1],
       [ 6,  5,  4,  3,  2],
       [ 7,  6,  5,  4,  3],
       [ 8,  7,  6,  5,  4],
       [ 9,  8,  7,  6,  5]])

你可以想到x作为一列df1, and y作为一列df2。您将在下面看到 NumPy 可以处理df1和所有列df2以基本相同的方式，使用基本相同的语法。

下面的代码定义了orig and using_numpy. orig是您发布的代码，using_numpy是使用 NumPy 数组执行减法的另一种方法：

In [2]: %timeit orig(df1.copy(), df2.copy())
10 loops, best of 3: 96.1 ms per loop

In [3]: %timeit using_numpy(df1.copy(), df2.copy())
10 loops, best of 3: 19.9 ms per loop

import numpy as np
import pandas as pd
N = 100
df1 = pd.DataFrame({'a': np.random.randn(10*N),
                   'b': [1, 2] * 5*N,
                   'c': np.random.randn(10*N)},
                   index=pd.date_range('1/1/2000', periods=10*N))
df2 = pd.DataFrame({'a': np.random.randn(N),
                'b': [2, 1] * (N//2),
                'c': np.random.randn(N)},
               index=pd.date_range('1/1/2000', periods=N))

def orig(df1, df2):
    df1 = df1.reset_index() # 312 µs per loop
    df1['embarrassingHackInd'] = 0 # 75.2 µs per loop
    df1.set_index('embarrassingHackInd', inplace=True) # 526 µs per loop
    df1.rename(columns={'index':'origIndex'}, inplace=True) # 209 µs per loop
    df1['df1Date'] = df1.origIndex.astype(np.int64) // 10**9 # 23.1 µs per loop
    df1['df2Date'] = 0

    df2 = df2.reset_index()
    df2['embarrassingHackInd'] = 0
    df2.set_index('embarrassingHackInd', inplace=True)
    df2.rename(columns={'index':'origIndex'}, inplace=True)
    df2['df2Date'] = df2.origIndex.astype(np.int64) // 10**9
    df2['df1Date'] = 0
    df3 = abs(df1-df2) # 88.7 ms per loop  <-- this is the bottleneck
    return df3

def using_numpy(df1, df2):
    df1.index.name = 'origIndex'
    df2.index.name = 'origIndex'
    df1.reset_index(inplace=True) 
    df2.reset_index(inplace=True) 
    df1_date = df1['origIndex']
    df2_date = df2['origIndex']
    df1['origIndex'] = df1_date.astype(np.int64) 
    df2['origIndex'] = df2_date.astype(np.int64) 

    arr1 = df1.values
    arr2 = df2.values
    arr3 = np.abs(arr1[:,np.newaxis,:]-arr2) # 3.32 ms per loop vs 88.7 ms 
    arr3 = arr3.reshape(-1, 4)
    index = pd.MultiIndex.from_product(
        [df1_date, df2_date], names=['df1Date', 'df2Date'])
    result = pd.DataFrame(arr3, index=index, columns=df1.columns)
    # You could stop here, but the rest makes the result more similar to orig
    result.reset_index(inplace=True, drop=False)
    result['df1Date'] = result['df1Date'].astype(np.int64) // 10**9
    result['df2Date'] = result['df2Date'].astype(np.int64) // 10**9
    return result

def is_equal(expected, result):
    expected.reset_index(inplace=True, drop=True)
    result.reset_index(inplace=True, drop=True)

    # expected has dtypes 'O', while result has some float and int dtypes. 
    # Make all the dtypes float for a quick and dirty comparison check
    expected = expected.astype('float')
    result = result.astype('float')
    columns = ['a','b','c','origIndex','df1Date','df2Date']
    return expected[columns].equals(result[columns])

expected = orig(df1.copy(), df2.copy())
result = using_numpy(df1.copy(), df2.copy())
assert is_equal(expected, result)

How x[:, np.newaxis] - y works:

该表达式利用了 NumPy 广播。要了解广播（通常是 NumPy），需要了解数组的形状：

In [6]: x.shape
Out[6]: (10,)

In [7]: x[:, np.newaxis].shape
Out[7]: (10, 1)

In [8]: y.shape
Out[8]: (5,)

The [:, np.newaxis]添加一个新轴x on the right，所以形状是(10, 1). So x[:, np.newaxis] - y是形状数组的减法(10, 1)具有形状数组(5,).

从表面上看，这没有意义，但是 NumPy 数组播送他们的形状按照一定的规则 http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html尝试使它们的形状兼容。

第一条规则是可以在left。所以一个形状数组(5,)可以广播自己来塑造(1, 5).

下一个规则是长度为 1 的轴可以将自身广播到任意长度。数组中的值只是根据需要沿额外维度重复。

所以当形状数组(10, 1) and (1, 5)放在一起进行 NumPy 算术运算，它们都被广播到形状数组(10, 5):

In [14]: broadcasted_x, broadcasted_y = np.broadcast_arrays(x[:, np.newaxis], y)

In [15]: broadcasted_x
Out[15]: 
array([[0, 0, 0, 0, 0],
       [1, 1, 1, 1, 1],
       [2, 2, 2, 2, 2],
       [3, 3, 3, 3, 3],
       [4, 4, 4, 4, 4],
       [5, 5, 5, 5, 5],
       [6, 6, 6, 6, 6],
       [7, 7, 7, 7, 7],
       [8, 8, 8, 8, 8],
       [9, 9, 9, 9, 9]])

In [16]: broadcasted_y
Out[16]: 
array([[0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4]])

So x[:, np.newaxis] - y相当于broadcasted_x - broadcasted_y.

现在，有了这个更简单的例子，我们可以看看arr1[:,np.newaxis,:]-arr2.

arr1有形状(1000, 4) and arr2有形状(100, 4)。我们想要减去长度为 4 的轴中的项目，对于沿 1000 长度轴的每一行和沿 100 长度轴的每一行。换句话说，我们希望减法形成一个形状数组(1000, 100, 4).

重要的是，我们不希望1000-axis与100-axis. 我们希望它们位于不同的轴上.

所以如果我们添加一个轴arr1像这样：arr1[:,np.newaxis,:]，那么它的形状就变成了

In [22]: arr1[:, np.newaxis, :].shape
Out[22]: (1000, 1, 4)

现在，NumPy 广播将两个数组提升为常见的形状(1000, 100, 4)。瞧，减法表。

将值调整为形状的 2D DataFrame(1000*100, 4)，我们可以用reshape:

arr3 = arr3.reshape(-1, 4)

The -1告诉 NumPy 替换-1使重塑有意义所需的任何正整数。自从arr有 1000*100*4 个值，-1被替换为1000*100. Using -1比写作更好1000*100但是，即使我们更改中的行数，它也允许代码工作df1 and df2.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

两个 DataFrame 中每一行和每一列之间的差异（Python / Pandas）的相关文章

如何配置 VS Code 以便能够单步执行调试 Python 脚本时加载的共享库 (.so)？

从命令行使用 gdb 我可以在加载共享库时中断知道我有共享库的源代码如何在 VS Code 中获得相同的行为对我来说它以某种方式起作用这是我的设置 Ubuntu 18 04 调试我从 Python3 加载的 C 共享库更具体地说
Pandas groupby：根据另一列中的值更改一列中的值

我会尽力解释我的问题但我是 Pandas 新手所以请耐心等待我有一个 Pandas 数据框df Random ID Seq ID Type Seq Token 0 8 1 User First 1 8 2 Agent Second 2
在Langchain中，为什么ConversationalRetrievalChain不记住聊天记录并为每个聊天输入新的ConversationalRetrievalChain链？

我正在尝试使用 langchain 创建一个客户支持系统我通过 TextLoader 使用文本文档作为外部知识提供者为了记住聊天我使用 ConversationalRetrievalChain 和聊天列表我的问题是每次执行时con
加快 pandas groupby 中的滚动总和计算

我想按组计算大量组的滚动总和但我很难快速地完成它 Pandas 内置了滚动和展开计算器的方法这是一个例子 import pandas as pd import numpy as np obs per g 20 g 10000 obs g
IP保持不变

我正在尝试通过代码连接到 Tor 并更改我的身份到目前为止我得到的结果是我连接成功但无法更改我的身份这是我的代码 import socket import socks import httplib def connectTor sock
Pycharm 出现 Kivy 错误 [严重] [应用程序] 无法获取窗口，中止

我正在尝试让示例 Kivy 代码之一在我的机器上运行我使用的是 Pycharm 社区版 2017 1 安装了 anaconda python 2 7 和 Kivy 1 9 我已使用项目设置将 Kivy 模块和 Pygame 模块安装到项目
Django - 403 Forbidden CSRF 验证失败

我在 Django 中为我的网站提供了一个联系表单当我在本地测试它时它工作正常但现在当我尝试实时提交我的联系表单时它总是出现 403 禁止 CSRF 验证失败 view def contact request if reques
pythonic方式来反转一个字典，其中值是列表？

我有一本看起来像这样的字典 letters by number 1 a b c d 2 b d 3 a c 4 a d 5 b c 我想将其反转为如下所示 numbers by letter a 1 3 4 b 1 2 5 c 1 3 5
为什么del是Python中的指令而不是方法？ [复制]

这个问题在这里已经有答案了为什么Python的创建者更喜欢这种语法指令 del list index 超过这个方法 list del index 在我看来这del属于同一类别 append remove find ETC 因此应该
Plotly：如何制作具有多条线和标准差阴影区域的图形？

How can I use Plotly to produce a line plot with a shaded standard deviation I am trying to achieve something similar to
如何缩放图像的一部分并插入到 matplotlib 中的同一图中

我想缩放数据图像的一部分并将其绘制在同一个图中看起来有点像这个图是否可以在同一图中插入缩放图像的一部分我认为可以用子图绘制另一个图形但它绘制了两个不同的图形我还阅读了添加补丁以插入矩形圆形但不确定将图像的一部分插入到图中是否
Scrapy规则如何与爬行蜘蛛一起工作

我很难理解 scrapy 爬行蜘蛛规则我有一个例子它并不像我希望的那样工作所以它可能是两件事我不明白规则是如何运作的我形成了不正确的正则表达式导致我无法获得所需的结果好吧这就是我想做的我想编写爬行蜘蛛它将获取所有可用的统
如何获取 Flask 中当前的基本 URI？ [复制]

这个问题在这里已经有答案了在下面的代码中我想将 URL 存储在变量中以检查发生 URL 错误的错误 app route flights methods GET def get flight flight data mongo db fl
如何将 xlsx 读取为 pandas 数据框，并将公式作为字符串

我有一个包含一些计算列的 Excel 文件例如我在 a 列中有一些数据而 b 列是使用 a 列中的值计算的我需要将新数据附加到 a 列并计算 b 列并保存文件 import pandas as pd df pd DataFrame
SyntaxError：创建类实例时语法无效[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我在 Python shell 3 3 2 中运行这段代码但它给了我SyntaxError invalid syntax cla
如何为 matplotlib 中已绘制的线设置标签？

在我的代码中我已经执行了 ax plot x y b 并且需要能够在事后设置相应行的标签以达到与我相同的效果 ax plot x y b label lbl 有没有办法在 Matplotlib 中做到这一点如果你抓住了line2D创建对
带过滤器的 SQLAlchemy func.count

我正在使用一个进行分页的框架如下所示 def get count query self return self session query func count select from self model def paginate se
python - 从完整地址获取邮政编码

我有一个数据框其中一列中有完整地址我需要创建一个仅包含邮政编码的单独列有些地址只有五位数字的邮政编码而其他地址则有额外的四位数字如何拆分列以获取邮政编码示例数据 d name bob john address 123 6th S
AWS Cognito 作为网站的 Django 身份验证后端

我对 Cognito 的理解是它可以用来代替本地 Django 管理数据库来对网站的用户进行身份验证然而我没有找到任何带有通过 Cognito 登录屏幕的基本 Hello World 应用程序的详细示例如果有人可以发布一篇文章逐步
Bokeh 中的相关图问题

当我通过绘制数据时rect 来自 Bokeh 我在可视化中得到了一条由水平块组成的单行数据打印正确据我所知格式正确 type 验证它们都是列表谁能诊断这个吗如果问题不在这里那么我可以附加更多代码如果需要在 Ubuntu 14

随机推荐

使用 Moq 模拟返回 void 的更新方法

在我的测试中我将数据定义为List
声纳显示旧代码中存在新的违规行为

我们使用 Sonar Qube 6 7 3 和 sonar java plugin 5 3 我们最近对声纳配置进行了以下更改启用新规则更改配置以包含字节代码从 clean sonar sonar 更改为 clean package s
在ag-grid中，选项angularCompileRows有什么作用？

我试图将单个细胞放入ag grid开火ng click今天针对父控制器中的作用域方法发生了事件并尝试了很多不同的事情在查看了人们发布的一些工作代码后我注意到每个人都在设置角度编译行 to true in the 网格选项我尝试转动角
如何在 Android 应用程序中显示刚刚从相机拍摄的图像？

我正在尝试使用以下代码拍照并在屏幕上查看它 public class MainActivity extends ActionBarActivity private static final int PICTURE REQUEST CODE
以当前登录用户身份运行 powershell 命令

给定一个作为本地系统运行的 powershell 脚本 nt authority system 有没有办法以当前登录的用户身份执行命令当然不指定用户密码从我到目前为止的实验来看Register ScheduledTaskcmdlet 需
django 中的软删除对象

我正在尝试为 Django 模型实现通用的软删除模式模型被赋予一个 is deleted 字段该字段将已删除的对象保留在数据库中但出于所有实际目的隐藏它们应遵循级联等的所有正常规则除了实际删除之外然而管理应用程序仍然应该能够处
Spring Boot 2.0中的EmbeddedServletContainerCustomizer

我尝试将我的应用程序从 Spring Boot 1 5 迁移到 2 0 问题是我找不到EmbeddedServletContainerCustomizer 有什么想法如何度过吗 Bean public EmbeddedServletCont
卷影复制以及从任意文件夹加载混合 C# 和 C++ DLL

我有一个 VS 2005 C 项目它使用特殊的 Plugin 文件夹来加载额外的 DLL 用作资产转换过程中的节点我在此文件夹中混合了 C 和 C DLL 我遇到的问题是启用卷影复制后 C DLL 拒绝使用 Assembly Load
如何获得GIF透明度颜色以用GD保存？

我的 GD 包装器与 JPEG 和 PNG 图像的效果类似但是当使用 GIF 图像时生成的图像会失去透明度进一步的搜索表明我必须使用imagecolortransparent 设置透明颜色在获取颜色标识符后 imagecoloral
Admob 广告在模拟器中显示，但在真实设备中不显示

我已在我的应用程序中集成了 admob 但广告显示在模拟器中但当我在真实设备中尝试时它没有显示为了集成我在 AndroidManifest xml 中添加了以下代码
复杂数据类型的 Coldfusion Web 服务错误

我正在尝试测试彭博网络服务 https service bloomberg com assets dl dlws wsdl为了获取字段操作但抛出错误在提供的参数 CRITERIA 中找不到 Web 服务参数名称参数到目前为止的代码
Mac OSX 10.8.4 上使用 GLFW3 的现代 OpenGL - 缺少 glGenVertexArrays() 和 glBindVertexArray()？

我正在尝试在 Xcode 5 Mac OSX 10 8 4 上为我的 OpenGL 项目设置 GLFW3 我已成功安装并将我的项目链接到 GLFW3 没有问题我什至用该项目成功创建了一个窗口并且我能够使用该窗口检测鼠标和键盘输入所以我
设置首选项布局并更改其中的属性

是否可以以编程方式访问设置为首选项的布局这是我所拥有的一个非常简单的项目概念验证偏好活动 package com example import android os Bundle import android preference
如何解决“改用 scipy.optimize.linear_sum_assignment”

我正在使用 python 脚本进行人员检测我的脚本中有以下行 import time import cv2 as cv import glob import argparse import sys import numpy as np i
修复了可滚动 Div 内表格中的标题

我的代码如下 div Some Page Content div div style max height 200px table thead tr th th tr thead tbody tr td td tr tbody table
使用 NativeCall 将 C 库函数合并到 Perl6 中

我正在尝试使用lgamma来自 C 的math h在 Perl6 中我如何将其合并到 Perl6 中我努力了 use NativeCall sub lgamma num64 gt num64 is native Str say lgam
Moles Isolation框架是如何实现的？

Moles http research microsoft com en us projects moles 是微软创建的一个隔离框架 Moles 的一个很酷的功能是它可以模拟静态非虚拟方法和密封类这对于像 Moq 这样的框架来说是
为什么我不能在 Haskell 中的串联函数 (++) 上进行模式匹配？

我正在尝试匹配 String Newline String 函数 Split 中的模式 split String gt String split split x n xs x split xs 我收到此错误 Parse error in p
选择 MySQL 中出现次数最多的值

我正在寻找一种方法来选择最常出现的值例如每个话题发帖最多的人 SELECT MOST OCCURRING user id FROM thread posts GROUP BY thread id 有没有好的方法可以做到这一点如果您想要基
两个 DataFrame 中每一行和每一列之间的差异（Python / Pandas）

是否有更有效的方法来比较一个 DF 中每一行中的每一列与另一个 DF 中每一行中的每一列这对我来说很草率但我的循环应用尝试要慢得多 df1 pd DataFrame a np random randn 1000 b 1 2 500 c

两个 DataFrame 中每一行和每一列之间的差异（Python / Pandas）

两个 DataFrame 中每一行和每一列之间的差异（Python / Pandas） 的相关文章

随机推荐

热门标签

两个 DataFrame 中每一行和每一列之间的差异（Python / Pandas）的相关文章