逐行比较两个不同长度的数据帧，并为每行添加具有相等值的列

2024-05-01

我在 python pandas 中有两个不同长度的数据帧，如下所示：

df1:                                 df2:

      Column1  Column2 Column3            ColumnA ColumnB 
    0    1       a       r              0    1       a
    1    2       b       u              1    1       d
    2    3       c       k              2    1       e
    3    4       d       j              3    2       r
    4    5       e       f              4    2       w
                                        5    3       y 
                                        6    3       h

我现在想做的是比较 df1 的 Column1 和 df2 的 ColumnA 。对于每个“命中”，其中 df2 中的 ColumnA 中的行与 df1 中的 Column1 中的行具有相同的值，我想将一列附加到 df1，其中包含找到“命中”的行的 df2 的 ColumnB 的值，这样我的结果看起来像这样：

df1:

   Column1  Column2  Column3  Column4 Column5  Column6
0     1        a        r        a       d        e
1     2        b        u        r       w
2     3        c        k        y       h
3     4        d        j
4     5        e        f

到目前为止我尝试过的是：

for row in df1, df2:
   if df1[Column1] == df2[ColumnA]:
      print 'yey!'

这给了我一个错误，说我无法比较两个不同长度的数据帧。所以我尝试：

for row in df1, df2:
    if def2[def2['ColumnA'].isin(def1['column1'])]:
        print 'lalala' 
    else:
        print 'Nope'

就我得到输出而言，它“有效”，但我不认为它会迭代行并比较它们，因为它只打印“lalala”两次。因此，我进行了更多研究，找到了一种迭代数据帧每一行的方法，即：

for index, row in df1.iterrows():
    print row['Column1]

但我不知道如何使用它来比较两个数据帧的列并获得我想要的输出。

任何有关如何执行此操作的帮助将不胜感激。

我建议您使用 DataFrame API，它允许在以下方面与 DF 一起操作join, merge http://pandas.pydata.org/pandas-docs/stable/merging.html, groupby http://pandas.pydata.org/pandas-docs/stable/groupby.html等等。您可以在下面找到我的解决方案：

import pandas as pd

df1 = pd.DataFrame({'Column1': [1,2,3,4,5], 
    'Column2': ['a','b','c','d','e'], 
    'Column3': ['r','u','k','j','f']})

df2 = pd.DataFrame({'Column1': [1,1,1,2,2,3,3], 'ColumnB': ['a','d','e','r','w','y','h']})

dfs = pd.DataFrame({})
for name, group in df2.groupby('Column1'):
    buffer_df = pd.DataFrame({'Column1': group['Column1'][:1]})
    i = 0
    for index, value in group['ColumnB'].iteritems():
        i += 1
        string = 'Column_' + str(i)
        buffer_df[string] = value

    dfs = dfs.append(buffer_df)

result = pd.merge(df1, dfs, how='left', on='Column1')
print(result)

结果是：

   Column1 Column2 Column3 Column_0 Column_1 Column_2
0        1       a       r        a        d        e
1        2       b       u        r        w      NaN
2        3       c       k        y        h      NaN
3        4       d       j      NaN      NaN      NaN
4        5       e       f      NaN      NaN      NaN

附注更多细节：

1) 对于 df2 我产生groups按“Column1”。单人group是一个数据框。下面的例子：

   Column1 ColumnB
0        1       a
1        1       d
2        1       e

2）对于每个group我生成数据框缓冲区_df:

   Column1 Column_0 Column_1 Column_2
0        1        a        d        e

3）之后我创建DFdfs:

   Column1 Column_0 Column_1 Column_2
0        1        a        d        e
3        2        r        w      NaN
5        3        y        h      NaN

4）最后我执行左连接df1 and dfs获得所需的结果。

2)* 缓冲区_df迭代产生：

step0 (buffer_df = pd.DataFrame({'Column1': group['Column1'][:1]})):
            Column1
         5       3

step1 (buffer_df['Column_0'] = group['ColumnB'][5]):      
            Column1 Column_0
         5       3       y

step2 (buffer_df['Column_1'] = group['ColumnB'][5]):      
            Column1 Column_0 Column_1
         5       3       y       h

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

逐行比较两个不同长度的数据帧，并为每行添加具有相等值的列的相关文章

从 Python 下载/安装 Windows 更新

我正在编写一个脚本来自动安装 Windows 更新我可以将其部署在多台计算机上这样我就不必担心手动更新它们我想用 Python 编写这个但找不到任何关于如何完成此操作的信息我需要知道如何搜索更新下载更新并从 python 脚本安
cv2.drawContours() - 取消填充字符内的圆圈（Python，OpenCV）

根据 Silencer的建议我使用了他发布的代码here https stackoverflow com questions 48244328 copy shape to blank canvas opencv python 482465
小部件之间的自定义信号

尝试将信号从一个 gtk EventBox 子级发送到另一个在 init HeadMode 第 75 行上出现错误类型错误未知信号名称消息发送 why usr bin env python coding utf8 import p
将 numpy 代码点数组与字符串相互转换

我有一个很长的 unicode 字符串 alphabet range 0x0FFF mystr join chr random choice alphabet for in range 100 mystr re sub W mystr 我想
编辑 Jupyter Notebook 时 VS Code 中缺少“在选择中查找”

使用 Jupyter Notebook 时 VSCode 中缺少在选择中查找按钮它会减慢开发速度所以我想请问有人知道如何激活它吗第一张图显示了在 python 文件中的搜索替换第二张图显示了笔记本电脑中缺少的按钮 Python
如何使用正则表达式在 pandas 数据框中选择一行以及包含特定子字符串的行后面的固定行数

Problem 我有一个 pandas 数据框我试图从中提取特定行我感兴趣的行是包含日期的行以及紧随日期行之后的行重要的是我想将信息从日期后面的行移动到包含日期的行中的新列通过这样做我将在同一行上获得一个人的信息需要明确
CNTK 抱怨 LSTM 中的动态轴

我正在尝试在 CNTK 中实现 LSTM 使用 Python 来对序列进行分类 Input 特征是固定长度的数字序列时间序列标签是 one hot 值的向量 Network input input variable input dim
Alembic：如何迁移模型中的自定义类型？

My User模型是 class User UserMixin db Model tablename users noinspection PyShadowingBuiltins uuid Column uuid GUID default
如何在 Django 中使用基于类的视图创建注册视图？

当我开始使用 Django 时我几乎使用 FBV 基于函数的视图来处理所有事情包括注册新用户但当我更深入地研究项目时我意识到基于类的视图通常更适合大型项目因为它们更干净且可维护但这并不是说 FBV 不是无论如何我将整个项目
Python Pandas：如何对组中的所有项目进行分组并为其分配 id？

我有 df domain orgid csyunshu com 108299 dshu com 108299 bbbdshu com 108299 cwakwakmrg com 121303 ckonkatsunet com 121303
如何在 Azure 数据工厂 - Databricks 中使用 continuation_token 获取 ADF Pipeline 运行详细信息的下一页？

我在用 adf client pipeline runs query by factory resourceGroupName 工厂名称过滤器参数的方法azure mgmt datafactory DataFactoryManageme
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
使用 Conda 更新特定模块会删除大量软件包

我最近开始使用 Anaconda Python 发行版因为它提供了许多开箱即用的数据分析库使用 conda 创建环境和安装软件包也轻而易举但是当我想更新 Python 本身或任何其他模块时我遇到了一些严重的问题我事先被告知我的很多
Werkzeug 中的线程和本地代理。用法

首先我想确保我正确理解了功能的分配分配本地代理功能以通过线程内的模块包共享变量对象我对吗其次用法对我来说仍然不清楚也许是因为我误解了作业我用烧瓶如果我有两个或更多模块 A B 我想将对象C从模块A导入到模块B 但我
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
合并数据框而不重复行

我想合并两个数据框但如果有多个匹配项则不想重复行相反我想总结一下那天的观察结果来自合并提取两个数据框中与指定列匹配的行并将其连接在一起如果有多个匹配项则所有可能的匹配项各贡献一行这是一些示例代码 days lt as d
以编程方式使用 Sphinx 特定指令解析 .rst 文件

我希望能够在 Python 中解析基于 sphinx 的 rst 以便进一步处理和检查就像是 import sphinx p sphinx parse path to file rst do something with p 似乎在 do
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这
python 中的 after() 与 update()

我是 python 新手开始使用 tkinter 作为画布到目前为止我使用 update 来更新我的画布但还有一个 after 方法谁能给我解释一下这个函数请举个例子两者之间有什么区别 root after integer c

随机推荐

Xcode 更改未修改的 Storyboard 和 XIB 文件

从 git 工作流程的角度来看当多人协作时故事板是一种巨大的痛苦例如 storyboard 文件中的 XML 有其起始位置
如何循环遍历 Windows 窗体窗体中的所有控件或如何查找特定控件是否是容器控件？

我会告诉我的要求我需要有一个keydown中每个控件的事件Windows 窗体 http en wikipedia org wiki Windows Forms形式如果我必须对所有 keydown 事件执行的操作相同那么最好这样做而
Rails 3.1 资源在服务器重新启动之前无法识别 rmagick 上传的新图像

我有我的Rails 3 1 0应用程序运行passenger in production环境我有一个部分应用程序允许用户更改他的个人资料图片因此我使用 ajax 上传器上传图像在我的控制器中我上传文件并使用 rmagick 为图像
Jquery UI 滑块 - 输入值并将滑块移动到位置

我想知道是否有人找到了实际填充滑块的输入框并使其滑动到适当位置 onBlur 的解决方案或示例目前众所周知它只是用您所在的位置更新此值在因此在某些方面我试图扭转这个令人惊叹的滑块的功能我找到的一个链接 http www web
如何使 Angularjs 应用程序可抓取

我使用 Angular js 构建单页应用程序我的问题是如何使应用程序可爬行因为路由是在客户端使用 ng view 处理的而服务器只返回简单的头文件网站链接 http india elections in http india el
如何更新 Android 上的 Google Analytics 清单？

我正在尝试禁用 Google Firebase Analytics 的自动屏幕报告在里面Firebase 博客文章 https firebase googleblog com 2020 08 google analytics manua
制作波浪动画

我正在尝试制作音频波动画这段代码有什么问题我尝试将翻译更改为比例但没有成功有人可以给我一些动画练习的链接吗 webkit box sizing border box box sizing border box webkit pers
调用过程默认值而不将值绑定到 Jdbc 中的参数

我正在尝试打电话PL SQL为其某些参数定义了默认值的过程我正在这样做使用CallableStatement in JDBC 该过程有大量已定义默认值的参数我不想在 Java 代码中显式设置默认值这样做会使维护代码变得更加困难如果
当需要切换rootViewController时

我一直在开发一个 Swift 项目我有两个视图控制器登录视图控制器和主页视图控制器当用户启动应用程序时如果用户未登录我想显示登录视图控制器另一方面如果用户登录我想显示主页视图控制器所以流程会是这样的当用户未登录时显示
使用 Networkx (Python) 进行图遍历

我正在使用 Networkx 来管理依赖关系图假设我有这个图每个字母代表一个服务器 gt gt gt G nx Graph gt gt gt G add edge A B gt gt gt G add edge A H gt gt gt
Java - oracle.jdbc.dcn.DatabaseChangeEvent - 获取更改的行

我正在使用 oracle jdbc dcn DatabaseChangeEvent 来从 Oracle DB 获取事件通知 public class TListener implements DatabaseChangeListener p
无法更改 php 会话 cookie 名称

我将现有且成功运行的站点复制到新的开发服务器新服务器上的登录现在已损坏我追踪到虽然会话 cookie 已重命名 ini set session name DOMAIN1 浏览器继续将会话 cookie 存储为 PHPSESSID 当我从
grpc找不到protobuf库

我检查了 grpc 安装并完成了构建和安装现在当我尝试 find package gRPC CONFIG REQUIRED I get CMake Error at CMakeLists txt 15 find package Found
Django 分页和“当前页面”

我目前正在开发一个 Django 应用程序它将利用臭名昭著的分页技术我试图弄清楚 django core paginator 模块是如何工作的我有一个带有问题模型的应用程序我将使用此分页器列出所有问题每页有 20 个问题 de
重用named_scope来定义另一个named_scope

我所看到的问题本质有一天如果我没有记错的话我看到了一个重用一个named scope来定义另一个named scope的例子像这样的东西不记得确切的语法但这正是我的问题 named scope billable conditio
Perl 6：反式(%h) 与反式(%h.keys => %h.values)

还有一个问题是关于hash作为论据trans 在下面的代码中简单地取hash给出了错误的结果但将其替换为keys and values使其正确怎么了 my alph1
TSQL动态确定SP/Function的参数列表

我想将通用日志记录片段写入存储过程集合中我写这篇文章是为了对我们的前端用户体验进行定量测量因为我知道前端软件使用了哪些 SP 以及它们的使用方式我想在开始性能调优之前使用它来收集基线然后显示调优的结果我可以动态地从 PROCID
RSpec 中出现意外的 nil 变量

我有一个非常基本的 RSpec 示例但不起作用这是代码 require spec helper describe Referral type functionality do describe Affiliate system do b
ChangeNotifierProxyProvider 给出可能为空的错误

所以遵循ChangeNotifierProxyProvider 文档 https pub dev documentation provider latest provider ChangeNotifierProxyProvider cla
逐行比较两个不同长度的数据帧，并为每行添加具有相等值的列

我在 python pandas 中有两个不同长度的数据帧如下所示 df1 df2 Column1 Column2 Column3 ColumnA ColumnB 0 1 a r 0 1 a 1 2 b u 1 1 d 2 3 c k 2

逐行比较两个不同长度的数据帧，并为每行添加具有相等值的列

逐行比较两个不同长度的数据帧，并为每行添加具有相等值的列 的相关文章

随机推荐

热门标签

逐行比较两个不同长度的数据帧，并为每行添加具有相等值的列的相关文章