基于多列删除数据框之间的交集

2024-04-01

我有这两个数据框：

df_test
  dimension1_id dimension2_id dimension3_id dimension4_id dimension5_id  \
0            -1            -1            -1            -1            -1   
1    1177314888     238198786    5770904146     133207291         Exact   
2    1177314888     238198786    5770904266   18395155770         Exact   
3    1177314888     238198786    5770904266   19338210057         Exact   
4    1177314888     238198786    5770904266   30907903234         Exact

and

df_merge
dimension1_id dimension2_id dimension3_id dimension4_id dimension5_id  \
0            -1            -1            -1            -1            -1   
1    1177314888     238198786    5770904146     133207291         Exact

我想删除里面的所有东西df_merge from df_test，基于组合dimension1_id, dimension2_id, dimension3_id, dimension4_id and dimension5_id.

这是我的代码：

df_test = df_test[
(df_test['dimension5_id'].isin(df_merge.dimension5_id) == False) &
(df_test['dimension4_id'].isin(df_merge.dimension4_id) == False) &                              (df_test['dimension3_id'].isin(df_merge.dimension3_id) == False) &                                (df_test['dimension2_id'].isin(df_merge.dimension2_id) == False) &
(df_test['dimension1_id'].isin(df_merge.dimension1_id) == False) 
 ]

但这段代码返回一个空数据框。如何从 df_test 中删除第一行和第二行？

您可以通过应用直接比较，使用逻辑索引来屏蔽所需的行。在这种情况下，您可以检查以下值df_test哪些在df_merge:

df_test.isin(df_merge)

生成的逻辑索引充当掩码：

dimension1_id dimension2_id dimension3_id dimension4_id dimension5_id      \
0          True          True          True          True          True   True
1          True          True          True          True          True   True
2         False         False         False         False         False  False
3         False         False         False         False         False  False
4         False         False         False         False         False  False

True值映射到匹配的行，因此我们可以简单地使用否定索引~仅返回您所在的行df_merge哪些不是df_test:

df_test[~df_test.isin(df_merge)]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

基于多列删除数据框之间的交集的相关文章

创建 xyz 海拔数据的曲面图

我正在尝试用 python 创建一座山的表面图其中我有一些 xyz 数据最终结果应该类似于that https i stack imgur com rKQV0 png 该文件的格式如下 616000 0 90500 0 3096 712
我可以在 matplotlib 中的绘图左侧放置一个垂直颜色条吗？

来自颜色条方法的 matplotlib 命令摘要 http matplotlib org api pyplot api html highlight colorbar matplotlib pyplot colorbar我知道关键字参数or
删除 tkinter 文本默认绑定

我正在制作一个简单的 tkinter 文本编辑器但我想要所有默认绑定文本小部件如果可能的话删除例如当我按Ctrl i它默认插入一个制表符我制作了一个事件绑定来打印文本框中有多少行我将事件绑定设置为Ctrl i以及当我运行它时它会
获取字符串模板中所有标识符列表的函数（Python）

对于标准库string template在Python中有没有一个函数可以获取所有标识符的列表例如使用以下 xml 文件
在多核上运行 python 线程

我知道Python 2 7不允许在不同的内核上运行多个线程你需要使用multiprocessing模块以实现某种程度的并发性我正在看concurrent futuresPython 3 4 中的模块是否使用ThreadPoolExec
将列表值转换为 pandas 中的行

我有数据帧其中一列具有相同长度的 numpy ndarray 值 df list 0 Out 92 array 0 0 0 0 29273096 0 30691767 0 27531403 我想将这些列表值转换为数据框并从 df iloc
cxfreeze virtualenv 中缺少 distutils 模块

从 python3 2 项目运行 cxfreeze 二进制文件时我收到以下运行时错误 project dist project distutils init py 13 UserWarning The virtualenv distuti
matplotlib：渲染到缓冲区/访问像素数据

我想使用 matplotlib 生成的图作为 OpenGL 中的纹理到目前为止我遇到的 matplotlib 的 OpenGL 后端要么不成熟要么已经停止使用所以我想避免使用它们我当前的方法是将图形保存到临时 png 文件中并从
如何在Python中手动对数字列表进行排序？

规格 Ubuntu 13 04 Python 3 3 1 背景 Python的初学者遇到了这个手动排序问题我被要求做的事情让用户输入 3 个数值并将它们存储在 3 个不同的变量中不使用列表或排序算法手动将这 3 个数字从小到大
使用 python 从 CSV 创建字典

我有一个 CSV 格式的文件其中 A B 和 C 是标题我如何以Python方式将此CSV转换为以下形式的字典 A 1 B 4 C 7 A 2 B 5 C 8 A 3 B 6 C 9 到目前为止我正在尝试以下代码 import csv
“KMeans”对象没有属性“k”

我使用 Yellowbrick 包绘制数据集的肘部曲线以使用 KMeans 作为模型找到数据集的最佳簇数我正在使用 Scikit learn KMeans 和 Yellowbrick kelbowvisualizer 函数生成了肘部曲
解析整数集的字符串并列出间隔

I have 2 5 7 9 12 string 我想从中获取 2 5 7 8 9 12 列表 python中有没有内置的函数 Thanks UPD 我想直接的答案是No 不管怎样谢谢你的片段使用一个建议者斯文马尔纳克 s 2
为什么我会在 Python 字符串格式中使用除 %r 之外的其他内容？

我偶尔会使用 Python 字符串格式这可以像这样完成 print int i Float f String s 54 34 434 some text 但是这也可以这样做 print int r Float r String r 54
带 Qt 的菜单栏/系统托盘应用程序

我是 Qt PyQt 的新手我正在尝试制作一个应用程序其功能将从菜单栏系统托盘执行这里展示了一个完美的例子我找不到关于如何做到这一点的好资源有人可以建议吗 Thanks 我认为您正在寻找与QMenu and QMainWindo
为数据集生成随机 JSON 结构排列

我想生成 JSON 结构的许多不同排列作为同一数据集的表示最好不需要对实现进行硬编码例如给定以下 JSON name smith occupation agent enemy humanity nemesis neo 应该产生许多不同
JSONDecodeError：额外数据：Python [重复]

这个问题在这里已经有答案了我使用以下代码从文件加载 json file file name obj list with open file as f for json obj in f obj list append loads json
如何仅读取 CSV 文件每行的第一列 [重复]

这个问题在这里已经有答案了如何在Python中读取CSV文件每行的第一列我的数据是这样的 1 abc 2 bcd 3 cde 我只需要循环第一列的值另外当我在 calc 中打开 csv 文件时每行中的数据都在同一个单元格中这正常
将函数按元素应用于两个 DataFrame

如何应用函数z ij f x ij y ij 来自数据框X and Y相同大小并将结果保存到 DataFrameZ 这取决于你有什么样的功能很多功能已经被矢量化为数据框例如等等所以对于这些功能你可以简单地做Z X Y or Z X
将二进制数转换为包含每个二进制数的数组

我试图将二进制值转换为每个 1 0 的列表但我得到默认的二进制值而不是列表我有一个字符串我将每个字符转换为二进制它给了我一个列表其中每个字符都有一个字符串现在我试图将每个字符串拆分为值为 0 1 的整数但我什么也得不到 if
美丽的汤刮 - 登录凭据不起作用

尝试使用登录凭据抓取页面 payload email gmail com password urls login url https www spotrac com signin url https www spotrac com nba

随机推荐

如何标记一个TPL数据流周期完成？

给定 TPL 数据流中的以下设置 var directory new DirectoryInfo C dev kortforsyningen dsm tiles var dirBroadcast new BroadcastBlock
如何在 Vista 文件打开对话框中禁用通配符模式的自动附加

我使用文件打开对话框来选择图像文件以进行进一步编辑过滤器列表包含一个所有支持的格式条目它代表一长串文件格式由于 Vista 会自动在筛选器组合框中附加通配符模式因此展开的组合框太宽无法完全适应屏幕除此之外它看起来不太好那
Android模拟器的字体可以修改吗？

我需要更改 Android 模拟器上安装的字体例如我想安装 TrueType 字体它涵盖了其他一些语言环境如阿拉伯语中文等我只是想知道这可能吗你应该覆盖 system fonts DroidSansFallback ttf使用
将内容加载到 iframe 中避免内存泄漏

我正在开发一个在 iframe 中呈现内容的嵌入式系统它使用signalR 基于ajax 和jquery 随着时间的流逝浏览器变得越来越慢内存使用量也越来越高所以我希望消除所有潜在的内存问题当新页面加载到 iframe 中时我附
可以嵌套 C 预处理器指令吗？

例如以下情况是可能的 define definer x define x 不你不能那样做英镑符号在定义中具有不同的含义这意味着如果这是一个参数则通过引用它使其成为一个字符串
Jackson：从 json 中删除一些值并保留一些空值

我有一个这样的模型 public class Employee JsonProperty emplyee id private Integer id JsonProperty emplyee first name private Strin
使用 JavaScript 中的 onclick 函数将数据添加到表中

这是我的代码 h2 Add Update Person Form h2 div div
Android 内存不足错误位图大小超出 2.3.3 中的 vm 预算

我知道这个问题被问过几次他们都不清楚解决方案让我解释一下这个问题我有一个 Activity 一次加载 4 个图像我在 onResume 方法中加载图像加载时活动抛出位图错误 Notes 我使用 setImageResource R
反序列化时使用父对象的属性来确定子类？

children o kind t3 data ExampleNodeT3 class should be used for kind t3 t3var1 val1 t3var2 true o kind t4 data ExampleNod
Android gradle build System.getEnv("RELEASE_PASSWORD") 返回 null

我遇到了 System getenv 为环境变量返回 null 的问题我的密码存储在RELEASE PASSWORD环境变量当我做 echo RELEASE PASSWORD 它打印出正确的值所以我知道变量已设置我最初是设置sign
为什么 strftime('%G', strtotime('2017-01-01')) 会产生 2016 年？

我发现 PHP 5 6 中可能存在错误功能strftime参数为 G生成 4 位数年份然而喂食时似乎返回了错误的年份1483246800 即 2017 年 1 月 1 日它会返回 2016 年示例代码片段 echo strftim
可以接受从现有对象实例化吗？

我偶然发现了这一点想知道这是否是预期的行为 Interactive shell php gt class dog php public name doggy php public function speak php echo bark
关闭 eclipse 中选定的 HTML 错误

我最近将 Eclipse 升级到了 Ganymede 版本 3 4 2 现在我的 JSP 中的 HTML 出现了大量错误例如没有引号的参数值和缺少结束标记等这些页面工作得很好因为我省略这些内容的情况是它们是可选的我们可以争论是否应
python：运行一个超时进程并捕获stdout、stderr和退出状态[重复]

这个问题在这里已经有答案了可能的重复带有超时的子进程 https stackoverflow com questions 1191374 subprocess with timeout 在 Python 中执行以下操作的最简单方法是什么
保持复选框处于选中状态

使用 Angular 9 和一些自定义输入我做了以下 gt https stackblitz com edit angular ivy rgsatp https stackblitz com edit angular ivy rgsatp
apache POI 中的自动换行（Excel）

我有一个java程序它将标头和数据作为输入并生成一个excel文件然而有时当标题值很长且列数较多时我的 Excel 工作表往往会变得不必要的宽由于标题的原因我必须向右向下滚动才能看到尾部列的内容有没有一种方法可以解决这个问题
将 div 链接到 HTML 中不同页面上的特定部分

嘿我有一个新的困境我有 3 个 div 就像 3 个盒子一样每个 div 中都有一个图像和一些写入的文本我希望当我单击任何框中的任意位置时它会转到另一页例如如果我在主页上然后单击框它将转到网站中的 service html
使用带有秘密的 github 操作来构建/部署 React 应用程序

我正在尝试使用带有秘密的 github 操作来完成构建部署我的使用 Firebase 目前仅身份验证模块的 React 应用程序对于本地开发我将 env 文件与 webpack 和 dotenv webpack 库一起使用在本地机
如何使用 python 将 .mp3 文件转换为频率和振幅数组？

我想设计一个神经网络训练后将 mp3 文件作为输入然后根据训练以 1 10 的等级来决定音乐的好坏但为此我需要将音频文件转换为波长频率振幅和定义音乐所需的所有其他参数的数组然后使用这些数组作为神经网络的输入我应该如何解决这
基于多列删除数据框之间的交集

我有这两个数据框 df test dimension1 id dimension2 id dimension3 id dimension4 id dimension5 id 0 1 1 1 1 1 1 1177314888 23819878

基于多列删除数据框之间的交集

基于多列删除数据框之间的交集 的相关文章

随机推荐

热门标签

基于多列删除数据框之间的交集的相关文章