显示在合并中丢失的观察结果

2023-12-26

假设我想通过两列的键合并两个不同的数据帧。

Dataframe One 有 70000 个 obs,共 10 个变量。 Dataframe Two 有 4500 个 obs,共 5 个变量。

现在,我使用此代码检查了新数据框中的观察结果是如何留下的。 所以我意识到我的数据帧 Two 中的列现在只有 10 个变量的 4490 个 obs。 没关系。 我的问题是: 有没有办法把我在这个过程中丢失的数据帧二中的 5 个观察结果还给我。名字就足够了。

谢谢 :)


我想你可以使用dplyr::anti_join为了这。从它的文档来看:

返回 x 中 y 中没有匹配值的所有行,仅保留 x 中的列。

你可能必须传递你的数据框TWO as x.

编辑:正如评论中提到的,其语法by说法不同。

Example:

df1 <- data.frame(Name=c("a", "b", "c"),
                  Date1=c(1,2,3),
                  stringsAsFactors=FALSE)

df2 <- data.frame(Name=c("a", "d"),
                  Date2=c(1,2),
                  stringsAsFactors=FALSE)

> dplyr::anti_join(df2, df1, by=c("Name"="Name", "Date2"="Date1"))
  Name Date
1    d    2
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

显示在合并中丢失的观察结果 的相关文章

  • jquery datatable ajax 无数据可用 mvc

    我有一张桌子是在 document ready功能 我还使用 jQuery DataTables 插件 由于某种原因 当页面加载时 ajax 调用控制器并返回数据并将其设置为我的网格所有获取的数据 但是尽管所有数据都加载到数据表中 但仍获取
  • 重新分配唯一值 - pandas DataFrame

    我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人 总体目标是使用尽可能少的个人 诀窍在于这
  • 如何动态访问数据帧列表中的特定属性

    我有一个数据 它是数据框的列表 我正在尝试访问列表中每个数据帧内的特定属性 可以提取特定属性DP UniqueId使用下面的代码 gt attr new data A AA SpotfireColumnMetaData DP UniqueI
  • 在Python中创建一个新表

    我正在尝试从数控机床中提取数据 事件每毫秒发生一次 我需要过滤掉一些用管道 分隔的变量分隔符 PuTTy exe 程序生成的日志文件 我尝试阅读熊猫 但列不在同一位置 df pd read table data log sep 日志文件的一
  • 使用函数参数作为 R 中新数据框的名称

    这很简单 但我已经搜索并未能找到这个小问题的解决方案 我想使用函数的参数作为新数据框的名称 例如 assign dataset lt function dataname x lt c 1 2 3 y lt c 3 4 5 dataname
  • Scala:如何获取数据框中的行范围

    我有一个DataFrame通过运行创建sqlContext readParquet 文件的一个 The DataFrame由 300 M 行组成 我需要使用这些行作为另一个函数的输入 但我想以较小的批次进行操作 以防止 OOM 错误 目前
  • 当我使用日期时间索引时添加到数据框

    我试图获取它 以便当我循环遍历一系列事物时 我可以将特定日期从每个仓库收到的数量添加到数据框中 当我尝试以下操作时 它不起作用 if inv prod not in self inventory columns add row in sel
  • 将矩阵 csv 数据导入 R - 如何转换为数据框

    我有一组以矩阵格式保存的 csv 数据附图是矩阵的示例 https i stack imgur com kTIN6 png我想将数据加载到 R 中并将其存储为包含 x Year x Death x ASMR 的数据框 我怎样才能做到这一点
  • 以最小的内存占用拆分大型 Pandas 数据帧

    我有一个大的 DataFrame 我想将其分成一个测试集和一个用于模型构建的训练集 但是 我不想复制 DataFrame 因为我已达到内存限制 是否有一个类似于 pop 的操作 但对于一个大段 它会同时删除 DataFrame 的一部分并允
  • 使用滚动标准差检测 Pandas 数据框中的异常值

    我有一个用于快速傅立叶变换信号的数据帧 一列表示以 Hz 为单位的频率 另一列表示相应的幅度 我读过几年前发表的一篇文章 您可以使用一个简单的布尔函数来排除或仅包含最终数据框中高于或低于几个标准差的异常值 df pd DataFrame D
  • DataTable - 延迟加载 Primefaces 显示错误

    我将 JSF2 0 与 PrimeFaces 3 1 和 Spring 3 1 一起用于业务逻辑 我试图使用 DataTable 延迟加载 但它给了我以下错误 请帮忙 发生错误 by zero Stack Trace java lang A
  • 从 `.` `data.table` 导入,以便 lintr 识别它

    跑步时lintr https github com jimhester lintr在 R 函数上使用data table我收到以下警告 warning no visible global function definition for Di
  • 在 pandas 数据框中搜索字符串列表并将每个搜索字符串添加到新列

    我有一个带有文本列 描述 的数据框 我有一个搜索字符串列表 search FR 001 FR 002 FR 003 FR 004 我想使用搜索列表中的字符串搜索数据框 我用了 df loc df Description str contai
  • 将函数应用于可返回多行的 pandas DataFrame

    我正在尝试转换 DataFrame 以便某些行将被复制给定的次数 例如 df pd DataFrame class A B C count 1 0 2 class count 0 A 1 1 B 0 2 C 2 应转换为 class 0 A
  • 在较小的设备中更改 DataTables (jQuery+Bootstrap4) 的“pagingType”选项

    我正在与数据表 https datatables net它启用了分页并显示带有页码 1 2 3 4 5 10 的 下一个 上一个 按钮 我正在尝试使用以下方法将其更改为仅在较小设备 小于 768px 中的 下一个 上一个 分页类型 http
  • 从 Pandas 的 DatetimeIndex 中创建月份和年份的列表

    我有一个信息数据框 我将索引设置为接收的日期和时间 现在我想要一个清单 我设置 df 索引这样做 df index pd to datetime df index format m d Y H M 这给了我这个 print df index
  • 使用具有多个元素的字典过滤数据框

    我已经尝试了几个小时来在这里找到答案 但我无法在我的特定情况下找到任何答案 我能找到的最接近的是 使用字典将多个字符串包含过滤器应用于 pandas 数据框 https stackoverflow com questions 4338916
  • Pandas DataFrame - 列 whos dtype=='category' 上的聚合导致性能下降

    我使用内存使用量较高的大数据帧 并且我读到 如果更改重复值列上的数据类型 我可以节省大量内存 我尝试了一下 确实内存使用量下降了 25 但随后我遇到了我无法理解的性能缓慢问题 我对 dtype 类别 列进行分组聚合 在更改 dtype 之前
  • 如何删除 pandas 数据框中的唯一行?

    我遇到了一个看似简单的问题 在 pandas 数据框中删除唯一的行 基本上 相反drop duplicates https pandas pydata org pandas docs stable generated pandas Data
  • Qcut Pandas:ValueError:Bin 边缘必须是唯一的

    我使用 Pandas 中的 Qcut 将数据离散化为大小相等的存储桶 我想要有价格桶 这是我的数据框 productId sell prix categ popularity 11997 16758760 0 28 75 50 524137

随机推荐