如何合并两个大型数据集，同时在r中生成具有不同重复值的新列

2024-01-08

我有一个让我抓狂的问题，真的需要你的帮助。简化的问题是这样的：

d1<-data.table(v1=c("a","b","c","d","d","b","a","c","a","d","b","a"),
                    v2=(seq(1:12)),V3=rep(1:4,times=3))

d2<-data.table(v1=c("a","b","c","d"),v3=c(3,2,1,4),v4=c("y","x","t","e"))

这将产生两个数据集：

    D1:     
    v1 v2 V3
 1:  a  1  1
 2:  b  2  2
 3:  c  3  3
 4:  d  4  4
 5:  d  5  1
 6:  b  6  2
 7:  a  7  3
 8:  c  8  4
 9:  a  9  1
10:  d 10  2
11:  b 11  3
12:  a 12  4

> d2
   v1 v3 v4
1:  a  3  y
2:  b  2  x
3:  c  1  t
4:  d  4  e

正如您所看到的，v1 和 v3 中的元素是相同的。现在我想通过在 D1 中创建一个新列来连接两个数据集，该新列返回 d2 中与索引 v1 和 v3 匹配的 V4 的值，我希望我能得到如下所示的输出：

>

 d3
    v1 v2 V3 V4
 1:  a  1  1 na
 2:  b  2  2  x
 3:  c  3  3 na
 4:  d  4  4  e
 5:  d  5  1 na
 6:  b  6  2  x
 7:  a  7  3  y
 8:  c  8  4 na
 9:  a  9  1 na
10:  d 10  2 na
11:  b 11  3 na
12:  a 12  4 na

我使用的实际数据量是比较大的。它类似于 113MB 数据与 23MB 的联合。我尝试使用 for 循环来解决这个问题，因为数据太长，需要很长时间才能完成任务。我也尝试过mergeand sqldf但他们两人都未能完成这项工作。你能帮我解决这个问题吗？非常感谢！

我会这样做：

setkey(d1, v1, V3) 
d1[d2, v4 := v4][]

对于表单的连接x[i], 键为x需要设置。i可能有也可能没有密钥集。所以我们设置密钥为d1转到专栏v1 and V3.
接下来，我们执行连接d1[d2]其中，对于每一行d2查找与关键列匹配的行d1并返回连接结果。我们并不是在寻找确切的结果。我们宁愿添加一个新列，每个匹配行从中获取其值d2's v4否则NA。为此，我们利用 data.table 的按引用子分配功能。加入时i to x，我们仍然可以提供一个表达式j，并参考i的专栏。您也可以将它们称为i.v4（通常在两个表中都有同名的列时使用x and i).
:=通过引用添加/更新列。的 LHS:=是我们要在此处创建的列名称和 RHSv4是我们要从中分配的值（这里是来自的列d2）。因此，对于每个匹配行，我们分配d2's v4 onto d1的新专栏（我们命名）v4通过引用（就地，意味着不进行复制），那些没有匹配的行将获得默认值NA.
最后[]只是将输出打印到屏幕上，如:=无形地返回结果。

希望这有助于理解这里发生的事情。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

MERGE

dataTable

如何合并两个大型数据集，同时在r中生成具有不同重复值的新列的相关文章

R 中具有重叠样本的分割向量

假设我有一个包含 1000 个值的向量我想将此向量拆分分区分组为多个向量每个向量包含 200 个值并且它们之间有 100 个值的重叠 E g vec seq 1 1000 splitWithOverlap vec 200 10
如何解决这个错误--dbWriteTable()

我成功连接到 MYSQL DB 并尝试将结果写回数据库 dbWriteTable con predicted min forecast min 其中 Forecast min 只是双精度向量我收到此错误消息函数类 fdef mtabl
传说在北卡罗来纳州地理地图上消失？

我正在使用 R 编程语言使用北卡罗来纳州的内置地图我生成了 3 个随机变量收入孩子数量体重然后为此数据创建了地图使用传单库通过循环 library sf library mapview library leaflet l
R 中的“CSS 中的非平稳季节性 AR 部分”错误

我正在尝试拟合季节性分解系列的 ARIMA 模型但是当我尝试执行以下操作时 fit arima diff series order c 1 0 0 seasonal list order c 1 0 0 period NA 它给我以下错误
提取数据框中值前后的 n 行

我有一个数据框其中包含某些值Mark柱子我想提取n标记出现之前和之后的值包括带有标记的行我通过使用找到我需要的值indices lt which df Mark 1 where 1是我正在寻找的价值现在我需要例如之前 5 行和之后
渲染函数的反应性参数

我在 Flexdashboard 中有一个表其列数可以更改我可以动态计算列的对齐方式默认对齐方式 23 45作为字符向量因此左对齐该值尽管它是一个数字并且应该右对齐问题是我无法将此对齐传递回renderTable作为一个值ali
如何使用 purrr::pmap 在nested.data.frame中绘制多个ggplot

我对 purrr pmap 在nested data frame中制作多个ggplot图有一些疑问我可以使用 purrr map2 毫无问题地运行下面的代码并且可以在nested data frame中制作多重图 2个图作为示例我在
如何将管道链 (magrittr) 的结果提供给对象

这是一个相当简单的问题但我无法通过 google stackexchange 找到答案并查看 magrittr 的文档如何提供通过 gt 连接的函数链的结果来创建向量我看到大多数人做的是 a lt data frame x c 1 3
如何获取数字列的确切类型，包括。规模和精度？

有没有办法知道列中列的确切类型DataTable 现在我正在这样做 DataTable st dataReader GetSchemaTable foreach DataColumn col in st Columns var type c
如何在Shiny中默认选择verbatimTextOutput中的文本？

这是与我之前的问题相关的问题是否可以有固定宽度的 verbatimTextOutput 并让文本在 Shiny 中换行 https stackoverflow com q 58516071 7669809 我有以下闪亮的应用程序 http
在R中，如何平均空间网格正方形上的空间点数据

现在设法解决问题我有一组大约 50 000 个点它们具有坐标和一个与其关联的值我希望能够将点放入网格中对落在网格正方形中的所有点的关联值进行平均所以我想最终得到一个对象来识别每个网格方块并给出网格方块内的平均值如果有帮助的话我
如何在闪亮中使用带有reactiveValues的debounce

我知道我可以像这样将 debounce 与reactive 结合使用这就是我需要的行为但我想改用reactiveValues ui lt fluidPage textInput inputId text label To see how
按月/年间隔汇总每日数据

我并不经常需要在 R 中处理日期但我认为这相当简单我有一列代表数据框中的日期我只想创建一个新的数据框使用日期按月年总结第二列最好的方法是什么我想要第二个数据框这样我就可以将它提供给绘图您能提供的任何帮助将不胜感激编辑供
修改 GGplot2 对象

然而我很好奇是否可以添加任何特定的图例或将哪个物种对应于观察到的预期绘图中以分别知道它是哪个圆圈我目前使用的是一个名为 finches 的假数据集该包称为 cooccurr 它创建一个 ggplot 对象我很好奇如何实际编辑它以
sapply 函数从命名向量中的值填充数据帧的列，需要很长时间。有更快的方法吗？

这是我正在做的一个例子 x lt c a 2 b 4 c 2 d 9 df lt data frame names c d c a b x是一个命名向量其值的顺序与它们在中出现的顺序不同df names 我需要在数据框中形成一个新列该列
dplyr 标准评估：summarise_ 以及求和变量的变量名称

我遇到了很多与我的问题类似的问题但只解决了我问题的一部分我使用带有标准评估的 dplyr 来容纳变量名称这对于管道中的 filter 和 group by 效果很好但是为了总结我无法为我正在求和的指标提供变量名称一个例子就可以
在 R 中使用 randomforest() 进行分类？

我最初有一个由 N 行 12 列组成的数据框最后一列是我的班级 0 或 1 我必须将整个数据框转换为数字 training lt sapply training temp as numeric 但后来我认为我需要将类列作为因子列来使用 r
RStudio 在临时目录中从 Rmarkdown 创建 PDF 文件

我使用 RStudio 和 Rmarkdown 来创建报告由于某种原因使用 Knit 按钮会导致它仅在某个临时目录中创建从命令输出来看似乎 pandoc 本身被指示这样做我觉得这很奇怪 usr lib rstudio bin pa
闪亮的演示文稿 (ioslides)：自定义 CSS 和徽标

我安装了以下内容 RStudio 预览版版本 0 98 864 2014 年 5 月 24 日 knitr 和shiny 的开发版本来自 devtools install github c yihui knitr rstudio shi
反转默认比例梯度ggplot2

我是新手我正在尝试设计热图这是我的代码 ggplot gd aes Qcountry Q6 1 Q6d order TRUE geom tile aes fill prob colour white theme minimal labs

随机推荐

com.google.api.client.auth.oauth2.TokenResponseException：401未经授权

我想使用 Java Google Drive API 我尝试了这段代码 public Drive getDriveService throws GeneralSecurityException IOException URISyntaxEx
在 C# 中实现多个 IEnumerable

我有一个通用类 Class
在 Atom 中调试 python？

有没有 Atom 的包或 IDE 可以让我在调试时观察变量 I tried https github com webBoxio atom hashrocket https github com webBoxio atom hashrocke
为什么 data.table 会通过引用更新名称（DT），即使我分配给另一个变量？

我已经存储了一个的名字data table as a vector library data table set seed 42 DT lt data table x runif 100 y runif 100 names1 lt name
如何在 Firefox Webextensions 中执行命令行程序？

我想在一个简单的 WebExtensions 插件中运行带有参数的命令 exe 位于磁盘上的某个位置并可能获取其标准输出由于旧的 API 已被弃用有没有办法在 WebExtensions 中执行此操作这篇博文提到了如何 https
Android Handler的使用

这是使用处理程序的更好方法有什么优点我遇到的所有示例似乎都给出了内联版本使用工具Handler Callback在类和实现接口方法中 or 使用内联代码版本 private Handler mHandler new Handler 这
想要共享多个图像，每个图像都有单独的标题 Whatsapp，反应本机共享

我正在使用 React Native Share 库一个很好的库我只需要一点点帮助它正在共享具有相同标题的多个图像我只想分享多个图像每个图像都有单独的消息标题假设如果有 5 张图像那么 5 张图像的标题是不同的不相同的
将 Cancel 设置为 true 后，VBA Workbook_BeforeClose 仍提示“保存”窗口。单击该菜单上的“保存”，然后关闭工作簿

EDIT 该问题是由我公司使用的自定义安全插件引起的我对此无能为力而且这是一个非常选择性的问题所以我删除了这个问题这样我就不会混淆将来发现这个问题的任何人 Change ActiveWorkbook to ThisWorkbook
选择
之间的文本

是否可以在之间选择文本标签我正在使用下面的预格式化代码尝试选择此数据 New York NY 10012 我玩过 address find br eq 2 text 但知道一定有更好的方法 div Joe Dirt br PO Box 8
为什么 JavaScript 和 HTML 分离是一个好的实践？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我一直在阅读有关 JavaScript 的一些良好实践其中之一是不引人注目的 JavaScript http en wikipedia org
为什么我无法使用 google chrome 登录 magento 后端

我正在使用 magento 社区版 1 7 0 2 我无法登录到 magento 后端我知道这个问题可能是因为 chrome 不接受 cookie 但如何解决这个问题请帮忙谢谢 If you 为 Magento 管理面板启用 http
为什么 Sencha Touch 中没有同步回调？

我希望能够在商店同步成功完成后向用户显示一条消息但是似乎没有任何方法可以使用回调或同步调用它我有点惊讶这不是开箱即用的因为这一定是一个常见问题有什么解决方法吗我们花了很长时间才找到适当的解决方案最后我们向商店的写入事件添加了
如何在 FluentUI 模式控件中创建粘性（不可滚动）页眉/页脚？

使用 React Fluent UI 模态控件有人可以告诉我如何确保页眉和页脚不是可滚动内容的一部分即它们是粘性的而如果窗口大小不足位于它们之间的主要内容是可滚动的随着内容变化最小化模态大小的变化即视口的窗口大小与最初一
奇怪的运算符优先级与 ?? （空合并运算符）

最近我遇到了一个奇怪的错误我将一个字符串与一个字符串连接起来int 然后添加另一个字符串我的代码基本上与此等效 int x 10 string s foo x 0 bar 令人惊讶的是这将运行和编译而不会出现警告或不兼容的类型错误
转换日期 (05/12/2011 至 12th)

我正在尝试将日期转换为日期数字后跟 st nd rd 或 th 具体取决于日期我是 JavaScript 新手所以不知道从哪里开始 E g 2011 年 5 月 1 日第一2011 年 5 月 2 日第二次2011 年 5 月 3
强制 selectize.js 仅显示以用户输入开头的选项

我正在使用 selectize js 目前它看起来像这样它不仅显示以 arm 开头的单词还显示在其他位置包含 arm 作为子字符串的单词或选项我想强制该函数仅显示以 arm 开头的单词或选项我检查了使用文档https githu
Spark saveAsTextFile() 写入多个文件而不是一个[重复]

这个问题在这里已经有答案了我现在在我的笔记本电脑上使用 Spark 和 Scala 当我将 RDD 写入文件时输出将写入两个文件 part 00000 和 part 00001 我如何强制 Spark Scala写入一个文件我的代码目
根据第二个文本文件从文本文件中删除重复项

如何从文本文件中删除所有行 main txt 通过检查第二个文本文件 removethese txt 什么是有效的方法如果文件大于 10 100mb 使用苹果电脑 Example main txt 3 1 2 5 删除这些行 removet
iPhone SDK：如何创建一个在点击位置插入文本的 UITextView？

我想创建一个 UITextView 您可以点击其中的任何位置并开始在该位置键入该控件的默认行为是从最后一个字符结束处开始键入因此如果我有一个没有文本的 UITextView 并点击控件的中间我想从那里开始输入而不是从左上角开始实
如何合并两个大型数据集，同时在r中生成具有不同重复值的新列

我有一个让我抓狂的问题真的需要你的帮助简化的问题是这样的 d1 lt data table v1 c a b c d d b a c a d b a v2 seq 1 12 V3 rep 1 4 times 3 d2 lt data t

如何合并两个大型数据集，同时在r中生成具有不同重复值的新列

如何合并两个大型数据集，同时在r中生成具有不同重复值的新列 的相关文章

随机推荐

热门标签

如何合并两个大型数据集，同时在r中生成具有不同重复值的新列的相关文章