寻找数据帧值的范围

2024-01-22

我有 2 个数据框：

> access
     V1     V2     V3
1 chr10 136122 136533
2 chr10 179432 179769
3 chr10 182988 183371
4 chr10 224234 224489
5 chr10 237693 237958

and

> peaks
     V1     V2     V3
1 chr10 126122 126533
2 chr10 179450 179730
3 chr10 182788 183350
4 chr10 224244 224500
5 chr10 237695 237950

V2 和 V3 列是start and end两个数据框中的区域（范围）。我想保留这些行peaks其数据框access$V1 == peaks$V1AND 属于以下范围（或区域）access数据框。例如，新的数据框将类似于：peaks数据框的

第一行区域不存在于access数据框，因此它将被分配类别U.
第 2 行peaks落在给定范围内access数据框（第二行）并将被分配类别B.
第 3 排peaks并不完全落在该区域，但它在某种程度上与第三行中的区域重叠access，为此我将分配类别A.
第 4 行peaks在访问第 4 行区域末尾之后的 11 个数字处也没有完全重叠，这也将属于类别A.
第五行属于该区域，因此将属于类别B.

预期输出：

> newdf   
     V1     V2     V3 V4
1 chr10 126122 126533  U
2 chr10 179450 179730  B
3 chr10 182788 183350  A
4 chr10 224244 224500  A
5 chr10 237695 237950  B

以下是输入数据帧的输出：

> dput(peaks)
structure(list(V1 = structure(c(1L, 1L, 1L, 1L, 1L), .Label = "chr10", class = "factor"), 
    V2 = c(126122L, 179450L, 182788L, 224244L, 237695L), V3 = c(126533L, 
    179730L, 183350L, 224500L, 237950L)), .Names = c("V1", "V2", 
"V3"), class = "data.frame", row.names = c(NA, -5L))

> dput(access)
    structure(list(V1 = structure(c(1L, 1L, 1L, 1L, 1L), .Label = "chr10", class = "factor"), 
        V2 = c(136122L, 179432L, 182988L, 224234L, 237693L), V3 = c(136533L, 
        179769L, 183371L, 224489L, 237958L)), .Names = c("V1", "V2", 
    "V3"), class = "data.frame", row.names = c(NA, -5L))

Edit:

我的新访问 df 如下所示，现在我还想在最终输出 df 中附加最后一列：

> access
     V1     V2     V3  V4
1 chr10 136122 136533  found
2 chr10 179432 179769  notFound
3 chr10 182988 183371  found
4 chr10 224234 224489  found
5 chr10 237693 237958  notFound

所以现在有一个额外的条件，如果 access 中的行落在峰值范围内，则还将 V4 中的值附加到最终 df 的新列中，如果未找到某个区域，则默认情况下将是notFound。因此，最终输出将是：

> newdf   
     V1     V2     V3 V4 V5
1 chr10 126122 126533  U notFound
2 chr10 179450 179730  B notFound
3 chr10 182788 183350  A found
4 chr10 224244 224500  A found
5 chr10 237695 237950  B notFound

Here in row1$V5该值未找到，因为未找到该区域，在其余情况下，我们从修改后的访问 df 中获取了 V5 中的值。

如果速度是一个问题，链接data.table解决方案可能会更好，但也可以通过dplyr，但可能要慢得多：

library(dplyr)
names(access)[2:3] <- c('start', 'end')

bind_cols(peaks[-1], access) %>%
  rowwise() %>% 
  mutate(V4 = if_else(all(V2:V3 %in% start:end), 'B',
                      if_else(any(V2:V3 %in% start:end), 'A',
                              'U')))

Result:

Source: local data frame [5 x 6]
Groups: <by row>

# A tibble: 5 x 6
      V2     V3     V1  start    end    V4
   <int>  <int> <fctr>  <int>  <int> <chr>
1 126122 126533  chr10 136122 136533     U
2 179450 179730  chr10 179432 179769     B
3 182788 183350  chr10 182988 183371     A
4 224244 224500  chr10 224234 224489     A
5 237695 237950  chr10 237693 237958     B

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

DataFrame

range

寻找数据帧值的范围的相关文章

如果落在 R 中另一个数据集中的两个变量定义的范围内，则从一个数据集中获取变量值

我有一个关于 R 中日期操作的问题我已经查了好几天了但在网上找不到任何帮助我有一个数据集其中有 id 和两个日期另一个数据集具有相同的 id 变量日期和价格例如 x data frame id c A B C C date1
dplyr::group_by_ 带有多个变量名的字符串输入

我正在编写一个函数要求用户在函数调用中定义一个或多个分组变量然后使用 dplyr 对数据进行分组如果只有一个分组变量它会按预期工作但我还没有弄清楚如何使用多个分组变量来做到这一点 Example x lt c cyl y lt c
R xts 对象中从每日时间序列到每周时间序列

我正在使用 Zoo 和 xts 包来分析财务数据 ts 包不太合适因为金融系列有周末没有可用数据我读到了 xts 包中可用的 apply 函数 apply daily x FUN apply weekly x FUN apply mo
GLMER 警告：方差-协方差矩阵 [...] 不是正定的或包含 NA 值

我有时发现我的 GLMM 来自glmer 包裹lme4 当调用其摘要时显示以下警告消息 Warning messages 1 In vcov merMod object use hessian use hessian variance co
使用栅格包下载 SRTM 数据？

我正在尝试使用获取 SRTM 数据 raster R 中的包但一旦我选择SRTM在 getData 命令中我会收到以下错误 library raster srtm lt getData SRTM lon 16 lat 48 tryin
反加入熊猫

我有两个表我想附加它们以便仅保留表 A 中的所有数据并且仅在其键唯一时添加表 B 中的数据键值在表 A 和 B 中是唯一的但在某些情况下键将出现在表 A 和 B 中我认为执行此操作的方法将涉及某种过滤联接反联接以获取表 B
将 R 中的列中的单引号替换为双引号

我在 R 中的数据框有一个 A 列其中有带单引号的字符串数据 Column A Hello World Hi World Good morning world 我想做的是将单引号替换为双引号并实现如下所示的输出 Column A Hell
是否有一个函数可以检索某个范围内可用的不同值的数量？

我正在制作的应用程序中使用双精度浮点变量我标准化了一些值范围从例如我有很多范围 48 0 to 48 0 to 0 0 to 1 0 使用这个简单的函数 double ToNormalizedParam double nonNorm
如何一次执行多个 RSQLite 语句或如何转储整个文件？

使用 RSQLite 构建 SQLite 数据库我想一次发送多个语句这可能吗为什么要做这些not work sql lt readLines createtables sql dbSendQuery con sql 和 sql lt
如何在 R 中的多图形环境中画一条线？

举一个非常简单的例子 mfrow c 1 3 每个图都是不同的直方图我将如何画一条水平线类似于abline h 10 所经过的all3位数也就是说甚至是它们之间的边距显然我可以为每个图形添加一条 abline 但这不是我想要的
ggplot：如何检索轴标签的值？

如何提取下面的 ggplot 中用于标记 y 轴和 x 轴的数字分别为20 30 40 and 10 15 20 25 30 35 Plot From r 统计公司 http r statistics co Top50 Ggplot2 V
R grep：有 AND 运算符吗？

假设我有以下数据框 User Id Tags 34234 imageUploaded people jpg more comma separated stuff 34234 imageUploaded 12345 people jpg 我如
查询文本指定 use_legacy_sql:false，而 API 选项指定:true

我将 standardSQL 与 bigrquery 一起使用 library bigrquery project lt sql lt standardSQL SELECT result lt query exec sql project
使用 ggplot2 和 geom_area 堆叠负/正时间序列

我正在尝试重现一个堆积的时间序列图该图显示银行资产负债表的构成和规模如何随时间变化它应该看起来像这样资产位于 x 轴上方负债位于 x 轴下方到目前为止我已经能够使用以下方法成功重现图表的每一半ggplot plot assets
ValueError：在 R 中使用 keras 模型时在用户代码中

我正在尝试使用 R 在 R 中运行一维 CNNkeras包裹我正在使用以下代码 library MASS library keras Create some data data Boston data lt Boston create a
r - 如何在 normalizePath 中指定路径，或解决与其关联的此错误？

我正在学习 R 并将其安装在我的办公室计算机上我没有计算机的管理员权限因为我什至必须致电IT人员进行安装然后我安装一个包一开始输入时不起作用例如 install packages thepackage 错误信息是这样的 Error
gridExtra 2.0.0 更改标题大小

我知道 gridExtra 已更新因此我想知道如何更改标题大小这不再有效 grid arrange a b c d ncol 2 nrow 2 main textGrob Title gp gpar fontsize 15 font
R数据表：将行值与组值进行比较，有条件

这是问题的延伸 R数据表将行值与组值进行比较 https stackoverflow com questions 33285050 r data table compare row value to group values 我现在有了
如何使用字符对象使用 dplyr 重命名列[重复]

这个问题在这里已经有答案了我想通过使用变量以动态方式使用 dplyr 重命名列但是它只是为列命名变量的名称而不是其内容有任何想法吗 colnames y 1 time channel 1 channel 2 channel 3 c
R 中的插补 MICE 仍不存在于数据集中

运行 MICE 包后 5 个完整插补集中的缺失值数量从 147428 减少到 46093 但不是应该是 0 NA 吗 Thanks 这是我的 MICR 代码 imp mice newdata imputationSet1 complete

随机推荐

无法通过 rebase 拉取

我收到这条消息 Cannot pull with rebase You have unstaged changes Please commit or stash them 是的我有一些未提交的更改我搜索了一种方法在从拉取中获得的新代码
Apple 二进制文件被拒绝 (2.16)

我的应用程序需要用户当前位置来向他显示前往谷歌地图中特定位置的方向下面是在网络视图上显示位置的代码 self getDirectionsWebView loadRequest NSURLRequest requestWithURL NSU
TailwindCSS 中的中心固定元素

当成功验证页面时我会出现一条闪现消息我正在尝试弄清楚如何将其在任何设备上水平居中我正在使用 TailwindCSS 来调整 div 的位置并尝试过fixed and absolute确保它出现在我的内容之上但使用类似的属性left
带 blit 的 Matplotlib 动画——如何更新绘图标题？

我使用 matplotlib 通过复制背景和位块传输来制作绘图动画 f Figure tight layout True canvas FigureCanvasTkAgg f master pframe canvas get tk widg
django admin TinyMCE 集成

这很奇怪我已经安装并配置了 django tinymce 但它似乎不适用于 django admin 这适用于 Safari class ArticleAdmin admin ModelAdmin formfield overrides
如何最好地开发 Google Sheets 脚本和 Git 版本控制

我是开发 Google Sheets 脚本的新手我有从 krlaframboise SmartThings 分叉的代码想要添加一些内容并将其提交到我的 Github 分叉中显然我可以在工作表脚本编辑器中进行编辑并将它们粘贴回我的 gi
如何从 Maven 获得对版本组中所有工件的依赖？

我是 Maven 新手我第一次尝试构建一个项目我想写一些依赖于apache lucene的代码这是一个Maven 中的工件列表 http mvnrepository com artifact org apache lucene我想要得
FFmpeg - 如何高精度修剪？

我对 FFmpeg 修剪视频的方式非常困惑所以如果有人能帮助我我将非常感激基本上我想做的是我有一个视频序列我希望它在某一秒停止将图像冻结几秒钟如暂停然后从同一帧再次再现我可以说我正在处理三个视频 A mp4 视频序列的第
NSArray 的大小

当我尝试检查声明为没有任何容量的 NSArray 的大小时我发现它是 4 现在的问题是为什么它总是 4 请帮我找到它谢谢如果你说的是sizeof it is not找出 NSArray 持有多少数据的正确方法 Objective C
Jwt 具有多个模型

我使用 Laravel 5 2 框架和 jwt 进行授权jwt 仅使用一种模型获取用户信息表单令牌现在我如何在多个模型上使用 jwt 解析用户令牌例如当我在 api jwt 中使用客户令牌从客户模型解析该令牌时默认防护应该是客户 a
如何在 Windows 上安装 NUnit 3 控制台并运行测试？

我想从这样的控制台运行测试在任何目录中 DLL 文件可以针对不同的 NET 版本 nunit3 console test dll 我用谷歌搜索了很多但找不到如何设置它官方教程没什么用处完全是零跟随它让我无处可去 https git
在 Framework 3.5 中使用服务器标记 <%= %> 设置 Visible 属性

我一直在 NET Framework 4 项目中使用等服务器标记来设置 runat server 控件的可见性如下所示 div Content div 这适用于框架 4 但现在尝试在框架 3 5 项目上使用它它似乎不起作用这是 Fr
悬停时显示材质复选框动画

看看这个效果link https material components github io material components web catalog component checkbox悬停时显示复选框的圆形背景我怎样才能在使用时
“找不到匹配的主机密钥类型” - Apache MINA SFTP 服务器

我希望使用 Apache MINA 在 Java 中设置 SFTP 服务器它似乎开始正常但是当我尝试使用 OpenSSH 客户端连接到它时我得到 ssh localhost p 2222 Unable to negotiate wit
将服务器日志文件写入数据库是个好主意吗？

看完之后O Reilly 发表的有关该主题的文章 http www onlamp com pub a apache 2005 02 10 database logs html 我想询问 Stack Overflow 他们对此事的看法本地写
如何在我的 Angular 指令 Bower 包中使用单独的模板？

因此我创建了一大堆指令想要在许多项目中使用它们因此我将其转换为 Bower 包并将其包含在我的一个项目中不幸的是这些指令不起作用因为 templateUrl 路径不正确 templateUrls 基于与指令 js 位于同一目录中
通过 JSch shell 通道向服务器发送命令

我不知道如何通过 JSch shell 通道发送命令我这样做但它不起作用 JSch shell new JSch String command cd home s src Session session shell getSession
Kubernetes 作业失败，没有日志，没有终止原因，没有事件

我连夜在 Kubernetes 中运行了一个作业当我早上检查时它失败了通常我会检查 Pod 日志或事件以确定原因但是该 Pod 已被删除并且没有任何事件 kubectl describe job topics etl names
如何在python中打印包含引号的字符串

我想在 python 中打印引号是否可以打印一个用Python或任何其他语言我试过print Here a b没有用因为它给出了不适当的语法错误 a 3 b cd print 有以下几种方法一起使用单引号和双引号允许您以单引号开
寻找数据帧值的范围

我有 2 个数据框 gt access V1 V2 V3 1 chr10 136122 136533 2 chr10 179432 179769 3 chr10 182988 183371 4 chr10 224234 224489 5 c

寻找数据帧值的范围

寻找数据帧值的范围 的相关文章

随机推荐

热门标签

寻找数据帧值的范围的相关文章