如何使用高级字符串匹配对数据进行子集化

2024-03-27

我有以下数据框，我想根据匹配的字符串从中提取行。

> GEMA_EO5
gene_symbol  fold_EO  p_value                           RefSeq_ID      BH_p_value
       KNG1 3.433049 8.56e-28              NM_000893,NM_001102416    1.234245e-24
      REXO4 3.245317 1.78e-27                           NM_020385    2.281367e-24
      VPS29 3.827665 2.22e-25                 NM_057180,NM_016226    2.560770e-22
    CYP51A1 3.363149 5.95e-25              NM_000786,NM_001146152    6.239386e-22
      TNPO2 4.707600 1.60e-23 NM_001136195,NM_001136196,NM_013433    1.538000e-20
      NSDHL 2.703922 6.74e-23              NM_001129765,NM_015922    5.980454e-20
     DPYSL2 5.097382 1.29e-22                           NM_001386    1.062868e-19

所以我想提取例如基于 $RefSeq_ID 中匹配字符串的两行，适用于以下情况：

> list<-c("NM_001386", "NM_020385")
> GEMA_EO6<-subset(GEMA_EO5, GEMA_EO5$RefSeq_ID %in% list, drop = TRUE)

> GEMA_EO6

gene_symbol  fold_EO  p_value RefSeq_ID    BH_p_value
      REXO4 3.245317 1.78e-27 NM_020385  2.281367e-24
     DPYSL2 5.097382 1.29e-22 NM_001386  1.062868e-19

但有些行有多个用逗号分隔的 RefSeq_ID，因此我正在寻找一种通用方法来判断 $RefSeq_ID 是否包含特定字符串模式，然后对该行进行子集化。

要进行部分匹配，您需要使用正则表达式（请参阅?grepl）。这是针对您的特定问题的解决方案：

##Notice that the first element appears in 
##a row containing commas
l = c( "NM_013433", "NM_001386", "NM_020385")

要一次测试一个序列，我们只需选择一个特定的 seq id：

R> subset(GEMA_EO5, grepl(l[1], GEMA_EO5$RefSeq_ID))
  gene_symbol fold_EO p_value                           RefSeq_ID BH_p_value
5       TNPO2   4.708 1.6e-23 NM_001136195,NM_001136196,NM_013433  1.538e-20

为了测试多个基因，我们使用|操作员：

R> paste(l, collapse="|")
[1] "NM_013433|NM_001386|NM_020385"
R> grepl(paste(l, collapse="|"),GEMA_EO5$RefSeq_ID)
[1] FALSE  TRUE FALSE FALSE  TRUE FALSE  TRUE

subset(GEMA_EO5, grepl(paste(l, collapse="|"),GEMA_EO5$RefSeq_ID))

应该给你你想要的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

stringmatching

subset

如何使用高级字符串匹配对数据进行子集化的相关文章

用整数矩阵对 data.frame 进行子集化

我一直遇到这个问题想知道是否有一个简单的解决方法对于某些情况我发现考虑将矩阵子集化更合乎逻辑 N lt 12 N NA lt 6 dat lt data frame V1 runif N V2 runif N sel mat lt m
通过非 sf 列内连接两个 sf 对象

我尝试使用内连接或左连接连接两个 sf 数据帧这些数据框内部都有几何列我不断收到错误 check join x y 中的错误 y 应该是一个数据框对于空间连接请使用 st joinFALSE 下面的可重现示例 df1 lt data
在开发模式下安装包（R源未编译成Rdb）

我需要修改R代码在一个R具有 Fortran 绑定的包当我安装软件包时我看到存储库目录没有源代码但是 Rdb而是二进制文件我看了看devtools包但我仍然不清楚如何在不编译 R 源部分的情况下安装该包类似于 python py
rvest open.connection(x, "rb") 中出现错误：已达到超时

我正在尝试从中抓取内容http google com http google com 错误信息就出来了 library rvest html http google com open connection x rb 中的错误已达到超时另外
列表列中的设置操作

我正在尝试做集合运算在存储在列表列中的向量之间例如this https stackoverflow com questions 38712196 text file to dataframe with a list column DT l
与 data.table 合并时防止重复列

我有两个数据表它们的列名部分相似 dfA lt read table text A B C D E F G iso year matchcode 1 0 1 1 1 0 1 0 NLD 2010 NLD2010 2 1 0 0 0 1 0
自动化 RStudio 处理 RMarkdown？

我有一个 RMarkdown 文件用于生成漂亮的 HTML 报告问题是我希望能够自动化它以便它可以在无头服务器上运行因此不会有人启动 Rstudio 并按下 knithtml 按钮而且 Rstudio 似乎正在做很多额外的魔法
如何在 R 中执行随机森林/交叉验证

我无法找到对我尝试生成的回归随机森林模型执行交叉验证的方法因此我有一个数据集其中包含 1664 个解释变量不同的化学性质和一个响应变量保留时间我正在尝试生成一个回归随机森林模型以便能够预测给定保留时间的物质的化学性质 ID
使用 R 迭代读取、操作多个 Excel 文件并将它们附加到一个数据帧中

在一个目录下我有多个具有相似格式的excel文件您可以从以下位置下载示例文件 here https www dropbox com s ho3visres55kpoy test zip dl 0 我需要循环文件和read excel
R 中多类分类的 ROC 曲线

我有一个包含 6 个类别的数据集我想绘制多类别分类的 ROC 曲线 Achim Zeileis 给出的第一个答案非常好 R中使用rpart包的ROC曲线 https stackoverflow com questions 30818188
如何处理重叠的因子水平？（例如，生成表格和图表时）

我面临一个数据集的问题重叠因素水平我想按因素级别生成时间线条形图和统计数据但是我希望因子水平是模棱两可的这意味着属于多个级别的观察结果应该在图中出现多次这是我的数据结构的示例 head lt c ID YEAR BRAZIL G
为 RStudio Server 1.0.44 配置日志目录

我在 CentOS 7 上运行 RStudio Server 1 0 44 根据文档 https support rstudio com hc en us articles 200554766 RStudio Server Applicat
R中不同级别的李克特分组

我想使用 Likert 包并按变量分组并绘制结果问题是我想要可视化的变量有不同的级别有没有解决的办法一个简单的例子来说明我的问题 library reshape library likert foo lt data frame ca
完全缺失列的 VaR 计算

我需要计算股票收益的滚动 VaR 从这篇文章使用rollapply函数使用R进行VaR计算 https stackoverflow com questions 25045612 using rollapply function for v
使用列表中的数据框：删除变量，添加新变量

定义一个列表dats有两个数据框 df1 and df2 dats lt list df1 data frame a sample 1 3 b sample 11 13 df2 data frame a sample 1 3 b sampl
从 Cox PH 模型预测概率

我正在尝试使用 cox 模型来预测时间称为停止 3 后失败的概率 bladder1 lt bladder bladder enum lt 5 coxmodel coxph Surv stop event rx size number cl
为什么 rbind 会抛出警告

这与是否有更优雅的方法将不规则的数据转换为整洁的数据框 https stackoverflow com questions 25102617 are there more elegant ways to transform ragged d
如何从类外部更改公共 R6 类方法？

我希望能够在我的 R6 类中重新定义公共方法以便它根据该类保存的数据类型进行更改如下所示 library R6 Simple lt R6Class Simple public list dt mtcars my print functi
用于更改向量中元素顺序的闪亮小部件

在很多网站上您都有一个拖放界面来更改列表中元素的顺序我正在寻找类似的东西闪亮我希望用户能够拖放列表中的元素通过更改顺序来更改优先级现在我有一个滥用的解决方案selectizeInput 这是可行的但当选择列表变得更大时它很快就
Rglpk - 梦幻足球阵容优化器 - For 循环输出的 Rbind

我有一个使用 Rgplk 的梦幻足球阵容优化器它使用for循环生成多个最佳阵容其数量由用户输入代码如下 Lineups lt list for i in 1 Lineup no matrix lt rbind as numeric D

随机推荐

如何在运行时将命令行参数传递给 Docker 映像中的 dotnet dll？

正在处理我的第一个 Docker 镜像它是一个使用CMD启动的dotnet程序 Docker中只允许使用一个CMD 我想在运行时向程序传递一个参数 API 密钥经过一番谷歌搜索没有找到明确的答案入口点似乎没有帮助也许是ENV 但E
写入数据到寄存器

我有某个寄存器的内存地址地址LCDCW1是C000 c codes define LCDCW1 0xC000 LCDCW1 0x31 我只想将数据写入该寄存器代码有问题如何修改 thx 正如其他人所建议的那样您可以声明一个适当的指针
如何克服 emacs lisp 闭包缺少局部变量的问题

我现在正在学习 Emacs Lisp参考手册 http www gnu org software emacs manual elisp html和 Common Lisp 来自LISP https rads stackoverflow co
VS2012 Team Explorer 中的“按解决方案筛选”按钮在哪里？

在 VS2010 的团队资源管理器中有一个选项可以仅显示当前解决方案的待定更改请参阅here https stackoverflow com q 1762180 612265 and here https stackoverflow c
Python Pandas：根据出现次数删除条目

我正在尝试从数据框中删除出现次数少于 100 次的条目数据框data看起来像这样 pid tag 1 23 1 45 1 62 2 24 2 45 3 34 3 25 3 62 现在我计算标签出现的次数如下所示 bytag data g
无法对表或索引视图使用 CONTAINS 或 FREETEXT 谓词，因为它不是全文索引

我在 SQL Server 2008 R2 数据库中收到以下错误不能使用CONTAINS or FREETEXT对表或索引视图 tblArmy 进行谓词因为它没有全文索引确保您安装了全文搜索功能创建全文搜索目录如果需要首先检查是
使用身份验证令牌的 Java REST 服务

在我使用 Java EE 6 的 Web 应用程序上我想将我的一些功能公开为 Json Rest 服务我想使用身份验证令牌进行登录用户将发送他们的用户名密码服务器将发回一个令牌该令牌将用于授权用户在给定时间内执行进一步的请求到
如果数组是通过引用传递的，为什么要使用 int(&)[]？ [复制]

这个问题在这里已经有答案了考虑 include
将 MongoDB 文档映射到具有类型但没有嵌入文档的案例类

Subset https github com osinka subset看起来像一个有趣的薄的 MongoDB 包装器在给出的示例之一中有推文和用户然而 User is a 子文档 of Tweet 在经典 SQL 中这将被规范
如何对特殊字母（打字稿）进行排序？

我想对 ts 中的一些字母进行排序排序方法和 localeCompare 以这种方式排序而不是如何正确排序任何字母我有一个对象列表 class MyObj id number name string type number I tr
Hadoop 集群设置 - java.net.ConnectException：连接被拒绝

我想在伪分布式模式下设置一个hadoop集群我设法执行了所有设置步骤包括在我的计算机上启动 Namenode Datanode Jobtracker 和 Tasktracker 然后我尝试运行一些示例程序并面临以下问题java net
为什么Chrome在“严格模式”下使用块内的函数时仍然保持沉默？ [复制]

这个问题在这里已经有答案了我对 JS 还很陌生 strict mode 当我使用如下代码时 function outer use strict var ctype function inner if ctype undefined fun
使用动态 JSON 字段对类型进行建模的 Haskell 方式？

我是 Haskell 的新手来自命令式编程背景我希望能够以 Haskell 方式将对象序列化为 JSON 但还不太确定如何做到这一点我读过了RealWorldHaskell 第 5 章 http book realworldhask
如何在通过代理 (Tor) 浏览时阻止 Java 预解析我的主机？

我目前正在开发一个java应用程序它使用在本地主机上运行的tor代理来获取显示请求者ip的脚本我希望这项工作主要由 Tor 代理完成以便它在最自然的状态下工作我当前的代码看起来与此类似 SocketAddress TorProx
go 变量作用域和阴影

这是 GOPL 中的一个示例表达式 x i 和 x A a 每个都引用外部块中 x 的声明我们稍后会对此进行解释解释永远不会到来为什么x i 指的是外部作用域中的x 一旦您在内部块中重新声明 x 它就会遮蔽外部块中的 x 为什么这有
GKE 和 Stackdriver：Java logback 日志记录格式？

我有一个在 Kubernetes 上的 Docker 镜像中运行 Java 的项目日志由 fluidd 代理自动摄取并最终存储在 Stackdriver 中但是日志的格式是错误的多行日志被放入 Stackdriver 中的单独日志行
SWIFT：不知道如何将所选值从弹出窗口返回到调用控制器

我对 Swiftui Popover 的返回值着迷我对 Objective C 和 SWIFT 都很陌生但我尝试专注于 SWIFT 我查看了 Google 和 StackOverflow 上关于如何管理 iOS 弹出窗口的教程学到
限制 JavaFX TextField 的字符数会导致撤消时 IndexOutOfBounds

我需要限制用户可以输入的字符数TextFieldJavaFX 控件我已经延长了TextField like so public class LengthLimitedTextField extends TextField param ma
DLL：在 Linux for Windows 上使用 MinGW 编译 C 时无法识别文件格式

我在 Linux 特别是 Ubuntu 上使用 MinGW 来编译 Windows 的 C 程序我正在使用一个名为 SFML 的库它的绑定名为 CSFML 我使用 L 和 l 来定位库但是当我编译时出现此错误 win32 dll cs
如何使用高级字符串匹配对数据进行子集化

我有以下数据框我想根据匹配的字符串从中提取行 gt GEMA EO5 gene symbol fold EO p value RefSeq ID BH p value KNG1 3 433049 8 56e 28 NM 000893 NM

如何使用高级字符串匹配对数据进行子集化

如何使用高级字符串匹配对数据进行子集化 的相关文章

随机推荐

热门标签

如何使用高级字符串匹配对数据进行子集化的相关文章