选择一个单元格内的最小值或最大值（分隔字符串）

2024-05-13

我有一个数据框，其中每个样本的列可以有多个值，例如：

Gene       Pvalue1             Pvalue2              Pvalue3                  Beta
Ace    0.0381, ., 0.00357    0.01755, 0.001385    0.0037, NA , 0.039         -0.03,1,15
NOS          NA                  0.02              0.001, 0.00067              0.00009,25,30

我要申请min() and max()对于每列中的每个基因的数据（我总共有数千个基因），并获取 p 值的最小值，但获取诸如 beta 之类的列的最大值。所以输出数据将如下所示：

Gene       Pvalue1             Pvalue2              Pvalue3                  Beta
Ace        0.00357              0.001385             0.0037                   15
NOS          NA                  0.02                0.00067                  30

我是 R 新手，不确定我所问的是否可能，如果一个单元格中有多个值，它们是否被视为字符串？

一个可能的解决方案是使用stringr and dplyr:

library(dplyr)
library(stringr)

getmin = function(col) str_extract_all(col,"[0-9\\.-]+") %>%
  lapply(.,function(x) min(as.numeric(x),na.rm = T) ) %>%
  unlist() 

df %>%
  mutate_at(names(df)[-1],getmin)

  Gene Pvalue1  Pvalue2 Pvalue3  Beta
1  Ace 0.00357 0.001385 0.00370 -3e-02
2  NOS     Inf 0.020000 0.00067 9e-05

Warning messages:
1: In FUN(X[[i]], ...) : NAs introduced by coercion
2: In min(as.numeric(x), na.rm = T) :
  no non-missing arguments to min; returning Inf

功能getmin提取数字str_extract_all:

 str_extract_all(df$Pvalue2,"[0-9\\.-]+")

[[1]]
[1] "0.01755"  "0.001385"

[[2]]
[1] "0.02"

它的优点是对空格或其他字符不敏感，但只能提取一个点。然后我循环这个列表以提取每个单元格中的最小值，并将列表转换为向量unlist。使用as.numeric()函数转换可能提取的. to NA.

代码df %>% mutate_at(names(df)[-1],getmin)只需将此函数应用于除第一列之外的所有列

编辑：如果你想避免 inf 值，你可以使用这个稍微修改的版本：

min2 = function(x) if(all(is.na(x))) NA else min(x,na.rm = T)
getmin = function(col) str_extract_all(col,"[0-9\\.-]+") %>%
  lapply(.,function(x)min2(as.numeric(x)) ) %>%
  unlist() 

df %>%
    mutate_at(names(df)[-1],getmin)

  Gene Pvalue1  Pvalue2 Pvalue3  Beta
1  Ace 0.00357 0.001385 0.00370 -3e-02
2  NOS      NA 0.020000 0.00067 9e-05

data:

df <- read.table(text = "
                 Gene       Pvalue1             Pvalue2              Pvalue3                  Beta
Ace    0.0381,.,0.00357    0.01755,0.001385    0.0037,NA,0.039         -0.03,1,15
                 NOS          NA                  0.02              0.001,0.00067              0.00009,25,30
                 ",header = T)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

DataFrame

max

min

选择一个单元格内的最小值或最大值（分隔字符串）的相关文章

单击 hPlot 图表中闪亮的数据点时打印组名称

我有一个闪亮的应用程序它使用 rCharts 中的 highcharts 库显示一些图表在某些情况下我在单个图表上有多个图表这些图表是使用 hPlot 中的组选项创建的我希望在单击图表时打印单个数据点的所有参数 x y 和组值我
在 R 中，如何获得某些向量值的所有可能组合？

背景我有一个需要一些参数的函数我想要获得所有可能的参数组合的函数结果一个简化的例子 f lt function x y return paste x y sep colors c red green blue days c Monda
安装 R 包。包含目录为空。开发标头

我目前正在尝试运行一些最初在 2 11 0 下运行的 R 代码我使用的 R 版本 2 14 1 无法运行该代码我不熟悉 R 及其向后兼容性据我所知我的问题可能与版本无关我会很高兴得知这是我做错的事情其余的代码是无关紧要的即使我
在 R data.table 中计算时间增量

我有一个篮球运动员数据的数据表其中包括每场比赛和多名球员的比赛日期我想创建一个列来计算自上一场比赛以来的天数我在 R 中使用 data table 包 PLAYERID GAME DATE 1 2989 2014 01 1 2 298
Python - Pandas - 将特定函数应用于给定级别 - 多索引数据帧

我有一个多索引 DataFrame 并且我希望仅对分配给我的级别之一的向量应用一些计算使用下面的代码 import pandas as pd import datetime ticker date US datetime date tod
如何扩展 ggplot y 轴限制以包含最大值

通常在图中 Y 轴值标签会在绘制的最大值下方被截断 For example library tidyverse mtcars gt ggplot aes x mpg y hp geom point 我知道scale y continous
计算横截面积作为高度的函数

我试图弄清楚如何计算不同水位的河流横截面的充满水的面积对于横截面我有 5 m 宽河流上每 25 cm 的深度并且可以根据之前很好回答的问题来计算面积计算不同高度的横截面积 https stackoverflow com questio
将 Excel 数字日期重新格式化为 R 日期

希望将从 Excel 中提取的列重新格式化为包含数字 Excel 格式例如 40182 的数据框 as date 40182 origin 1899 12 30 format b Y Returns 1 2070 年 1 月 5 日我正
Dataframe unstack 性能 - pandas

我正在尝试拆开数据框它工作正常但问题是我正在处理 CSV 文件中的巨大数据集约 10 亿这是示例数据集 236539 48512569874 Name Danny 236539 48512569874 Class 12 236539
使用 rvest 进行抓取 - 当标签不存在时，使用 NA 完成抓取

我想解析这个 HTML 并从中获取这个元素 a p标签与class normal encontrado b div with class price 有时 p某些产品中不存在标签如果是这种情况 NA应添加到从该节点收集文本的向量中这个
写入抓取数据的 csv 文件时如何拆分项目名称

我有兴趣使用 R 从网上抓取的数据创建 csv 或类似的 Excel 兼容文件到目前为止我通过执行以下操作来存储数据 require textreadr spiegel lt read html http www spiegel de
使用多边形图层下方的轮廓线切割多边形

我想根据高程将多边形图层切割成两部分上部和下部多边形可能是凸的或凹的并且切割的位置可能彼此不同等高线的间隔为 5m 这意味着我可能需要生成一个具有更紧凑的等高线的等高线例如 1m 的间隔关于如何做到这一点的任何想法在 ArcG
R 监督潜在狄利克雷分配包

我在用着这个LDA包 https cran r project org web packages lda 对于 R 具体来说我正在尝试做监督潜在狄利克雷分配 slda https www cs princeton edu blei pap
Python删除带有时间条件的行

我有 2 组 Dataframe 均具有唯一标识符和格式相同的日期时间数据 2020 01 01 00 00 01 日期时间和 12345 唯一标识符和类型第一个问题 DF1 DatetimeX ID Type 2020 01 01 02
如何修改反应链以便最后修改的对象控制其他链接的对象？

新注释 1 最终解决的代码发布在最底部反映了 ismirsehregal 于 2021 年 12 月 3 日的解决方案以及一些标记为 ADDED 和 MODIFIED 的小调整 ADD 是为了解决我在矩阵 2 添加值后从矩阵 1 中删除
do.call 的 envir 选项如何工作？

的文档do call states If quote is FALSE 默认值然后对参数进行求值在调用环境中而不是在envir 这句话向我暗示当quote FALSE 指定envir没有什么区别然而事实并非如此事实上我遇到过需
了解日期并使用 R 中的 ggplot2 绘制直方图

主要问题当尝试使用 ggplot2 制作直方图时我无法理解为什么日期标签和中断的处理无法像我在 R 中预期的那样工作我在找我的约会频率的直方图刻度线位于匹配条下方的中心日期标签在 Y b format 适当的限制最小化网格空
使用 sprintf 打印换行符 - 有光泽

我试图在打印时进行换行这是我的代码 temp lt LETTERS 1 11 print sprintf Rank s s n 1 11 temp output 1 Rank 1 A n Rank 2 B n Rank 3 C n Ran
如何从namedtuple实例列表创建pandas DataFrame（带有索引或多索引）？

简单的例子 from collections import namedtuple import pandas Price namedtuple Price ticker date price a Price GE 2010 01 01 30
如何获取pandas中groupby对象中的组数？

我想知道有多少个独特的组需要执行计算给定一个名为 groupby 的对象dfgroup 我们如何找到组的数量简单快速 Pandaic ngroups 较新版本的 groupby API pandas gt 0 23 提供了此未记录的

随机推荐

参考接口创建对象

引用变量可以声明为类类型或接口类型如果变量声明为接口类型则它可以引用实现该接口的任何类的任何对象根据上面的说法我做了一个理解上的代码正如上面所说声明为接口类型它可以引用实现该接口的任何类的任何对象但在我的代码中显示display
fputc() 之后 c fgetc() 中的文件处理问题

我有一个带有文件名的文本文件in txt 其中包含以下内容 1111 1100 0000 我正在尝试使用以下程序更改此文件的内容 include
批量设置命令的输出和错误以分隔变量

在Windows 7批处理 cmd exe命令行中我试图将命令的标准输出 stdout 和标准错误 stderr 重定向到单独的变量因此第一个变量设置为输出第二个变量设置为输出变量设置为错误如果有而不使用任何临时文件我已经尝
PyQt：如何设置组合框项目可检查？

为了将 GUI 小部件数量保持在最低限度我需要找到一种方法来为用户提供下拉菜单项的选择这些菜单项可用于过滤掉 listWidget 项中显示的内容假设 listWidget 列出了 5 个不同类别的项目 Cat A Cat B Cat
递归链接 Promise

我正在开发一个简单的 Windows 8 应用程序我需要在其中从网站获取一组数据我正在使用 WinJS xhr 来检索此数据它返回一个 Promise 然后我将回调传递到此 Promise 的 then 方法中该方法为我的回调提供
Openxlsx 多次验证损坏输出文件

我正在尝试添加多个验证并将公式添加到 Excel 文件这是我使用的代码 library openxlsx fileTemplate lt New01 xlsx wbTemplate lt loadWorkbook fileTemplate
如何更改数字反序列化的默认类型？

我正在将一些属性反序列化为Dictionary
c++/cli 中的 gcroot

gcroot 是什么意思我在我正在阅读的代码中找到了它 gcroot 是一个 C cli 模板类可以轻松地在 C cli 类中保存托管类型例如您可以拥有以下内容 include
如何使用Python在没有窗口的情况下在屏幕上显示文本

问题我需要在没有窗口的情况下直接将文本写入屏幕文本需要显示在所有其他窗口和全屏应用程序之上并且不应以任何方式单击或交互 Example The text doesn t need to have a transparent backg
将 UIImageView 置于 UIScrollView 内而不使用 contentInset？

我一直无法找到我遇到的这个问题的答案我在 UIScrollView 中有一个 UIImageView 我希望将其内容垂直居中目前我能够做到这一点的唯一方法是根据 UIImageView 大小的高度设置滚动视图的 contentInse
如何使用 queryIntentActivityOptions() 方法

我正在尝试创建一个对话框显示用户手机中的所有应用程序可用于从存储中选择照片或使用相机拍摄照片以下是我计划使用的两个意图 Intent photoPickerIntent new Intent Intent ACTION PICK ph
我想在 ionic 4 中创建一个自定义加载程序，但在消息字段中它显示 html 代码，但不渲染我的 gif 图像

async presentLoading const loading await this loader create duration 2000 showBackdrop false cssClass sa spinner false m
在应用程序中全局关闭自动更正

我想在 iPad 应用程序中禁用文本输入自动更正无论设备上自动更正的全局设置是什么有没有一种好的方法可以通过 API 执行此操作或者我只需要浏览整个应用程序找到所有文本输入字段然后单独关闭每个字段的选项抱歉您必须检查所有文本字
iPhone SDK：拖动 UIImageView 时出现问题

我正在尝试在我的应用程序中拖动 iPhone 屏幕上的 UIImageView 目前我设置的拖动功能很好拖动图像确实会在屏幕上移动它问题是你不必拖动图像视图来移动它你也可以拖动屏幕上的任何地方它会移动图像我是这个平台的新手所以我
TypeScript 0.9.5：如何定义具有静态成员的接口和实现它的类？

这用于在 TypeScript 0 9 1 1 中编译省略方法实现 module MyNodule export interface ILocalStorage SupportsLocalStorage boolean SaveData
由于没有系统应用程序而终止

这个错误让我发疯我有一个按钮我想移动到视图控制器如果我将其设置为初始视图控制器我可以打开该视图控制器但现在我通过单击按钮来调用它视图控制器包含一个自定义视图我在绘制矩形上放置了一个断点当绘制矩形完成时模拟器终止我在屏幕上
使用 CreateRestrictedToken(LUA_TOKEN) 从提升的进程创建低/中进程

我正在尝试从提升的进程创建中或低完整性进程我知道还有其他类似的问题但它们主要关注使用资源管理器或任务计划程序等解决方法我想坚持使用CreateRestrictedToken CreateProcessAsUser 我认为一定可以以某种
伊迪德信息

重新定义问题有什么方法可以获取所连接显示器的序列号吗我想收集显示器的Eid信息当我使用 logverbose 选项运行 X 时我可以从 xorg 0 log 文件中获取它但问题是如果我切换显示器拔出当前显示器然后插入另一个显
IdentityServer4 客户端 - 刷新 CookieAuthenticationEvents 上的访问令牌

我试图在访问令牌过期时使用刷新令牌类似的问题已回答here https stackoverflow com a 41557598 3501052 And 更新令牌的示例代码 https stackoverflow com question
选择一个单元格内的最小值或最大值（分隔字符串）

我有一个数据框其中每个样本的列可以有多个值例如 Gene Pvalue1 Pvalue2 Pvalue3 Beta Ace 0 0381 0 00357 0 01755 0 001385 0 0037 NA 0 039 0 03 1 1

选择一个单元格内的最小值或最大值（分隔字符串）

选择一个单元格内的最小值或最大值（分隔字符串） 的相关文章

随机推荐

热门标签

选择一个单元格内的最小值或最大值（分隔字符串）的相关文章