dplyr：独特和独特之间的区别

2023-12-21

使用不同与唯一时，结果行数似乎不同。我正在使用的数据集非常庞大。希望代码可以理解。

dt2a <- select(dt, mutation.genome.position, 
  mutation.cds, primary.site, sample.name, mutation.id) %>%
  group_by(mutation.genome.position, mutation.cds, primary.site) %>% 
  mutate(occ = nrow(.)) %>%
  select(-sample.name) %>% distinct()
dim(dt2a)
[1] 2316382       5

## Using unique instead
dt2b <- select(dt, mutation.genome.position, mutation.cds, 
   primary.site, sample.name, mutation.id) %>%
  group_by(mutation.genome.position, mutation.cds, primary.site) %>%
  mutate(occ = nrow(.)) %>%
  select(-sample.name) %>% unique()
dim(dt2b)
[1] 2837982       5

这是我正在使用的文件：

sftp://sftp-cancer.sanger.ac.uk/files/grch38/cosmic/v72/CosmicMutantExport.tsv.gz

     dt = fread(fl)

这似乎是由于group_by考虑这个案例

dt<-data.frame(g=rep(c("a","b"), each=3),
    v=c(2,2,5,2,7,7))

dt %>% group_by(g) %>% unique()
# Source: local data frame [4 x 2]
# Groups: g
# 
#   g v
# 1 a 2
# 2 a 5
# 3 b 2
# 4 b 7

dt %>% group_by(g) %>% distinct()
# Source: local data frame [2 x 2]
# Groups: g
# 
#   g v
# 1 a 2
# 2 b 2

dt %>% group_by(g) %>% distinct(v)
# Source: local data frame [4 x 2]
# Groups: g
# 
#   g v
# 1 a 2
# 2 a 5
# 3 b 2
# 4 b 7

当你使用distinct()没有指明要区分哪些变量，它似乎使用了分组变量。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

dplyr

dplyr：独特和独特之间的区别的相关文章

距数据帧中最近的非 NA 值的距离

我有以下数据帧 df 我想添加一列其中包含与每行最接近的非 NA 值的距离 df lt data frame x 1 20 df c 1 3 4 5 11 14 15 16 x lt NA 换句话说我正在寻找以下值 df distanc
在 R 中使用深度网络和 MNIST 数据读取手写数字第 3 部分

我尝试编写一个基于深度网络的程序来读取手写数字我在 Youtube 上找到了一个代码 https www youtube com watch v 5bso 5X7Zu4 https www youtube com watch v 5bso
ggsubplot 是否适用于 R 3.2.1+？

CRAN 提供的 ggsubplot 版本与 R 的最新版本例如 3 1 1 不兼容运行 ggsubplot 示例会返回以下错误 Error in layout base data vars drop drop At least one
使用 roxygen2 导入两个同名函数

我是 CRAN 包的维护者在加载时收到以下消息 checking whether package qdap can be installed 10s 10s WARNING Found the following significant
正则表达式提取美国邮政编码，但不提取假代码

使用 XML 包和 XPath 从网站上抓取地址有时我只能得到一个嵌入了我想要的邮政编码的字符串提取邮政编码很简单但有时会显示其他五位数字的字符串以下是 df 中问题的一些变体 zips lt data frame id seq 1
如何检查jquery数据表中的每个复选框？

我有一个第一列带有复选框的表格我使用 jQuery DataTable 插件显示我的表格我制作了 2 个链接来选择取消选择每个复选框这是选择全部的一个 a href Select all a 和 JavaScript functio
行方向变异的有效方法

我有两个数据框 dfUsers and purchases使用以下代码生成 set seed 1 library data table dfUsers lt data table user letters 1 5 startDate sam
Shiny：从DT数据表中选定的行获取信息

我们正在尝试重新创建示例 https demo shinyapps io 029 row selection https demo shinyapps io 029 row selection 使用DT包来渲染数据帧而不是shiny包 DT
R，igraph，是否可以用图案填充顶点

使用 R 和 igraph 绘制图形我使用颜色来标记顶点类型请参阅下面的代码是否可以用图案而不是颜色填充顶点以便在以彩色和黑白查看时可以区分节点类型我需要 4 种独特的颜色图案 colorbrewer 中唯一适合的调色板是这个
使用 R SOAP (SSOAP) 检索数据/抓取

在 B cycle 页面 www bcycle com whowantsitmore aspx 上我试图抓取投票的位置和值 The URL http mapservices bcycle com bcycleservice asmx ht
如何将数据从长格式重塑为宽格式

我在重新排列以下数据框时遇到问题 set seed 45 dat1 lt data frame name rep c firstName secondName each 4 numbers rep 1 4 2 value rnorm 8 d
在ggplot2中，箱线图线的末尾代表什么？

我找不到箱线图线条端点代表什么的描述 For example here are point values above and below where the lines end 我意识到盒子的顶部和底部是第 25 个和第 75 个百分位数
R 无法回忆起内存中的对象

我正在构建一个包含多个步骤的函数其中每个步骤都会创建一个对象某个步骤失败 temp3 并且无法找到前面的步骤对象错误未找到对象 temp2 我不知道为什么我有类似的函数遵循完全相同的结构每个步骤都遵循先前创建的对象在函数内
连接树状图和热图

我有一个heatmap 一组样本的基因表达 set seed 10 mat lt matrix rnorm 24 10 mean 1 sd 2 nrow 24 ncol 10 dimnames list paste g 1 24 sep p
R 3.5 - read.csv 无法读取 UTF-16 csv 文件

我的代码如下 read csv http asic gov au Reports YTD 2018 RR20180420 001 SSDailyYTD csv skip 1 fileEncoding UTF 16 sep t header
R中具有特定条件的多列变异

我有这个数据 M1 M2 M3 UCL 1 2 3 1 5 我想在这种情况下创建新列如果M1大于UCL MM1将为 UP 否则为 NULL 如果M2大于UCL MM2将为 UP 否则为 NULL 如果M3大于UCL MM3将为 UP 否则
使用矢量相应地更改传单线条的颜色

无论如何是否可以根据某些变量的值更改传单线条的颜色我用谷歌搜索发现了这个link http hgoebl github io Leaflet MultiOptionsPolyline demo 然而我想知道是否有一种简单的方法可以在
如何使用 Facet R 添加线条[重复]

这个问题在这里已经有答案了所以我有一个多面图我希望能够向其中添加随每个面而变化的线这是代码 p lt ggplot mtcars aes x wt geom histogram bins 20 aes fill factor cyl
Matlab 中是否有相当于 R 的 dput() 的函数？

Matlab 中是否有相当于 R 的 dput 的函数 dput 将 R 对象的 ASCII 文本表示形式写入文件或连接 UPDATE 1 添加了递归和对单元格的支持 UPDATE 2 添加了对结构的支持 UPDATE 3 增加了对逻辑整
如何在闪亮的observeEvent中监听多个事件表达式

我想要两个不同的事件触发观察者有人建议here https stackoverflow com questions 34731975 how to listen for more than one event expression wit

随机推荐

查找鼠标相对于面板的位置

我试图获取鼠标在面板中的位置如面板左上角 x y 0 0 我目前所拥有的给出了整个屏幕上的位置因此根据面板位于框架中在屏幕上的位置坐标是不同的我想你可以添加 x y 坐标来解决这个问题但这似乎是一个混乱的解决方案有人可以帮忙
错误的身份验证数据 QuickBlox - Android

我正在研究QuickBlox SDK http quickblox com developers SimpleSample users android Sign In 26 Social authorization 使用这个 SDK 我尝试
可以使用 boost::threads 中的 std::this_thread* 函数吗？

可以混合搭配来自的东西吗 boost thread and std thread 或者应该为每个函数使用一组函数我问是因为我的代码使用boost threads 但我发现boost this thread sleep for设置系统时间时
如何检查远程 git 存储库 URL 的有效性？

在 bash 脚本中验证 git URL 是否指向有效的 git 存储库以及脚本是否有权读取它的最简单方法是什么应该支持的协议有git https and git 卷曲失败git 协议 email protected cdn cgi l
如何导致 ldap_simple_bind_s 超时？

最近我们的测试 LDAP 服务器遇到了问题它挂起并且无法响应请求结果我们的应用程序在尝试绑定时永远挂起这仅发生在 Unix 机器上在 Windows 上 ldap simple bind s大约 30 秒后呼叫超时我不知道是不
将 UTF-8 文本转换为 wchar_t

我知道这个问题已经被问过很多次了我确实阅读了一些答案但是有一些建议的解决方案我试图找出其中最好的解决方案我正在编写一个 C99 应用程序它基本上接收以 UTF 8 编码的 XML 文本它的部分工作是复制和操作该字符串查找子字符
从因子变量中删除特定因子水平

我有一个数据框其中包含多个具有 5 个因子水平的变量我只想删除其中一个级别首先我将该级别的所有实例分配给 NA 然后使用droplevels命令摆脱空的水平然而对于我的数据框中的一个变量我不想删除的级别之一没有任何观察结果有
Boost：序列化/反序列化通过 ZeroMQ 拉套接字传递的自定义 C++ 对象

描述我有一个名为的 C 类通用消息它仅保存一个 id 和数据作为其成员请参阅下面的代码片段 1 GenericMessage hxx 我的目的是序列化此类的实例并通过实现推送模式的 ZeroMQ 套接字发送它序列化和发送任务已实现类
Python：如何对自定义 HTTP 请求处理程序进行单元测试？

我有一个自定义 HTTP 请求处理程序可以简化为如下所示 Python 3 from http import server class MyHandler server BaseHTTPRequestHandler def do GET
如何删除/清除 Kafka Streams 中的状态存储？

我有一个习惯Transformer在我的 kafka streams DSL 的末尾实现并带有持久的变更日志KeyValueStore绑定到它几周以来我在商店里放了太多的数据现在每当我加载应用程序时它就会消耗太多的内存然而应
Laravel 路线显示 404

我的 web php 中有这个 Laravel 它正在工作但现在该路由显示 404 页面现在这不起作用我想要这条路线破碎的路线 Route get b business jobs create JobController crea
未找到未过期的配置文件

I cannot test my app on my device the error that I m seeing is the one shown in the image Even if I choose my account fo
gstreamer flvmux 和 rtmp 错误

我尝试从 rasberrypi 流式传输 rtmp 顺便说一句 omx 硬件编码器工作得非常好所以我正在运行 gst launch 1 0 v4l2src video x raw width 640 height 480 framerat
如何使用 ffmpeg 将音频流重定向到虚拟脉冲音频麦克风？

如何使用 ffmpeg 创建虚拟脉冲音频麦克风我有一个mkv文件并使用 v4l2 我可以将视频流重定向到虚拟网络摄像头设备在这里 dev video0 ffmpeg i myfile mkv f v4l2 dev video0 现在同
Android NFC：我们可以使用带有 mime 类型的 Intent 过滤器吗？（安卓2.3.3）

我试图在点击包含特定 mime 类型的 nfc 标签时启动一项活动我制作了一个 mime 类型为 text plain 的标签并将其添加到清单中
我可以阻止 Visual Studio 2012+ 发布 packages.config 和 EF 图表文件吗？

当我在 Visual Studio 2012 2013 2015 中发布 ASP NET Web 应用程序时 Visual Studio 还将发布包配置来自 NuGet 和任何 edmx 图表默认情况下文件来自实体框架我知道我可以进
无法通过 SoundCloud API 调用检索某些公共曲目 (403)

通过 SoundCloud API 访问时我的播放列表中的某些曲目不会返回例如我的播放列表中有两首曲目 http api soundcloud com tracks 169170570 client id CLIENT ID http
static - 仅用于限制范围？

Is the staticC 中的关键字仅用于将变量的范围限制为单个文件我需要知道我是否理解正确请假设有以下3个文件 file1 c int a file2 c int b file3 c static int c 现在如果这 3 个
Realm React-Native ListView 中链接对象的属性返回未定义（错误：未定义不是对象）

我试图通过父对象访问链接对象的属性但我只得到未定义的结果这是 ListView 的 renderRow 方法 prop 中的代码我正在使用 Realm ListView 安卓上 iOS 还没测试过获取链接对象本身似乎工作正常这是一
dplyr：独特和独特之间的区别

使用不同与唯一时结果行数似乎不同我正在使用的数据集非常庞大希望代码可以理解 dt2a lt select dt mutation genome position mutation cds primary site sample nam

dplyr：独特和独特之间的区别

dplyr：独特和独特之间的区别 的相关文章

随机推荐

热门标签

dplyr：独特和独特之间的区别的相关文章