按数据框的子段对数据框进行排序

2024-04-18

我和我的团队正在处理数千个具有相似段的 URL。有些 URL 在我们感兴趣的位置有一个段（“seg”，复数，“segs”）。其他类似的 URL 在我们感兴趣的位置上有不同的段。我们需要对由 URL 和关联的唯一段组成的数据框进行排序在感兴趣的位置，显示这些独特段的频率。

这是一个简化的示例：

 url <- c(1, 3, 1, 4, 2, 3, 1, 3, 3, 3, 3, 2)
 seg <- c("a", "c", "a", "d", "b", "c", "a", "x", "x", "y", "c", "b")
 df <- data.frame(url,seg)

我们正在寻找以下内容：

url freq seg 
 1   3    a   in other words, url #1 appears three times each with a seg = "a",
 2   2    b   in other words: url #2 appears twice each with a seg = "b",
 3   3    c   in other words: url #3 appears three times with a seg = "c", 
 3   2    x                                  two times with a seg = "x", and, 
 3   1    y                                  once with a seg = "y"
 4   1    d   etc.

我可以使用循环和几个小步骤到达那里，但我相信有一种更优雅的方法可以做到这一点。这是我的不优雅的方法：

创建具有 num.unique 行和三列（url、freq、seg）的空数据框

 result <- data.frame(url=0, Freq=0, seg=0)

确定唯一的 URL

 unique.df.url <- unique(df$url)

循环遍历数据框

 for (xx in unique.df.url) {
   url.seg <- df[which(df$url == unique.df.url[xx]), ] # create a dataframe for each of the unique urls and associated segs
   freq.df.url <- data.frame(table(url.seg))  # summarize the frequency distribution of the segs by url
   result <- rbind(result,freq.df.url)  # append a new data.frame onto the last one
 }

消除数据框中频率 = 0 的行

 result.freq <- result[which(result$Freq |0), ]

按 URL 对数据框排序

 result.order <- result.freq[order(result.freq$url), ]

这产生了预期的结果，但由于它是如此不优雅，我担心一旦我们扩大规模，所需的时间将是令人望而却步的，或者至少是一个令人担忧的问题。有什么建议么？

在基础 R 中你可以这样做：

aggregate(freq~seg+url,`$<-`(df,freq,1),sum)
# or aggregate(freq~seg+url, data.frame(df,freq=1),sum)

#   seg url freq
# 1   a   1    3
# 2   b   2    2
# 3   c   3    3
# 4   x   3    2
# 5   y   3    1
# 6   d   4    1

技巧与$<-只是添加一列freq值 1 随处可见，无需更改源表。

另一种可能性：

subset(as.data.frame(table(df[2:1])),Freq!=0)
#    seg url Freq
# 1    a   1    3
# 8    b   2    2
# 15   c   3    3
# 17   x   3    2
# 18   y   3    1
# 22   d   4    1

这里我用的是[2:1]切换列的顺序table以所需的方式对结果进行排序。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

subset

按数据框的子段对数据框进行排序的相关文章

使用 readHTMLTable 从 https 网页读取表格

我安装了 R 3 3 1 并使用 RStudio 0 99 903 我正在尝试从以下 URL 将表格读入 R https www fantasypros com nfl rankings consensus cheatsheets php
聚合日期时间以总结在特定条件下花费的时间

我很困惑我应该如何继续我下面有一些虚拟数据 Date lt as POSIXct c 2018 03 20 11 52 25 2018 03 22 12 01 44 2018 03 20 12 05 25 2018 03 20 12 10
将日期时间字符串转换为 Date 类

我有一个带有日期时间字符列的数据框当我使用as Date 除了少数实例之外我的大多数字符串都被正确解析下面的示例有望向您展示发生了什么 my attempt to parse the string to Date uses the s
matplotlib 中的 R 风格数据轴缓冲区

R 绘图自动设置 x 和 y 限制以在数据和轴之间留出一些空间我想知道 matplotlib 是否有办法自动执行相同的操作如果没有是否有一个好的公式或经验法则来说明 R 如何设置其轴限制在 matplotlib 中您可以通过
stat_function 从函数生成平线

我有以下代码 library ggplot2 f lt function x if x gt 2 1 x 0 3 else 0 graph lt ggplot data frame x c 0 10 aes x graph lt graph
R闪亮主面板显示样式和字体

我正在学习闪亮的应用程序并且有一些关于调整布局的基本问题特别是样式和字体希望得到指点或明确的答案谢谢考虑一个基本的输入输出应用程序用户在 sidebarPanel 中输入数据然后在 mainPanel 中反应性地输出结果如何
R 错误：无法更改锁定绑定的值

我试图估计无限数字流的平均值和标准差当我运行代码时出现错误消息无法更改锁定绑定的值我做了一些研究发现这个错误与我使用全局变量有关但我无法弄清楚任何帮助将非常感激在此先感谢您的帮助 define global variable
dplyr 中的标准评估：全局环境中的函数出现“无法找到函数”错误

我试图在 dplyr 中对全局环境中的函数使用标准评估但出现无法找到函数错误这是一些代码 create data frame df lt data frame x rnorm 10 y rnorm 10 define arbitra
通过 Shiny 中的串扰将 Plotly 与 DT 结合使用

我正在编写一个应用程序来将 csv 文件读取为闪亮的并将散点图与 DT 表链接起来我几乎遵循了 Plotly 网站上 DT 数据表上的示例 https plot ly r datatable https plot ly r datatab
按组计算连续行中的值之间的差异

这是我的一个df 数据框 group value 1 10 1 20 1 25 2 5 2 10 2 15 我需要按组计算连续行中的值之间的差异所以我需要一个结果 group value diff 1 10 NA because the
rvest 和 NHL 统计数据的 CSS 选择器问题

我想从 hockey reference com 中抓取数据特别是从以下链接中抓取数据 https www hockey reference com leagues NHL 1991 html https www hockey refer
如何确定 R 包的作者？

如何确定包的作者是谁鉴于我们拥有这个广泛使用的代码库我认为参考我在分析中使用的软件是合适的有没有办法以编程方式检索作者和任何其他相关信息在伪代码中我想执行以下操作 references base 我怎样才能做到这一点为了能够引用
R中整数类和数字类有什么区别

我想先说我是一个绝对的编程初学者所以请原谅这个问题是多么基本我试图更好地理解 R 中的原子类也许这适用于一般编程中的类我理解字符逻辑和复杂数据类之间的区别但我正在努力寻找数字类和整数类之间的根本区别假设我有一个简单的向量x
如何在 R 中将字符串解析为层次结构或树

有没有办法将表示组的字符串解析为 R 中的层次结构假设我的小组结构如下 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 3 1 1 3 1 1 1 3 2 1 1 3 3 1 2 1 2 1 1 2 1 1 1 2 1 2 1
排序因素与水平

有人能解释一下 R 中 ordered 参数的用途吗 R says ordered逻辑标志来确定级别是否应被视为有序按给定的顺序所以如果我有一个名为名称的因素并设置ordered TRUE names lt factor c fred
合并数据框而不重复行

我想合并两个数据框但如果有多个匹配项则不想重复行相反我想总结一下那天的观察结果来自合并提取两个数据框中与指定列匹配的行并将其连接在一起如果有多个匹配项则所有可能的匹配项各贡献一行这是一些示例代码 days lt as d
当有很多列时，使用 readr::read_csv() 导入数据时覆盖列类型

我正在尝试使用 R 中的 readr read csv 读取 csv 文件我导入的 csv 文件大约有 150 列我只包含示例的前几列我希望将第二列从默认类型我执行 read csv 时为日期覆盖为字符或其他日期格式 GIS Jo
R - 与 SpatialPolygonsDataFrame 对象相交的 SpatialLinesDataFrame 列表的嵌套循环

我有一系列需要完成的步骤SpatialLinesDataFrame 此处的线基于对象与多特征中各个特征的关系SpatialPolygonsDataFrame 多边形对象简而言之每个线列表元素源自单个面要素内部并且可能会也可能不会
RStudio 如何确定控制台宽度，为什么它似乎总是出错？

我刚刚发现wid lt options width在 RStudio 中它似乎是我日常控制台使用中令人烦恼的根源或者更确切地说更接近根源我应该先说一下我目前使用的是 R 3 2 2 RStudio 0 99 491 Linux M
无法部署 ShinyApp：readTableHeader 在“raw”上发现不完整的最后一行（使用默认值：en_US）

我已经拼命尝试部署我的闪亮应用程序大约一周了但不幸的是我无法停止收到以下消息 Warning message Error detecting locale Error in read table file file header head

随机推荐

自动引用计数下，为什么不允许retain、release、dealloc？

当尝试使用时 retain release and dealloc在 Xcode 4 2 中使用自动引用计数构建应用程序时我收到如下错误自动引用计数禁止显式消息发送 dealloc 为什么我会看到这个错误是 retain relea
只能使用releaseImplementation和debugImplementation从maven添加Kotlin Multiplatform Mobile库

每次我将 Kotlin Multiplatform Mobile 库发布到 Maven Central 时我似乎唯一可以在 Android 应用程序中添加使用 Android 依赖项的方法是添加releaseImplementation
如何在 Ember.js 中指定动态根 URL？

Ember 允许在路由器上指定根 URL http emberjs com guides routing toc specifying a root url http emberjs com guides routing toc speci
Symfony 4. InheritanceType("JOINED") 和 ParamConverter。奇怪的现象

我已经定义了 CoreCase 类 ORM Entity repositoryClass App Repository CoreCaseRepository ORM InheritanceType JOINED ORM Discrimina
块和保留周期

一个小问题为什么 Xcode 会抱怨listing 1会导致保留周期而在listing 2它不是在这两种情况下 clients is an int实例变量在listing 2它被分配了0 in the init method 背景信
Powershell命令：rm -rf

rm是删除item 但是参数是多少 rf做或表示每当我输入 help rf 时它都会打印 powershell 中可用命令的完整列表如果您输入会发生什么rm rf在 powershell 中通过阅读周围的资料我发现它会删除驱动器上
GitHub Atom - 删除编辑器中的中心线

我刚刚下载了 GitHub Atom Editor 正在对其进行自定义但我无法删除编辑器中间的那行有人帮我看看如何删除那条线吗该行由wrap guide 包提供您可以使用以下选项来删除该行 Option 1 禁用换行指南包裹去At
使用 XML 和 XSLT 生成 SQL

我有一个 XML 定义其中包含一个带有子元素的元素例如 a b b a
可以用宏获取评论吗？

我试图解析一些代码并重新格式化它们但似乎引用只会忽略注释有什么办法可以实现这一点吗我想我必须深入 erlang 方面不您无法在宏内获取代码注释它们永远不会成为 AST 的一部分并且仍然被丢弃在 Elixir 的标记器中
使用 CRON 作业执行 PHP 脚本 [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我想每天午夜运行一个 PHP 脚本
JPEG 标头丢失/损坏

我有一个 130kb jpeg 图像无法在任何程序中打开我需要修复它从我使用的各种图像恢复软件中我得到的只是图像头损坏丢失当我查找文件的属性时我什至没有得到任何信息没有尺寸等只有文件大小一旦图像的标头丢失是否可以恢复
如何在 Ruby 中进行模糊子字符串匹配？

我发现了很多关于模糊匹配的链接将一个字符串与另一个字符串进行比较看看哪个字符串的相似度得分最高我有一个很长的字符串一个文档和一个子字符串子字符串来自原始文档但已被转换多次因此可能会引入奇怪的工件例如这里有一个空格那里有一
Neo4j 的数据库级验证

我使用 Neo4j 作为我的图形数据库假设我想限制用户名字段的长度小于10 有没有办法在数据库级别施加这样的约束现在您必须在应用程序级别上执行此操作或者通过注册一个事务提交挂钩来检查该属性字段是否符合特定标准 See http do
免费的 XSD 到 DTD 转换实用程序？

我有一个 XSD XML 架构需要将其转换为 DTD 有免费的实用程序或简单的方法来完成此任务吗例如 XSLT Python 脚本也很受欢迎 Note 这是问题的相反方向免费 DTD 到 XSD 转换实用程序 https stackov
Akka Actor 询问和类型安全

我如何使用 Akka Actor Ask 并维护类型安全或者避免使用询问而使用告诉打电话时 or ask在 Akka Actor 上 Future Any 返回我必须通过进行显式转换future mapTo MyType 我不喜
Android - 拥有多个共享首选项是不好的做法吗？

我有一个应用程序使用SharedPreferences 一个仅存储应用程序版本以检查更改日志的更新另一个包含一些布局信息clear 当用户选择时被调用我终于设法得到了PreferenceFragment工作并注意到一种趋势所以我想在我
Spring Boot：是否可以使用 fat jar 在任意目录中使用外部 application.properties 文件？

是否可以有多个 application properties 文件 EDIT 请注意这个问题演变成了标题上的问题我尝试有2个文件第一个位于应用程序 Jar 中的根文件夹中第二个位于类路径中指定的目录中 2 个文件都命名为 appli
创建 SSIS 包 - 将数据从 Oracle 复制到 SQL Server

我想编写一个 SSIS 包用于将数据从 Oracle 复制到 MS Sql 服务器而且条件是通过在 SQL 中选择一个表就可以知道哪些数据必须从 oracle 移动到 SQL 基本上如果 SQL Server 中的该表中没有该值
OpenCV 无法从网络摄像头捕获帧

我在 VS2010 中使用 OpenCV 2 4 6 我认为我的网络摄像头无法捕获该帧当我执行代码时它构建成功但我没有得到输出我想当我检查时if bSuccess 它已执行并且无法从网络摄像头捕获帧我该如何解决这个问题我的代码
按数据框的子段对数据框进行排序

我和我的团队正在处理数千个具有相似段的 URL 有些 URL 在我们感兴趣的位置有一个段 seg 复数 segs 其他类似的 URL 在我们感兴趣的位置上有不同的段我们需要对由 URL 和关联的唯一段组成的数据框进行排序在感兴趣的位置

按数据框的子段对数据框进行排序

按数据框的子段对数据框进行排序 的相关文章

随机推荐

热门标签

按数据框的子段对数据框进行排序的相关文章