如何使用R检查数据一致性(确保大小写和值不矛盾)?

2024-03-20

假设我有:

Person   Movie    Rating
Sally    Titanic  4
Bill     Titanic  4
Rob      Titanic  4
Sue      Cars     8
Alex     Cars     **9**
Bob      Cars     8

正如你所看到的,亚历克斯有一个矛盾。所有相同的电影应该有相同的排名,但 Alex 的数据条目有误。我该如何使用R来解决这个问题?我想了一会儿,但想不通。我必须在 Excel 中手动完成吗? R上是否有一个命令可以返回两列之间存在数据矛盾的所有情况?

也许我可以让 R 进行布尔检查,看所有电影案例是否与其第一次迭代的第一个评级相匹配?对于所有返回“否”的情况,我可以手动查看吗?我该如何编写这个函数?

Thanks


这是一个data.table解决方案

定义函数

Myfunc <- function(x) {
  temp <- table(x)  
  names(temp)[which.max(temp)]
}

library(data.table)

创建具有正确评级的列(通过引用)

setDT(df)[, CorrectRating := Myfunc(Rating), Movie][]
#    Person   Movie Rating CorrectRating
# 1:  Sally Titanic      4             4
# 2:   Bill Titanic      4             4
# 3:    Rob Titanic      4             4
# 4:    Sue    Cars      8             8
# 5:   Alex    Cars      9             8
# 6:    Bob    Cars      8             8

或者如果您想删除“差”评级

df[Rating == CorrectRating][]
#    Person   Movie Rating CorrectRating
# 1:  Sally Titanic      4             4
# 2:   Bill Titanic      4             4
# 3:    Rob Titanic      4             4
# 4:    Sue    Cars      8             8
# 5:    Bob    Cars      8             8
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用R检查数据一致性(确保大小写和值不矛盾)? 的相关文章

  • 按列分组的数据帧上 R 中的行之间的差异

    我希望通过 app name 获得不同版本的计数差异 我的数据集如下所示 app name version id count difference 这是数据集 data structure list app name structure c
  • 带有nearPoints()的动态ggplot图层闪亮

    我熟悉闪亮的基础知识 但在这里遇到了一些困难 我希望能够在单击某个点以突出显示该点时添加 ggplot 图层 我知道 ggvis 可以做到这一点 并且画廊中有一个很好的例子 但我希望能够使用nearPoints 捕获点击作为 ui 输入 我
  • 在嵌套 tibbles 上应用 ntile

    我正在尝试申请ntile在一些嵌套的小标题上 但我似乎无法让它工作 你能看出我错在哪里吗 data iris iris gt group by Species gt mutate quintile ntile Petal Length 5
  • 根据不平凡的标准有效合并两个数据帧

    正在接听这个问题 https stackoverflow com questions 18821862 data selection error 18823432 18823432昨晚 我花了一个小时试图找到一个没有增长的解决方案data
  • 在 R 中按组检查重叠开始和结束时间

    我想检查数据的重叠 这是数据 ID lt c rep 1 3 rep 3 5 rep 4 4 rep 5 5 Begin lt c 0 2 5 3 7 8 7 25 25 10 15 17 20 1 NA 10 11 13 End lt c
  • 在单个显示器中绘制多个 jpeg 图像

    我需要在单个组合显示器 或画布 中绘制和显示多个 jpeg 图像 例如 假设我有图像 a b c d jpg 每个图像的大小不同 我想将它们绘制在 2x2 网格的一页上 能够为每个子图设置标题也很好 我一直在彻底寻找解决方案 但不知道如何去
  • 删除 R 中具有重复属性的行

    我有一个大数据框 其中包含以下列 ID time OS IP 该数据帧的每一行对应一个条目 在该数据框中对于某些IDs存在多个条目 行 我想删除这些多行 显然 同一 ID 的其他属性会有所不同 或者换句话说 我只想要每个 ID 一个条目 行
  • 按具有作业的组划分的 R 分位数

    我有以下 df group rep seq 1 3 30 variable runif 90 5 0 7 5 df data frame group variable 我需要 i 按组定义分位数 ii 将每个人分配到相对于其组的分位数 因此
  • 栅格堆叠后如何写入?

    我想操作几个光栅文件 然后再次写入它们 rasterfiles lt list files C data envi full names TRUE d1 lt overlay stack rasterfiles fun function x
  • 对于多项式,获取其所有极值并通过突出显示所有单调部分来绘制它

    有人问我这个有趣的问题 我认为值得将其发布在这里 因为 Stack Overflow 上还没有任何相关线程 假设我有长度为的多项式系数n vector pc 其中次数多项式n 1对于变量x可以以其原始形式表示 pc 1 pc 2 x pc
  • 如何将 R 数据框中的多个字符列合并为单个列

    我正在处理人口普查数据 需要将四个字符列合并为一列 Example LOGRECNO STATE COUNTY TRACT BLOCK 60 01 001 021100 1053 61 01 001 021100 1054 62 01 00
  • 连接多个用户的 R 闪亮会话

    最小可重现示例 library shiny ui lt fluidPage actionButton button1 Run 1 actionButton button2 Run 2 server lt function session i
  • 使用滑动窗口动画 ggplot 时间序列图

    我正在寻找在不失去分辨率的情况下对长时间序列图进行动画处理的方法 我希望视图能够 平移 数据 显示从开始到结束的滑动子集 假设我有以下内容 library ggplot2 library dplyr library gganimate df
  • jupyter 中的 r 图形 - 无法启动 png() 设备

    我在 Jupyter 中使用 R 但无法在笔记本本身中绘制图表 这是一个可重现的示例 set seed 123 mat as matrix x rnorm 100 y rnorm 100 plot mat 在朱皮特中 Error in pn
  • 在 Shiny 中叠加两个 ggplot

    我有一个非常大的数据集 我正在使用 ggplot 在 Shiny 上绘制它 我有一个与 x 轴上的值相关联的滑块 我想用它对选定的数据子集重新着色 并让其余数据保持原样 最简单的选择是重新创建整个绘图 但由于它是一个大型数据集 因此这是一个
  • 将日期时间字符串转换为 Date 类

    我有一个带有日期时间字符列的数据框 当我使用as Date 除了少数实例之外 我的大多数字符串都被正确解析 下面的示例有望向您展示发生了什么 my attempt to parse the string to Date uses the s
  • 在函数中使用 quit/q 会导致 RStudio 出现致命错误

    更多的是好奇 但当你使用时q or quit在 R studio 内的函数内部 它会导致致命错误 如下所示 但 rgui 中的相同函数会导致 R 像往常一样停止 并且仅使用q 在 RStudio 中按预期关闭 R 为什么q在函数中导致 RS
  • R闪亮主面板显示样式和字体

    我正在学习闪亮的应用程序 并且有一些关于调整布局的基本问题 特别是样式和字体 希望得到指点或明确的答案 谢谢 考虑一个基本的输入输出应用程序 用户在 sidebarPanel 中输入数据 然后在 mainPanel 中反应性地输出结果 如何
  • 如何使用 R 中的函数 sqlSave() 将数据附加到具有 IDENTITY 主键的 SQL Server 表?

    我在SQL Server中创建了一个表 如下所示 CREATE TABLE testPK ID INT NOT NULL IDENTITY 1 1 PRIMARY KEY NumVal NUMERIC 18 4 现在我想使用 RODBC 函
  • 如何有效地将多个光栅 (.tif) 文件导入 R

    我是 R 新手 尤其是在空间数据方面 我正在尝试找到一种方法来有效地将多个 600 单波段栅格 tif 文件导入到 R 中 所有文件都存储在同一文件夹中 不确定这是否重要 但请注意 在我的 Mac 和 Windows 并行 VM 上的文件夹

随机推荐

  • Angular 2 错误和 Typescript - 如何调试?

    我刚刚开始了一个学习 Angular2 和 Typescript Javascript 的项目 我有 Java 背景 我调试项目的方法通常是堆栈跟踪 编译错误以及 在较大的项目上 大量测试用例的组合 然而 其中大部分似乎并没有直接转化为网络
  • 如何在 C 程序中最好地实现字符串到数字的映射

    我有一组明确的字符串及其对应的数字 kill gt 1 live gt 2 half kill gt 3 dont live gt 4 列表包含 30 个这样的字符串及其数字映射 如果用户输入 kill 我需要返回1 如果他输入 dont
  • Azure 缓存无法跨 VIP 交换保留会话状态?

    作为这篇文章的后续 在 Azure 云服务中启用共置会话缓存 https stackoverflow com questions 20964697 enabling co located session caching in an azur
  • 使用参数而不是硬编码字符串时,Postgres 查询非常慢

    我遇到了这个 Postgres 问题 如果我使用参数而不是在查询字符串上硬编码其值 则相同的查询需要很长时间才能执行 列名称是 media type 它是 VARCHAR 20 我使用 Symfony2 和 Doctrine2 ORM 从
  • Sqlite3 ON DELETE CASCADE 不起作用

    我的数据库中有多个表 我将仅使用其中 2 个作为示例 篮表 CREATE TABLE Basket id basket integer primary key autoincrement title text 电脑桌 CREATE TABL
  • 根据值计数计算的数据透视表字段

    我有一个数据透视表 在值中我有一些字段的计数 Region Count of Actuals Count of Budgets Percentage of Actuals Asia 40 80 我想在数据透视表 实际值百分比 中添加一个计算
  • Kendo UI 网格 - 客户端模板:转义 # 符号

    我正在使用 Kendo UI 的网格以及 Twitter Bootstrap Twitter Bootstrap 有一个内置的弹出窗口 模式 可以通过以下方式调用 a href class text yellow Login a 在我的 K
  • 如何在 React 中从 eslint 解析器中排除 css 文件

    我需要从 eslint 解析器中排除 css 文件 目前当我跑步时eslint src 这是检查所有文件 包括 css 文件 请在下面找到我的 eslintrc 文件内容 module exports parser babel eslint
  • GlobalKey 和 GlobalKeyObject 有什么区别?

    我想知道两者之间的区别 更重要的是现实世界的使用差异GlobalKey and GlobalObjectKey 什么时候使用哪个 什么时候避免 唯一的区别在于他们的方式 操作员行为 全局密钥 https api flutter dev fl
  • 用于查找已安装设备的驱动器号的批处理脚本

    我正在尝试编写一个批处理脚本来定位特定的已安装设备 我在 Windows 7 中 我知道该设备将具有文件夹驱动器 custom 因此我想查看所有可能性来查找具有此路径的设备 这是我到目前为止所拥有的 echo off setLocal En
  • 在 VBA 上声明和定义 FileSystemObject 对象的正确方法是什么?

    我正在阅读有关如何声明 FileSystemObject 对象的信息 发现了令人困惑的信息 是因为声明方式不同吗 我向您展示了我发现的一些声明和定义 FileSystemObject 对象的方法 Dim FSO As FileSystemO
  • 如何在 Git 中重新设置父级

    哪些非交互式 Git 命令实现了更改Before to After在每种情况下 1a 重新养育我 Before A B C D After C D A B 1b 重新养育二 Before C D A B After C A B D 1c 重
  • 当 matplotlib 图中的值“换行”时防止绘图连接

    我正在密谋赤经 https en wikipedia org wiki Right ascension 星历表 http rhodesmill org pyephem index html对于行星 它们具有周期性的属性 它们达到最大值 24
  • Python 中的消息框

    python中有没有一个UI库可以创建消息框或输入框 最好的选择是 tkMessageBox 模块 它应该适用于所有系统 因为 Python 通常会随 Tkinter 一起提供 如果您可以将自己限制在特定操作系统上 那么可能会有更好的选择
  • 我可以在android应用程序中以编程方式找出屏幕宽度吗? [复制]

    这个问题在这里已经有答案了 我可以在android应用程序中以编程方式找出屏幕的宽度吗 我需要绘制画布 但它的宽度应该几乎像屏幕一样 并且我无法在java零件程序中设置match parent 你可以得到默认的Display实例 然后从中读
  • Jenkins网站根路径

    我正在尝试按照此处的说明进行操作 https wiki jenkins ci org display JENKINS Running Jenkins behind Apache https wiki jenkins ci org displ
  • 如何在Android中读写字符设备(如/dev/ttyS0)

    我对Java和Android知之甚少 我想做的是在 Android 应用程序中打开 dev ttyS0 它应该与串行线通信 但我迷路了 我的设备已root 并且从命令行我可以 echo gt dev ttyS0 并从中读取内容 但我在尝试用
  • 使用主题标签解析 JSON

    在 Javascript 中 我无法解析这个JSON里面有一个 我想获取图像 URL 我的尝试是 tracks track 0 image 0 track 把我搞砸了 tracks track name Stressed Out durat
  • Mysql 使用动态数据库名称创建表

    我正在运行时创建数据库 并且我想同时在该数据库中创建表 谁能给我任何想法如何做到这一点 例如 我创建了一个名为 mydb 的数据库 现在 在同一过程中 我尝试创建我使用 mysql 存储过程的表 我的过程输入将是我的数据库名称 所以 我的过
  • 如何使用R检查数据一致性(确保大小写和值不矛盾)?

    假设我有 Person Movie Rating Sally Titanic 4 Bill Titanic 4 Rob Titanic 4 Sue Cars 8 Alex Cars 9 Bob Cars 8 正如你所看到的 亚历克斯有一个矛