子集化 data.frame 时的 NA 会发生一些意想不到的事情

2024-03-20

考虑以下代码。当你没有明确测试NA在您的情况下，该代码将在稍后您的数据发生更改时失败。

>   # A toy example
>   a <- as.data.frame(cbind(col1=c(1,2,3,4),col2=c(2,NA,2,3),col3=c(1,2,3,4),col4=c(4,3,2,1)))
>   a
  col1 col2 col3 col4
1    1    2    1    4
2    2   NA    2    3
3    3    2    3    2
4    4    3    4    1
>   
>   # Bummer, there's an NA in my condition
>   a$col2==2
[1]  TRUE    NA  TRUE FALSE
> 
>   # Why is this a good thing to do?
>   # It NA'd the whole row, and kept it
>   a[a$col2==2,]
   col1 col2 col3 col4
1     1    2    1    4
NA   NA   NA   NA   NA
3     3    2    3    2
>   
>   # Yes, this is the right way to do it
>   a[!is.na(a$col2) & a$col2==2,]
  col1 col2 col3 col4
1    1    2    1    4
3    3    2    3    2
>     
>   # Subset seems designed to avoid this problem
>   subset(a, col2 == 2)
  col1 col2 col3 col4
1    1    2    1    4
3    3    2    3    2

有人可以解释一下为什么你会在没有is.na检查会有什么好处或有用吗？

我绝对同意这不直观（我之前就说过这一点 https://stackoverflow.com/questions/1535021/whats-the-biggest-r-gotcha-youve-run-across）。为了捍卫 R，我认为知道何时有缺失值是有用的（即这不是一个错误）。这==运算符明确设计用于通知用户 NA 或 NaN 值。请参阅 ?"==" 了解更多信息。它指出：

缺失值 ('NA') 和 'NaN' 值被视为甚至与他们自己都无法比较，所以涉及他们的比较总是会导致“NA”。

换句话说，缺失值无法使用二元运算符进行比较（因为它是未知的）。

除了 is.na() 之外，你还可以这样做：

which(a$col2==2) # tests explicitly for TRUE

a$col2 %in% 2 # only checks for 2

%in% 被定义为使用match()功能：

'"%in%" <- function(x, table) match(x, table, nomatch = 0) > 0'

这也包含在《R地狱》 http://www.burns-stat.com/pages/Tutor/R_inferno.pdf.

检查数据中的 NA 值是crucial在 R 中，因为许多重要的运算符并没有按照您期望的方式处理它。除了 == 之外，对于 &、|、

更新：当有多个逻辑条件时，NA如何处理？

NA是一个逻辑常量，如果您不考虑可能返回的内容（例如，NA | TRUE == TRUE）。这些真值表来自?Logic可以提供一个有用的说明：

outer(x, x, "&") ## AND table
#       <NA> FALSE  TRUE
#<NA>     NA FALSE    NA
#FALSE FALSE FALSE FALSE
#TRUE     NA FALSE  TRUE

outer(x, x, "|") ## OR  table
#      <NA> FALSE TRUE
#<NA>    NA    NA TRUE
#FALSE   NA FALSE TRUE
#TRUE  TRUE  TRUE TRUE

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

子集化 data.frame 时的 NA 会发生一些意想不到的事情的相关文章

了解用于处理色边距的scale_fill_continuous_divergingx参数输入

这个问题是我上一个问题的延续here https stackoverflow com questions 58718527 setting midpoint for continuous diverging color scale on a
如何融合颜色和形状？

当我有一个超过 6 个值的变量时我的麻烦就开始了因为这是 ggplot2 中 scale shape 函数的当前最大值由于这个问题我尝试使用另一个变量来解决这个问题我只是将原始变量的长度包裹起来这是我的示例代码 dataf lt
带有nearPoints()的动态ggplot图层闪亮

我熟悉闪亮的基础知识但在这里遇到了一些困难我希望能够在单击某个点以突出显示该点时添加 ggplot 图层我知道 ggvis 可以做到这一点并且画廊中有一个很好的例子但我希望能够使用nearPoints 捕获点击作为 ui 输入我
Plotly 绘图不会在 RMarkdown 文档的 for 循环内渲染

我正在尝试动态构建一个需要运行循环的报告并为每次迭代打印一些消息表格和绘图我可以让一切正常运转except为了情节示例 rmd r echo FALSE results asis fig keep all message FALSE
R：使用带有 .Call 和 C/C++ 包装器的 Fortran 子例程而不是 .Fortran 的优点？

我有一个 R 包它使用大量 Fortran 子例程来进行递归线性代数计算的嵌套循环很大程度上依赖于 BLAS 和 LAPACK 例程作为 Fortran 的接口我使用 Fortran功能我刚刚读过乔纳森卡拉汉的博客文章 http
R 中的 as.numeric 有什么问题？ [复制]

这个问题在这里已经有答案了 gt X864291X8X74 1 8 0000000000 9 0000000000 10 0000000000 6 0000000000 8 0000000000 10 Levels 0 0000000000
R Data.Table 创建带有条件的变量

我需要在下面的数据集中创建一个新变量 A X a 1 b 2 c 3 d 4 e 5 f 6 g 7 h 8 i 9 j 10 The newvar如果X等于 2 5 7 或 9 否则 newvar应该是 0 Code dt1 lt dat
在嵌套 tibbles 上应用 ntile

我正在尝试申请ntile在一些嵌套的小标题上但我似乎无法让它工作你能看出我错在哪里吗 data iris iris gt group by Species gt mutate quintile ntile Petal Length 5
如果条件长度 > 1 并且仅使用第一个元素，为什么我会在 R 中收到此警告

我有下面的源代码这if is na monthData 用于检查是否monthData is NA 如果是则为其分配一个初始值 monthData lt NA if category QUARTER for m in c rep 1 4
循环中的knitr模板和子文档

圣诞节前我之前问过跨多个 knitr 文档的单一样式表 https stackoverflow com questions 20370584 single style sheet across multiple knitr document
优化 R 中的嵌套 for 循环

我尝试加速下面的代码但没有成功我读到Rfast https cran r project org web packages Rfast Rfast pdf包但我也未能实现该包有没有办法优化R中的以下代码 RI lt function
在 Shiny 应用程序中过滤数据时，长度为 1 的字符向量除了第一个元素之外的所有元素都将被忽略错误

我有以下闪亮的应用程序 library shiny library rhandsontable library shinydashboard library ggplot2 library dplyr setwd C Users Marc
编写健壮的 R 代码：命名空间、屏蔽和使用 `::` 运算符

简洁版本对于那些不想阅读我的案例的人来说这就是本质最小化新包破坏现有代码即编写您编写的代码的机会的推荐方法是什么尽可能坚固充分利用该功能的推荐方法是什么命名空间机制 when a just using贡献的软件包比如在一
无法在 Document-Term-Matrix 中看到 `RTextTools::toLower()` 文本的结果

我尝试创建一个矩阵为此我想降低文本为此我使用此 R 指令 matrix create matrix tweets 1 toLower TRUE language english removeStopwords FALSE remove
ggplot2 - 添加具有不同中断和标签的辅助 y 轴

是否可以使用 ggplot2 手动向辅助 y 轴添加中断和标签 see bottom right 我希望在右侧 y 轴上有更紧凑的中断代表条形该图将作为基本情况然后我将展示如何更改辅助 y 轴上的分隔符和标签 sapply c pip
如何将带有观察计数的标签添加到 stat_summary ggplot？

我有一个数据集例如 outcome lt c rnorm 500 45 10 rnorm 250 40 12 rnorm 150 38 7 rnorm 1000 35 10 rnorm 100 30 7 group lt c rep A
访问 R 工作区中的数据[重复]

这个问题在这里已经有答案了我是自学 R 的可能有一些非常基本的东西我可能不熟悉如果是这样我道歉我正在尝试访问外部来源提供给我的数据它作为一个工作空间出现我的流程如下 gt ls 1 2003OHT HR gt attach 20
聚合日期时间以总结在特定条件下花费的时间

我很困惑我应该如何继续我下面有一些虚拟数据 Date lt as POSIXct c 2018 03 20 11 52 25 2018 03 22 12 01 44 2018 03 20 12 05 25 2018 03 20 12 10
R：如何找到向量的模式[重复]

这个问题在这里已经有答案了下面是我的data frame我想知道每个内存类别 1 到 8 的模式是什么 gt dput d structure list MEMORY1 c 5 5 7 1 5 6 4 5 4 5 5 4 1 5 5 2
如何有效地将多个光栅 (.tif) 文件导入 R

我是 R 新手尤其是在空间数据方面我正在尝试找到一种方法来有效地将多个 600 单波段栅格 tif 文件导入到 R 中所有文件都存储在同一文件夹中不确定这是否重要但请注意在我的 Mac 和 Windows 并行 VM 上的文件夹

随机推荐

ABAP中调用方法的不同方式

抱歉这个基本的 ABAP 问题 ABAP中调用方法有哪些不同的方式他们的官方名字是什么我听说过执行方法调用和内部内联方法调用执行使用PERFORM关键字和方法调用CALL METHOD语法我猜但什么是内部或内联方法调
如何使用 std::cin 读取 bool

我是 C 新手我想知道函数 cin 在布尔数据的情况下如何工作比方说 bool a cin gt gt a 我知道如果我给出 0 或 1 我的数据 a 将是 true 或 false 但是如果我给出另一个整数甚至一个字符串会发生什么我
允许所有用户进行临时分发查询

我正在使用 AD Hoc 分布式查询将数据从 MS SQL Server 2008 传输到 MS Access 该过程使用单个 SQL 语句启动 INSERT INTO OpenDataSource Microsoft Jet OLEDB
Arrays.stream(array_name).sum() 比迭代方法慢吗？

我正在编写一个 leetcode 问题 https oj leetcode com problems gas station https oj leetcode com problems gas station 使用Java 8 我的解决方
是否可以将Spring Data JPA中的@Lock和@Modifying @Query与Hibernate结合起来？

我有一个 Lock注解与 Modifying Query一起使用时出现问题和查询本身执行更新语句我的测试设置如下所示 Spring Boot 启动器 1 5 3 RELEASE 休眠 5 2 10 Final Spring Data JP
Git 将存储库镜像到特定分支

我们公司尝试将一个github项目fork到我们自己的git服务器上然后我们可以在上面添加我们自己的功能我们只想签出一个特定的分支并将所有分支和标签保留到该分支然后复制镜像到我们的 git 服务器在您的服务器上创建存储库在其
Pandas：迭代 DataFrame 列表并将每个数据框导出到 Excel 工作表

尝试自学编码以自动化工作中一些繁琐的任务对于任何无意的无知我深表歉意我在 pandas python 3 x 中创建了数据框我想将每个数据框打印到不同的 Excel 工作表中这是我的 2 个数据帧它工作完美但我想缩放它以循环遍
使用新的 YouTube API v3 解析 YouTube 订阅者计数

我想使用新的 API v3 从我的 YouTube 频道获取订阅者数量我在这里为 youtube 创建了一个 Google API 应用程序谷歌 API 控制台 https code google com apis console 我有
为什么“df.lookup”比“df.min”慢？

我想通过使用来减少一些时间lookup after idxmin 而不是调用min and idxmin 在我看来第一个应该更有效因为在第二个中需要搜索两次值一次搜索最小值另一次搜索最小值的索引即 2 倍 O NxM 而在首先搜
VSCode：添加新的活动栏条目和自定义“页面”

我想在开发扩展时添加新的活动栏条目并创建自定义页面这可能吗我的想法是在 VSCode 中创建一个像 Sequel Pro 一样的数据库管理器 v 1 23 添加了扩展作者向活动栏添加图标的功能自定义活动栏视图 https code
如何获取多字节字符串的字节大小

如何在 Visual C 中获取多字节字符串的字节大小有没有函数或者我必须自己计算字符或者更一般地说如何获得 TCHAR 字符串的正确字节大小解决方案 tcslen T TCHAR string sizeof TCHAR EDIT
这个吐司是从哪里来的？

由于某种原因我正在开发的应用程序正在显示一个 toast 显示我的设备上剩余的内部存储空间即使我没有对此进行编码这是一个屏幕截图 https i stack imgur com z2ERU png https i stack imgu
Python 2.7 的蓝牙？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案对 Python 2 7 进行蓝牙编程的最佳方法是什么我尝试使用pybluez https code
使用预定脚本部署 Shiny App

我有一个简单的脚本可以在 Rstudio 中用于部署应用程序 rsconnect setAccountInfo name xx token xx secret xx xx library rsconnect deployApp xxx l
链接后台 NSURLSession 上传

有人成功链接 NSURLSession 后台上传吗我正在尝试使用 NSURLSession 的后台上传来上传 5 MB 的巨大视频文件上传必须按顺序进行整个事情在前台工作得很好我为此使用 AFNetwoking 它是多部分上传但是
尝试从一个页面推送到另一页面时出现“找不到组件工厂”错误

尝试从一个页面推送到另一页面时出现错误当我尝试推送到同一页面时它不会给出该错误只有我在从一个页面推送到另一页面时遇到错误 setRoot 也没有给出错误 this navCtrl push Page7 我已将 Page7 添加到 ap
Pandas fillna() 基于特定列属性

假设我有这张桌子 Type Killed Survived Dog 5 2 Dog 3 4 Cat 1 7 Dog nan 3 cow nan 2 其中的价值之一Killed缺少 Type Dog 我想将平均值归咎于 Killed for
最好的 SQL Server 性能优化技术是什么？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我始终采取的方法是首先使用最少的索引集部署数据库然后根据性能要求添加更改索引这种方法效果相当好但是它仍然没有告诉我可以在哪里
Rails 4.0 的自定义错误处理

我正在使用 Ruby 2 0 和 Rails 4 0 构建 Ruby on Rails api 我的应用程序几乎只是一个 JSON API 因此如果发生错误 500 404 我想捕获该错误并返回格式良好的 JSON 错误消息我试过了thi
子集化 data.frame 时的 NA 会发生一些意想不到的事情

考虑以下代码当你没有明确测试NA在您的情况下该代码将在稍后您的数据发生更改时失败 gt A toy example gt a lt as data frame cbind col1 c 1 2 3 4 col2 c 2 NA 2 3 c

子集化 data.frame 时的 NA 会发生一些意想不到的事情

更新：当有多个逻辑条件时，NA如何处理？

子集化 data.frame 时的 NA 会发生一些意想不到的事情 的相关文章

随机推荐

热门标签

子集化 data.frame 时的 NA 会发生一些意想不到的事情的相关文章