为什么从 3.5.2 升级到 4.0.0 后，R 的排序会改变使用 load() 导入的数据？

2023-11-27

简洁版本。我load()数据包中的数据。以前，包中的测试通过了，现在失败了，因为输出sort改变了。这是一个最小的可重现示例 - 详细信息请参见下文：

y <- c("Schaffhausen", "Schwyz", "Seespital", "SRZ")
sort(y)
# OLD 3.5.2 [1] "Schaffhausen" "Schwyz"       "Seespital"    "SRZ"        
# NEW 4.0.0 [1] "SRZ"          "Schaffhausen" "Schwyz"       "Seespital" 
# Update 4.0.2 see comment:
# [1] "Schaffhausen" "Schwyz"       "Seespital"    "SRZ"     

# From jay.sf's comment
sort.int(y, method="radix")
# [1] "SRZ"          "Schaffhausen" "Schwyz"       "Seespital"  
sort.int(y, method="shell")
# [1] "Schaffhausen" "Schwyz"       "Seespital"    "SRZ"  

# From Henrik's comment:
data.table::fsort(y)
# [1] "SRZ"          "Schaffhausen" "Schwyz"       "Seespital"

我发现的唯一相关的报告变化是

R 4.0.0 中的变化
新功能
...
通过 read.table() 加载数据集时，data() 现在使用 LC_COLLATE=C 来确保可能的字符串到因子转换的结果与区域设置无关。

但我什至不确定这是否可以解释我所看到的。由于我想最大程度地减少导入包的数量，并且我想了解发生了什么，所以我不确定如何继续。我错过了什么吗？（更改为sort.int用方法radix会完成这项工作，但仍然：为什么会改变？这样真的更好吗？

我刚刚意识到（感谢罗兰）sort以我为例sort.int:

function (x, decreasing = FALSE, na.last = NA, ...) 
{
  if (is.object(x)) 
    x[order(x, na.last = na.last, decreasing = decreasing)]
  else sort.int(x, na.last = na.last, decreasing = decreasing, 
    ...)
}

From ?sort.int:

“auto”方法为短（小于2^31个元素）数值向量、整数向量、逻辑向量和因子选择“radix”；否则，“外壳”。）

根据文档，sort.int从 4.0.0 到 4.0.2 没有改变。

From ?data.table::setorder

data.table 始终以“C-locale”重新排序。结果，排序可能与通过 base::order 获得的排序不同。用英语语言环境，例如，在 C 语言环境中排序区分大小写。因此，排序 c("c", "a", "B") 在 data.table 中返回 c("B", "a", "c") 但 c("a", "B", "c") 按基本::顺序。请注意，这在大多数情况下没有区别数据案例；两者都在 ids 上返回相同的结果，其中仅存在大写或小写字母（“AB123”

使用 C-locale 使 data.table 中的排序行为更加有效跨会话和区域设置保持一致。 base::order 的行为取决于有关 R 会话区域设置的假设。用英语 locales, "america"

（相关问题使用 R 进行语言相关排序 and 最佳实践：我应该尝试将语言环境更改为 UTF-8 还是保持原样安全？)

Details

R.version # old              _                           
platform       x86_64-w64-mingw32          
arch           x86_64                      
os             mingw32                     
system         x86_64, mingw32             
status                                     
major          3                           
minor          5.2                         
year           2018                        
month          12                          
day            20                          
svn rev        75870                       
language       R                           
version.string R version 3.5.2 (2018-12-20)
nickname       Eggshell Igloo 

y <- c("Schaffhausen", "Schwyz", "Seespital", "SRZ")
sort(y)
# [1] "Schaffhausen" "Schwyz"       "Seespital"    "SRZ"         

stringr::str_sort(y)
# [1] "Schaffhausen" "Schwyz"       "Seespital"    "SRZ"         

stringr::str_sort(y, locale = "C")
# [1] "SRZ"          "Schaffhausen" "Schwyz"       "Seespital"   

# =======
R.version # new after upgrade
platform       x86_64-w64-mingw32          
arch           x86_64                      
os             mingw32                     
system         x86_64, mingw32             
status                                     
major          4                           
minor          0.0                         
year           2020                        
month          04                          
day            24                          
svn rev        78286                       
language       R                           
version.string R version 4.0.0 (2020-04-24)
nickname       Arbor Day

y <- c("Schaffhausen", "Schwyz", "Seespital", "SRZ")
sort(y)
# [1] "SRZ"          "Schaffhausen" "Schwyz"       "Seespital"   

stringr::str_sort(y)
# [1] "Schaffhausen" "Schwyz"       "Seespital"    "SRZ"         

stringr::str_sort(y, locale = "C")
#[1] "SRZ"          "Schaffhausen" "Schwyz"       "Seespital"  

# ==== Test with new 4.0.2
R.version
platform       x86_64-w64-mingw32          
arch           x86_64                      
os             mingw32                     
system         x86_64, mingw32             
status                                     
major          4                           
minor          0.2                         
year           2020                        
month          06                          
day            22                          
svn rev        78730                       
language       R                           
version.string R version 4.0.2 (2020-06-22)
nickname       Taking Off Again 

y <- c("Schaffhausen", "Schwyz", "Seespital", "SRZ")
sort(y)
# [1] "Schaffhausen" "Schwyz"       "Seespital"    "SRZ"         

stringr::str_sort(y)
# [1] "Schaffhausen" "Schwyz"       "Seespital"    "SRZ"         

stringr::str_sort(y, locale = "C")
# [1] "SRZ"          "Schaffhausen" "Schwyz"       "Seespital"

总之，这是一个错误，已在 R 版本 4.0.1 中删除。正如@Roland 所想的那样。
From CRAN:

在 R 4.0.0 中，sort.list(x) when is.object(x)是真的，例如，对于x <-I(letters)，不小心usingmethod = "radix"。最后，例如。，merge(<data.frame>)比以前慢得多；报道于 PR#17794。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

Sorting

为什么从 3.5.2 升级到 4.0.0 后，R 的排序会改变使用 load() 导入的数据？的相关文章

在 dfm 中查找非英语标记并将其删除

在 dfm 中如何检测非英语单词并将其删除 dftest lt data frame id 1 3 text c Holla this is a spanish word English online here Bonjour commen
如何按组计算日期之间的时间差

我有一个包含日期时间和位置的数据框我想计算组内记录与上一条记录根据日期排列之间的分钟差异并变异为新列我已经弄清楚如何使用循环来完成此操作但这仅适用于所有组位置而且我不确定如何按组执行此操作 fake data set fo
如何在R中用采样字符替换通配符

我有以下顺序 s0 lt KDRH THLA RT HLAK 那里的通配符字符由我想要做的是用该向量中的采样字符替换该字符 AADict lt c A R N D C E Q G H I L K M F P S T W Y V Since
从 R 中的 glm 中提取系数

我进行了逻辑回归结果如下 ssi logit single age coefficients coefficients Intercept age 3 425062382 0 009916508 我需要选取系数age 目前我使用以下代码
将鼠标悬停在 ggplot 上时更新 CSS 和渲染工具提示以错误的顺序发生

我在这里构建了一个虚拟应用程序它为 ggplot 生成悬停消息并确保它们保持在屏幕边界内我编写了一些计算来确定所需的 CSS 更正并将其发送到服务器它基于将悬停消息保留在此处的第一次尝试 SO问题 https stackoverfl
strsplit 与 gregexpr 不一致

一条评论 https stackoverflow com questions 23961022 split strings on first and last commas 23964843 noredirect 1 comment3692
使用 dplyr::filter 创建 R 函数问题

我查看了其他答案但找不到使下面的代码起作用的解决方案基本上我正在创建一个函数inner join两个数据框和filter基于函数中输入的列问题是filter部分功能不起作用但是如果我将过滤器从函数中取出并附加它它就会起作用my
按组划分的模态值（最常见）的简明 R data.table 语法

用于查找每个 id 最常见类别的高效且优雅的 data table 语法是什么我保留一个指示 NA 位置的布尔向量用于其他目的 dt data table id rep 1 2 7 category c x y NA print dt
当 R 中出现“warnings()”时中断循环

我有一个问题我正在运行一个循环来处理多个文件我的矩阵非常巨大因此如果我不小心我经常会耗尽内存如果创建任何警告是否有办法打破循环它只是继续运行循环并报告它在很久以后失败烦人聪明的 stackoverflow ers 有什么想
使用 Groovy 对 XML 文件进行排序

有没有办法可以使用 Groovy 根据某些属性对 xml 文件进行排序这是我的 xml
R 绘制一些 unicode 字符，但不绘制其他字符

我们的系统管理员刚刚将我们的操作系统升级到 SLES12SP1 我重新安装了 Rv3 2 3 并尝试绘图我用cairo pdf并尝试绘制 x 标签为的图 u0298即太阳能符号但它不起作用标签只是空白例如 cairo pdf Rpl
R 中的离散化

有谁知道有一个包可以实现连续变量离散化的监督学习算法 dprep 包包含类似的功能但该包已被弃用有任何想法吗感谢您的帮助您仍然可以使用dprep包但你必须从源代码安装它我刚刚测试过它运行良好不过您或许可以看看离散化 htt
R ggplot结合颜色图例和不同因子长度的填充

我正在使用不完整因子设计的数据绘制图表由于设计的原因我的颜色手动比例和填充手动比例的长度不同因此我得到了两个传说我怎样才能删除其中之一或者更好地将它们组合起来我看过这些问题合并单独的大小并填充 ggplot 中的图例 http
从谷歌街道地址中提取城市和州信息

我有一个数据集其中包含不同点位置的纬度经度信息我想知道与每个点关联的城市和州按照此example https stackoverflow com questions 22911642 applying revgeocode to a
按组渐进串联列[重复]

这个问题在这里已经有答案了假设我有这个输入 ID date 1 date 2 str 1 1 2010 07 04 2008 01 20 A 2 2 2015 07 01 2011 08 31 C 3 3 2015 03 06 2013
对于 X 中的每个元素，找到最大的索引，而不会超出 Y 中的范围

我正在寻找一种方法来提高以下算法的性能给定两个数组 X 和 Y 对于 X 的每个元素找到 Y 中不超过 X 中元素值的最大值的索引可以安全地假设 X 和 Y 是单调递增已排序并且 Y 1 小于每个X 中的值而且 X 通常比 Y
通过环境.yml 文件使用 conda 安装 R 包

通常我会创建 conda 环境例如 conda env create f environment yml conda activate env name 通常我使用 Python 工作典型的environment yml简单的文件可能看
合并结果的行数多于一个数据框

我有两个数据框第一个包含 9994 行第二个包含 60431 行我想合并两个数据框以便合并后的数据框包含两个数据框的组合列但只包含 9994 行但是合并后我得到了超过 9994 行我怎样才能确保这种情况不会发生 df1 re
在 ggplot2 中隐藏单个几何图例

我将相同的变量颜色映射到两个不同几何图形中的颜色我希望它们要么出现在单独的图例中 DHJ 和 EFI 要么最好完全跳过第二个图例对于 E F 和 I 目前 R 将两者混合在一起并给我一个图例其中按字母顺序列出了 DEFHIJ 所
根据值绘制具有条件颜色的折线图

我想绘制折线图根据值它应该改变它的颜色我发现的是 plot sin seq from 1 to 10 by 0 1 type p col ifelse sin seq from 1 to 10 by 0 1 gt 0 5 red ye

随机推荐

PayPal NVP API 错误：抱歉，我们目前无法完成您的购买

我正在使用 PayPal NVP API 当我使用沙箱帐户和沙箱 API ENDPOINT 时效果很好当我使用生产帐户和生产API ENDPOINT时它成功重定向到PayPal 但用户输入paypal用户名和密码并提交后显示抱歉
了解键盘布局何时更改

我正在编写一个屏幕键盘并且希望在键盘布局更改后立即重新绘制布局目前我打电话 GetKeyboardLayout GetWindowThreadProcessId GetForegroundWindow NULL 在每次按键时查看布局是否
WPF 中的配置管理器

我在 wpf 项目中有一个配置文件来存储连接字符串但是当我尝试获取 AppSettings 和 ConnectionStrings 时我得到 null WEB config 文件是这样的
numpy genfromtxt/pandas read_csv；忽略引号内的逗号

考虑一个文件 a dat 内容 address 1 address 2 address 3 num1 num2 num3 address 1 address 2 address 3 1 0 2 0 3 address 1 address 2
如何在类中并行化 python 中的 for ？

我有一个 python 函数funz每次都会返回长度为 p 的不同数组我需要多次运行该函数然后计算每个值的平均值我可以使用 for 循环来完成此操作但需要很多次我正在尝试使用库多处理但遇到错误 import sklearn as
Vue 3 反应性未从类实例内部触发

代码笔 https codepen io codingkiwi pen XWMBRpW 假设你有一堂课 class MyClass constructor this entries a example change triggered fr
对 NSDate 的 NSArray 进行排序

我有一个 NSDate 对象的 NSArray 我想对它们进行排序以便今天为 0 昨天为 1 等是升序还是降序我是否使用函数选择器或其他什么 NSArray 有不同的排序方法因为您可能需要不同的排序方式 NSSortDescrip
读取套接字：EAGAIN：资源暂时不可用

我用 C 创建了一个套接字我需要它有一定的连接超时这就是正在发生的事情创建套接字使其成为非阻塞呼叫连接它按预期返回 1 和 errno EINPROGRESS 呼叫选择返回 gt 0 表示已建立连接使套接字再次阻塞这部分的
如何使用 ImageMagick 获取整个图像文本中的 RGB 像素值？

我是 ImageMagick 的新手我想知道图像整个像素的 RGB 颜色我已经知道如何获取一个像素的 RGB 颜色但我不知道如何用一个命令获取所有像素的数据对每个像素执行每个命令非常繁重无法使用它最好的命令结果是这样的 x y
我的公报上的实体无法识别

我想创建一个自定义 NER 模型这就是我所做的训练数据斯坦福 ner tsv Hello O O My O name O is O Damiano PERSON O 特性 stanford ner prop trainFile sta
iPhone 子视图设计（UIView 与 UIViewController）

我正在设计一个简单的测验应用程序应用程序需要显示不同类型的测验问题每种类型的 QuizQuestion 都有不同的行为和 UI 用户界面将是这样的替代文本 http dl getdropbox com u 907284 Picture
Java 8 lambda 和匿名内部类之间的性能差异

在 Java 8 之前可以通过使用匿名内部类来实现 lambda 功能例如 interface Lambda void doStuff public void doWithCallback Lambda callback callbac
使用 Firebase 的服务器端计算

给定开始时间日期和持续时间我如何进行服务器端计算来确定对象是否为 finished in progress or upcoming Show duration 144 startDate 2015 11 10 startTime 14
如何在 Lisp 中创建并写入文本文件

我想知道如何在 Lisp 中创建和写入文本文件我只想写简单的一行例如 break 1 break 2 我在 Window 7 上使用 LispWorks IDE with open file str filename txt direc
Laravel 5 REST 客户端 CRUD

Laravel 5 有没有办法使用 REST 进行 CRUD 我已经有一个使用 CodeIgniter 的 REST API 并且我希望我的 Laravel 应用程序能够与其通信假设我有这个网址来获取所有性别 http api local
C 编程#define？ [复制]

这个问题在这里已经有答案了可能的重复谁能解释这些未定义的行为 i i i i i 等等 include
类型不匹配。预期为 i32，发现 () [重复]

这个问题在这里已经有答案了这段代码 fn ackermann m i32 n i32 gt i32 if m 0 return n 1 else if m gt 0 n 0 return ackermann m 1 1 else if m
并非所有代码路径都返回“System.Func”类型的 lambda 表达式中的值 [重复]

这个问题在这里已经有答案了我正在创建一个调用函数 CountPixels 的任务如下所示 Task
使用亚马逊登录显示用户尚未同意，但他们已经同意 - Alexa SMAPI

我正在尝试使用技能管理 API SMAPI 检索我的 Alexa 开发者帐户上的技能列表我有以下 HTML javascript a href href img border 0 alt Login with Amazon src htt
为什么从 3.5.2 升级到 4.0.0 后，R 的排序会改变使用 load() 导入的数据？

简洁版本我load 数据包中的数据以前包中的测试通过了现在失败了因为输出sort改变了这是一个最小的可重现示例详细信息请参见下文 y lt c Schaffhausen Schwyz Seespital SRZ sort y

为什么从 3.5.2 升级到 4.0.0 后，R 的排序会改变使用 load() 导入的数据？

为什么从 3.5.2 升级到 4.0.0 后，R 的排序会改变使用 load() 导入的数据？ 的相关文章

随机推荐

热门标签

为什么从 3.5.2 升级到 4.0.0 后，R 的排序会改变使用 load() 导入的数据？的相关文章