如何标记因子但仍保留其原始水平值 - R

2023-12-06

我将这个问题分为两部分，第一部分是一般问题，第二部分是具体问题。

首先 - 我想知道是否有一种可能的方法来标记数字因子但仍保留其原始数字级别。这特别令人困惑，因为我意识到当我们将标签参数传递给一个因子时，它就会变成该因子的级别，例如：

x<- factor(c(1,2,3, 2, 3, 1, 2), levels = c(1, 2, 3), labels = c("a", "b", "c"))
levels(x)
#[1] "a" "b" "c"
labels(x)
#[1] "1" "2" "3" "4" "5" "6" "7"

我想知道是否有一种方法，就像Stata中那样，来标记一个因素的类别。我希望能够在 x 的元素显示为“a、”b 或“c”时对 x 求和，但保留值 1、2 或 3。

其次-我问这个是因为我有一个非常大的数据集，其中包含带有数字类别的列。该数据集附带一个 xlsx 字典，我将其读取并处理为 R，因此每一列都有其数字类别及其各自的标签。我正在尝试读取字典，在列列表中创建类别和标签列表，然后读取数据集，循环遍历列并标记变量。这些标签很重要，因此我不必每次解释数据集上的内容时都查看字典。数字级别很重要，因为由于我有很多虚拟变量（是或没有变量），我希望能够对它们求和。

这是我的代码（我使用 data.table 包）：

dic<- readRDS(dictionary_filename)

            # Reading data set #

              data <- fread(dataset_filename, header = T, sep = "|", encoding = "UTF-8", na.strings = c("NA", ""))

            # Treating the data.set #

                # Identifying which lines of the dictionary have categorized variables. This is very specific to my dictionary strcture #

                  index<- which(!is.na(dic$num.categoria))

                # storing the names of columns that have categorized variables #

                  names_var<- dic$`Var name`[index]
                  names_var<- names_var[!is.na(names_var)]

                # Creating a data frame with categorized variables which will be later split into lists #

                  df<- as.data.frame(dic[index,])          
                # Transforming the index column to factor so it is possible to split the data frame into a list with sublists for each categorized column #      
                  df$N<- as.factor(df$N)     
                # Splitting the data frame to list      
                  lst<- split(df, df$N)      
                # Creating a labels list and a levels list #     
                  lbs<- list()                      
                  lvs<- list()
                        for (i in 1:length(lst)){        
                      lbs[[i]]<- as.vector(lst[[i]]$category)
                      lvs[[i]]<- as.vector(lst[[i]]$category.number)              
                  }      
                # Changing the data set columns into factors with ther respective levels and labels  #      
                  k<- 1      
                  for (var in names_var){        
                      set(data, j =var, value = factor(data[[var]], levels = lvs[[k]], labels = lbs[[k]]))        
                      k<- k +1
                  }

我意识到代码有点抽象，因为我不提供数据集或字典，但这只是为了让您有一个想法。我的代码可以工作，它运行时没有错误，并且执行了我希望执行的操作（所有分类列现在都显示其标签，例如，之前为 1 或 0 时为“是”或“否”）。除了我无法再访问级别中的原始数字这一事实之外，我需要在项目的下一部分中访问原始数字。

如果有一种通用的方法可以做到这一点，那就更好了，因为我在一个函数中运行此代码，其中许多列具有不同的数据集和不同的字典。有办法做到这一点吗？

PS.：我已阅读 R 中的文档以及这些问题的答案：

因子、水平和原始值

在 R 中使用 order 函数时遇到问题

但不幸的是，我自己无法弄清楚，很明显，在“factor”中使用“labels”参数并不是完成它的方法。

太感谢了！

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何标记因子但仍保留其原始水平值 - R 的相关文章

单击 R Shiny 中的按钮后将输入字段重置为 null

我正在构建一个应用程序用户可以在其中按列输入表的数据值单击添加按钮后输入的值将按列附加到现有值例如如果输入 col1 2 3 并单击 ADD 我们将在显示屏中看到 col1 2 3 如果输入 col2 4 7 并单击 ADD
dplyr：同一公式中全年每日值的总和以及特定每日值的总和

Using df数据框 date lt rep as Date seq as Date 2003 01 01 as Date 2005 12 31 by 1 format Y m d 9 site lt c rep Site 1 3 109
R List with sub-list：将与规则匹配的所有元素提取到数组中

我有一个 R 对象列表它们又是各种类型的列表我想要类别为内部的所有对象的成本值实现这一目标的好方法是什么如果我有一个数据框我会做类似的事情 my dataframe cost my dataframe category in
在 ggplot2 上绘制世界地图

我一直在尝试在 ggplot2 上绘制世界地图我跟踪了电子邮件的线索带 l 的 ggplot 地图 https stackoverflow com questions 9558040 ggplot map with l但我确实遇到了同样
ggplot2：图例下方的中心图例而不是面板区域

ggplot默认情况下图例位于面板下方居中这在某些情况下确实令人沮丧请看下面的例子 ggplot diamonds aes cut fill clarity geom bar coord flip theme legend posit
R：行数不相等的列绑定

我有两个数据集它们每个都有变量 ID Block 和 RT 反应时间我想合并列绑定这两个集合以便我拥有一个包含变量的数据集 ID 块 RT1 RT2 问题是两个集合中的行数不相等此外 ID 和块号匹配也很重要缺失值应替换为 NA
在 r 中的字符串内循环以输出具有向量化值的表达式

示例数据 gt DF A B C 1 11 22 88 2 11 22 47 3 2 30 21 4 3 30 21 gt r 1 A A i B B i A A i C C i 3 B B i C C i A A i B B i C C
根据特定行中的值对列重新排序。

我在数据框中有以下数据 aa bb cc 1 3 4 5 2 5 4 3 3 7 8 6 100 33 63 55 我需要根据最后一行中的值对列重新排序这种转变的结果将是 bb cc aa 1 4 5 3 2 4 3 5 3 8 6 7
在 Rlattice xyplot 上分别控制轴刻度和轴线

我怎样才能去除周围的盒子xyplot 同时保留轴刻度刻度线本着爱德华塔夫特 Edward Tufte 极简主义数据图形美学的精神这些轴线是非数据墨水并且可以应该被擦除 library lattice my df lt dat
如何强制在较新版本的 R 上安装较旧的软件包？

我无法安装proj4string进入我当前版本的 R 2 15 1 Warning message package proj4string is not available for R version 2 15 1 我认为这是因为 2 15
geom_polygon 的渐变填充

此代码生成一个包含 3 个多边形的图表我正在创建一个显示 3 个多边形的图表如果有更好的方法来绘制多边形我不太感兴趣实际上这些多边形代表事件并且这些事件有一个持续时间首先我感兴趣的是使用渐变填充每个多边形的可能性 librar
为什么在 data.frame 中预先指定类型会比较慢？

我预先分配了一个大 data frame 以便稍后填写我通常这样做NA是这样的 n lt 1e6 a lt data frame c1 1 n c2 NA c3 NA 我想知道如果我预先指定数据类型是否会让事情变得更快所以我测试了 f1
将函数应用于矩阵列表

我有一个矩阵列表注意它们的维度与此示例不同 x lt matrix 1 10 ncol 2 y lt x 300 mylist lt list x y 我想运行一个函数networklevel在矩阵列表中的每个矩阵上该函数有各种可以计
R：如何将描述小时、分钟和秒的非直观字符串转换为可行的 POSIXct 格式以执行标准算术？

我在 R 中有一个数据集其值采用小时分钟和秒格式然而有些值只有小时和分钟有些值只有分钟和秒有些值只有分钟有些值只有秒它的格式也不是很有利样本数据如下 example lt as data frame c 22h28m 17
R中无法连接odbc数据库

我一直在尝试使用以下命令将我公司的 DMS 连接到 RodbcConnect命令但收到以下消息 myConn lt odbcConnect NZSQL uid cejacobson pwd password Warning message
如何更改 r 中的树状图标签

我在 R 中有一个树形图它基于使用 hclust 的分层聚类我正在对不同颜色的标签进行着色但是当我尝试使用以下命令更改树图的标签集群所基于的数据帧的行时dendrogram dendrogram gt set labels dat
mlogit：需要 TRUE/FALSE 时缺少值

我有来自离散选择实验 DCE 的数据该实验研究了来自不同行业的个人的招聘偏好我已经格式化为长格式我想使用 mlogit 进行建模我已导出数据并且可以使用 asclogit 命令在 Stata 中成功运行模型但在 R 中运行时遇到
配置 fix() 和 edit() 以从 R/RStudio 在 Notepad++ 中打开

当我在 RStudio 或 RGUI 中执行此操作时 fix SomeFunction 或使用edit 我可以在记事本中看到该函数的代码有什么方法可以更改此设置以便代码预览在 Notepad 中打开而不是在普通的旧记事本中打开同样
使用 2 个向量参数翻转函数

我想对需要 2 个向量参数的函数应用滚动这是使用 data table 的示例不起作用 library data table df lt as data table cbind data frame x 1 100 y 101 200
data.table 的包装函数

我有一个已经使用 data frame 上下文编写的项目为了缩短计算时间我尝试利用 data table 的速度我的方法是构造包装函数读取帧将它们转换为表进行计算然后转换回帧这是一个简单的例子 FastAgg lt func

随机推荐

Java 中的 URL 连接 (FTP) - 简单问题

我有一个简单的问题我正在尝试用 Java 将文件上传到我的 ftp 服务器我的计算机上有一个文件我想复制该文件并上传我尝试手动将文件的每个字节写入输出流但这不适用于复杂的文件例如 zip 文件或 pdf 文件 File file
是否可以将多操作系统映像从一个 docker 注册表复制到 Linux 计算机上的另一个？

我需要一种方法将我的清单和所有相关的 blob 等从私有注册表复制到公共注册表其中图像以前从未被推送到公共注册表我通过以下方式成功创建了多架构清单buildah 请注意虽然图像是使用 buildah 构建的但我对基于 docker
系统在进程启动中找不到指定的文件异常(tscon.exe)

我在 tscon 上的 Process Start 中收到系统找不到指定的文件异常 Working Process Start new ProcessStartInfo c Windows System32 notepad exe tem
为什么可以在对象的函数属性中声明变量之前引用该变量？

基本上我正在寻找其工作原理和原因的解释 const someObj test gt callback const callback gt console log how someObj test output how 这不是 const
git rebase 的替代方案

我是 git 新手比方说我从远程本地分叉了一个存储库它称为 localRepo 有两个分支Master和testBranch testBranch 领先 100 次提交落后 5000 次提交对 testBranch 进行了更改但
如何摆脱 laravel on wamp 中的公共路径

我有一个快速的问题我第一次尝试使用 Laravel 为此我使用 Wamp 我不知道这是否重要但我将 wamp 的 DocumentRoot 设置为以下地址 DocumentRoot C Users Bebop Documents Si
在 Powershell 中，如何对参数语句中未列出的无效标志和开关生成错误？

试图让 get param 进行一些基本的错误检查令我困惑的一件事是如何检测不在参数列表中的无效开关和标志 function abc param switch one switch two 当我使用它时 PS gt abc One Two
如何更改 jquery 中的元素类？

假设我有 ul class myList verticalList 我怎样才能改变的值垂直列表使用jquery 尝试组合addClass and removeClass selector removeClass verticleList a
是否有 JavaScript 函数可以填充字符串以达到确定的长度？

我需要一个 JavaScript 函数它可以接受一个值并将其填充到给定的长度我需要空格但任何东西都可以我发现了这个但我不知道它到底在做什么而且它似乎对我不起作用 String prototype pad function l s
Excel 宏 - 拍摄特定范围的快照

我在 Excel 仪表板中遇到了一个非常奇怪的要求我在特定工作表的范围内有一些数据我需要采取它的快照并将其显示为顶部所有其他工作表中的图像我知道我可以简单地复制和粘贴范围但这种标题在隐藏工作表上的列时会产生一些问题有什么解决方案
如何使用聚类协方差矩阵对回归系数进行线性假设检验？

我有兴趣计算 R 中线性回归后系数线性组合的估计值和标准误差例如假设我有回归和测试 data mtcars library multcomp lm1 lt lm mpg cyl hp data mtcars summary glht l
对 DataFrame 中的列子集进行逻辑或

我想获取 df mylist 中至少其中一列包含 True 的所有行我目前正在做 df df df mylist 0 df mylist 1 df mylist 2 where mylist是与列相关的字符串列表df 但我想这样做任何
iOS 使用当前位置权限对话框在 Phonegap 应用程序中显示两次

我有一个Phonegap应用程序我包括cordova js在 HTML 中但不在www目录我正在等待deviceready被解雇然后我打电话 navigator geolocation getCurrentPosition succ
如何在另一页获取数组详细信息

我有类别数组还有更多产品我需要在类别页面中显示类别当单击某个类别时我必须重定向产品页面并显示必要的产品单击产品时我必须重定向产品详细信息页面并显示必要的产品详细信息类别加载到类别页面点击时会重定向到产品页面但是我看不到产
Android 获取手机联系人并删除重复项

我遇到了与联系人相关的问题我获取了手机联系人并将它们存储在我的列表对象中这是它的代码 Uri uri ContactsContract Data CONTENT URI String projection ContactsContrac
我应该如何构建我的 Node/express/mongodb 应用程序？

我只是好奇人们如何构建他们的 Node js 应用程序通常我创建模型视图控制器就这么简单但我对 Node js 领域还算陌生我正在尝试尽可能多地了解社区的运作方式欢迎任何答案谢谢无论如何我的实际设置是这样的直到我找到
如何以编程方式判断Word文档是否损坏？

我有一个小的 C 应用程序可以与 word 进行互操作将一堆 word doc 文件转换为文本文件并且在大多数情况下这都可以正常工作但是如果文档已损坏则 word 无法打开该文件并弹出一个对话框这意味着我无法完全自动化此转换
强制关闭 Android Activity 之前的回调？

我希望在我的应用程序崩溃之前执行一些紧急清理代码我尝试使用 onDestroy onFinal 和 Finalize 无济于事这在 Android Activity 中可能吗好吧我建议您的应用程序一开始就不要崩溃如果有什么东西可能
有没有更好的方法来求数字乘法和求和？

int N 2345 var digitArray N ToString ToCharArray int multiplicationSum 1 foreach char digit in digitArray multiplication
如何标记因子但仍保留其原始水平值 - R

我将这个问题分为两部分第一部分是一般问题第二部分是具体问题首先我想知道是否有一种可能的方法来标记数字因子但仍保留其原始数字级别这特别令人困惑因为我意识到当我们将标签参数传递给一个因子时它就会变成该因子的级别例如 x lt f

如何标记因子但仍保留其原始水平值 - R

如何标记因子但仍保留其原始水平值 - R 的相关文章

随机推荐

热门标签