从多个因子列生成虚拟矩阵

2024-03-03

我已经在网上搜索过，但没有找到答案。我有一个包含多列的大 data.frame 。每列都是一个因子变量。

我想转换 data.frame ，使得因子变量的每个可能值都是一个变量，如果该变量存在于因子列中，则该变量包含“1”，否则包含“0”。

这是我的意思的一个例子。

labels <- c("1", "2", "3", "4", "5", "6", "7") 

#create data frame (note, not all factor levels have to be in the columns,
#NA values are possible)
input <- data.frame(ID = c(1, 2, 3), 
Cat1 = factor(c( 4, 1, 1), levels = labels), 
Cat2 = factor(c(2, NA, 4), levels = labels),
Cat3 = factor(c(7, NA, NA), levels = labels))

#the seven factor levels now are the variables of the data.frame
desired_output <- data.frame(ID = c(1, 2, 3),
Dummy1 = c(0, 1, 1),
Dummy2 = c(1, 0, 0),
Dummy3 = c(0, 0, 0),
Dummy4 = c(1, 0, 1),
Dummy5 = c(0, 0, 0),
Dummy6 = c(0, 0, 0),
Dummy7 = c(1, 0, 0))

input
ID Cat1 Cat2 Cat3
1    4    2    7
2    1 <NA> <NA>
3    1    4 <NA>

desired_output
ID Dummy1 Dummy2 Dummy3 Dummy4 Dummy5 Dummy6 Dummy7
1      0      1      0      1      0      0      1
2      1      0      0      0      0      0      0
3      1      0      0      1      0      0      0

我的实际 data.frame 有 3000 多行和 100 多个级别的因素。我希望你能帮助我将输入转换为所需的输出。

问候苏什

几种方法，即兴发挥格雷戈尔和亚伦的答案。

来自亚伦的。factorsAsStrings=FALSE使用时保留因子变量，因此所有实验室dcast

library(reshape2)
dcast(melt(input, id="ID", factorsAsStrings=FALSE), ID ~ value, drop=FALSE) 
  ID 1 2 3 4 5 6 7 NA
1  1 0 1 0 1 0 0 1  0
2  2 1 0 0 0 0 0 0  2
3  3 1 0 0 1 0 0 0  1

然后你只需要删除最后一列。

来自格雷戈尔的

na.replace <- function(x) replace(x, is.na(x), 0)
options(na.action='na.pass') # this keeps the NA's which are then converted to zero
Reduce("+", lapply(input[-1], function(x) na.replace(model.matrix(~ 0 + x))))
  x1 x2 x3 x4 x5 x6 x7
1  0  1  0  1  0  0  1
2  1  0  0  0  0  0  0
3  1  0  0  1  0  0  0

那么你只需要cbind the ID column

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dummyvariable

从多个因子列生成虚拟矩阵的相关文章

将公式传递给 R 中的函数？

对此的任何帮助将不胜感激我正在使用 Lumley 调查包并试图简化我的代码但遇到了一些小障碍在我的代码中调用包中的 svymean 函数如下其中第一个参数是指示我想要哪些变量的公式第二个参数是该数据集 svymean hq eh
在 R 中编写多重积分函数

为了将以下内容转换为函数我想知道如何用 R 代码编写以下二重积分 bar x mu 假设pi0 and pi1以向量化方式实现函数 pi 0 和 pi 1 可能的解决方案是 integral lt function n mu s pi0
有什么方法可以访问 makeActiveBinding 安装的函数吗？

标题基本上说明了一切如果我这样做 makeActiveBinding x function runif 2 GlobalEnv x 1 0 7332872 0 4707796 x 1 0 5500310 0 5013099 那我有什么办法
直接来自数据的马尔可夫模型图（makovchain 或 deemod 包？）

我想读取一堆因子数据并从中创建一个可以很好地可视化的转换矩阵我发现了一个非常好的软件包称为 heemod 它与 diagram 一起工作得不错对于我的第一个快速而肮脏的方法我运行了一段 Python 代码来获取矩阵然后使用这个 R
knn-相同的k，不同的结果

我有一个矩阵ZZ 我跑完之后prcomp并选择了我收到的前 5 台电脑data new P prcomp zz data new P x 1 5 然后我分成训练集和测试集 pca train data new 1 121 pca test
使用 ggplot 将条形图的列与线图的点对齐

当线图的点与条形图的条具有相同的 x 轴时有什么方法可以使用 ggplot 将它们对齐这是我尝试使用的示例数据 library ggplot2 library gridExtra data data frame x rep 1 27 e
为什么我收到保存错误、软盘错误的消息？

我最近更新了 R 和 R studio 当我尝试保存文件时收到一条错误消息保存文件名时出错驱动器中的软盘错误将 2 卷序列号 3 插入驱动器 1 这是第一次看到这个错误信息不知道该怎么办我也无法另存为感谢您的帮助尝试使
重叠并固定小平面中的 x 尺度（尺度=“自由”）以制作电影

在另一篇文章中 Justin 的帮助下我用以下方法绘制了模拟结果facet gridggplot2 中的选项包含数据和答案的帖子在这里使用facet grid选项通过ggplot2绘制数据框的列 https stackoverflow
删除ggplot2 geom_bar中没有数据的日期列[重复]

这个问题在这里已经有答案了我想隐藏 ggplot2 中没有数据的列这是使用 nycflights13 库的可重现示例 library nycflights13 library dplyr library ggplot2 small da
在前两个冒号上分割字符串

我想在前两个冒号上拆分一列字符串但不在任何后续冒号上拆分 my data lt read table text my string some data 123 34 56 78 100 87 65 43 21 200 a4 b6 c888
R 比较所有列对的每个值[重复]

这个问题在这里已经有答案了我有一个 18x18 的数据框我想将所有可能的列对相互比较以便对于每对两列 18 行中的值相互比较由于我的数据太大无法放在这里我写了一个小例子来说明到目前为止我所想到的 gt a lt c 1 18 g
在 R 的 stargazer 表中设置注释格式

我在用stargazer包来生成回归输出表一切都在奇迹般地进行直到我开始编辑笔记 First 换行很难但是 Bryansuggests https stackoverflow com questions 21720264 star
将从数据透视表包生成的数据透视表转换为数据帧

我正在尝试制作一个数据透视表pivottabler包裹我想将数据透视表对象转换为数据框以便我可以将其转换为数据表带有 DT 并在 Shiny 应用程序中渲染它以便可以下载 library pivottabler pt qpvt mt
在函数中调用其他列的控制流程

我正在尝试在给定条件的情况下连接到函数中的其他列本质上我想让数据框在给定条件的情况下从长到宽其中一列中的这些值是NA相对于同一行中具有值的另一列转动NAs转化为特定的数字尽管分配的值必须是特定于列的因此如果2010 has N
在 R 中按邮政编码绘制美国地图上的点，并插入阿拉斯加和夏威夷

我正在尝试以密度点格式在美国地图上绘制点其中每个邮政编码的点的大小根据该邮政编码中从事某种职业的人数而定我已经非常接近我需要的东西但正在努力获取阿拉斯加和夏威夷的坐标它们需要在插图上这里的第一组代码是我所拥有的 loc full2
寻找一种有效的方法来计算两个表中间隔集之间的重叠数量？

注意为了方便起见我使用上一篇文章中的示例数据集假设有两个数据集 ref and map 他们是 ref lt data table space rep nI 3 t1 c 100 300 500 t2 c 150 400 600 id
R：如何在不耗尽内存的情况下重新绑定两个巨大的数据帧

我有两个数据框df1 and df2每个都有大约 1000 万行和 4 列我使用 RODBC sqlQuery 将它们读入 R 没有任何问题但是当我尝试rbind他们我收到了最可怕的 R 错误消息 cannot allocate me
滚动最小值，固定起点[重复]

这个问题在这里已经有答案了好的我想计算数据框中的滚动最小值向下滚动列到目前为止我无法确定该系列的起点并滚动到结尾我努力了 mins lt c 10 5 6 10 6 6 7 8 2 12 roll min expected lt
Dplyr select_ 和starts_with 对变量列表中的多个值进行选择

我正在从不同位置的不同传感器收集数据数据输出类似于 df lt data frame date c 2011 2012 2013 2014 2015 Sensor1 Temp c 15 18 15 14 19 Sensor1 Pressu
R 中的多面点阵图，例如线框：如何删除条带并添加 1 行字幕

我使用这种功能来自iris数据集 model test lt lm Sepal Length Petal Length Sepal Width Petal Width Species 2 data iris gg lt expand gr

随机推荐

创建自定义活动设计而不参考 Windows Workflow Foundation 中的设计 DLL

我在用Windows 工作流基础 with 定制活动我想创建定制设计对于我的工作流程中的这些活动我能够制作设计项目和设计师xaml 我还可以在工作流程中看到它们的定制设计如果我直接在我的工作流程项目中引用设计项目这是我不想做的事情
Lombok 访问 jdk.compiler 的内部包与 Java-16 不兼容

只需将我的一个项目从 Java 15 升级到 16 使用最新版本 here https jdk java net 16 在编译使用 lombok 的项目时例如
如何同步返回异步 Future 中计算的值？

我正在尝试使用 hyper 来获取 HTML 页面的内容并希望同步返回 future 的输出我意识到我可以选择一个更好的例子因为同步 HTTP 请求已经存在但我更感兴趣的是了解我们是否可以从异步计算中返回一个值 extern cra
Google BigQuery 查询速度很慢

我正在使用 Google BigQuery 并且正在从 PHP 执行一些简单的查询例如 SELECT from emails WHERE email mail test com 我只是检查该电子邮件是否存在于表中表 emails 目前为
ReactJS错误警告

我正在使用 ReactJS 创建我的第一个应用程序当我运行代码时发现此警告警告表单 propType 失败您提供了checked支持表单场没有onChange处理程序这将呈现只读场地如果该字段应该是可变的请使用defaul
将按钮和文本放在同一行，并将文本置于按钮的中心
材质 UI 选择字段多选

我多次尝试了文档中给出的示例但它对我来说效果不佳谁能帮我这是代码 import React Component from react import SelectField from material ui SelectField im
为什么裸存储库有 HEAD

我想知道这样做的目的是什么HEAD在裸存储库中是否仅在克隆存储库时使用它来知道在克隆存储库中签出哪个分支请注意这个问题不是关于what is HEAD 但考虑到它的功能我想知道为什么里面需要它bare存储库您能举出一个在裸存储库中
从 XML 文件生成 Java 类

如何从 xml 文件获取 java 类在这种情况下我没有XML模式据我所知这样我就不能使用 JAXB Castor 或其他 xml 绑定 API 您可以使用以下方法从 XML 文件生成架构某些工具 http oreilly com p
变量应该是侦听器内部的最终变量[重复]

这个问题在这里已经有答案了可能的重复无法引用在不同方法中定义的内部类内的非最终变量 https stackoverflow com questions 1299837 cannot refer to a non final variab
在Force布局中向d3节点添加文本标签

这是我的代码你也可以有完整的代码JsFiddle https jsfiddle net ShuanWu 7pvhxfzg 我想在每个节点上都有标签但我不能顺便说一句标签可以嵌入到圆圈中console https i stack im
根据选项卡内容调整 QTabWidget 大小的问题（PyQT）

我知道提供了一些关于 QTabWidget 调整大小的答案 Link 1 https stackoverflow com questions 28710003 force qt pyqt pyside qtabwidget to resiz
TextRenderer.MeasureText 结果的准确性

调用 TextRenderer MeasureText 如下 TextRenderer MeasureText myControl Text myControl Font 并将结果与控件的大小进行比较以检查文本是否适合结果有时不正确观
使用 JavaScript 和 Google Gears 处理文件上传，有更好的解决方案吗？

所以我已经使用这种文件上传方法一段时间了但 Google Gears 对实现 HTML5 规范的较新浏览器的支持似乎很差我听说过这个词已弃用 https stackoverflow com questions 2292160浮动在几个
使用 Pyspark 从关系数据集构建层次结构

我是 Python 新手一直致力于从关系数据集构建层次结构如果有人知道如何进行此操作那将有巨大的帮助我有一个关系数据集其中包含如下数据 currentnode childnode root child1 child1 leaf2
Symfony2 表单中实体字段类型的附加属性

在Symfony2中有没有一种方法可以将更多字段从实体映射到从基于实体的表单生成的选择下拉列表的选项标签我目前有类似的东西 builder gt add creditcard entity array label gt Credit C
如何正确地将 C 程序拆分为文件并包含？

我组织了我的程序将每个实体拆分在自己的文件中是这样的 main c include student h include subject h include classroom h define PI 3 14 int sum int a
将音频从 Android 设备流式传输到另一设备

我如何通过互联网将音频从一台设备流式传输到另一台设备我知道使用 Java 套接字发送基本数据但想知道如何在文件中途开始流式传输例如在歌曲的中间发送的数据需要什么格式 MediaPlayer可以将url作为数据源那么音频从服务器
将光标移动到输入字段的开头？

当您在 Stackoverflow 中点击提问时您会看到一条文字您的编程问题是什么请描述一下我想要同样的事情我所需要做的就是将光标移动到文本字段的开头我如何用 jquery 做到这一点这可能有点过分了但这些函数对于选择输
从多个因子列生成虚拟矩阵

我已经在网上搜索过但没有找到答案我有一个包含多列的大 data frame 每列都是一个因子变量我想转换 data frame 使得因子变量的每个可能值都是一个变量如果该变量存在于因子列中则该变量包含 1 否则包含 0 这是我的意

从多个因子列生成虚拟矩阵

从多个因子列生成虚拟矩阵 的相关文章

随机推荐

热门标签

从多个因子列生成虚拟矩阵的相关文章