将分隔字符串拆分为 R 数据框中的不同列

2024-03-10

我需要一种快速而简洁的方法将数据框中的字符串文字拆分为一组列。假设我有这个数据框

data <- data.frame(id=c(1,2,3), tok1=c("a, b, c", "a, a, d", "b, d, e"), tok2=c("alpha|bravo", "alpha|charlie", "tango|tango|delta") )

（请注意列之间不同的分隔符）

字符串列的数量通常是事先未知的（尽管如果我没有其他选择，我可以尝试发现整组情况）

我需要两个这样的数据框：

tok1.occurrences:
    +----+---+---+---+---+---+
    | id | a | b | c | d | e | 
    +----+---+---+---+---+---+
    |  1 | 1 | 1 | 1 | 0 | 0 |
    |  2 | 2 | 0 | 0 | 1 | 0 |
    |  3 | 0 | 1 | 0 | 1 | 1 |
    +----+---+---+---+---+---+

tok2.occurrences:
    +----+-------+-------+---------+-------+-------+
    | id | alpha | bravo | charlie | delta | tango | 
    +----+-------+-------+---------+-------+-------+
    |  1 |   1   |   1   |    0    |   0   |   0   |
    |  2 |   1   |   0   |    1    |   0   |   0   |
    |  3 |   0   |   0   |    0    |   1   |   2   |
    +----+-------+-------+---------+-------+-------+

我尝试使用这个语法：

tok1.f = factor(data$tok1)
dummies <- model.matrix(~tok1.f)

这最终导致了一个不完整的解决方案。它正确地创建了我的虚拟变量，但（显然）没有根据分隔符进行分割。

我知道我可以使用“tm”包来查找文档术语矩阵，但对于这种简单的标记化来说似乎太多了。有更直接的方法吗？

我能想到的最简单的事情就是使用my cSplit功能 https://gist.github.com/mrdwab/11380733/和这个结合dcast.data.table，像这样：

library(splitstackshape)
dcast.data.table(cSplit(data, "tok1", ", ", "long"), 
                 id ~ tok1, value.var = "tok1", 
                 fun.aggregate = length)
#    id a b c d e
# 1:  1 1 1 1 0 0
# 2:  2 2 0 0 1 0
# 3:  3 0 1 0 1 1

dcast.data.table(cSplit(data, "tok2", "|", "long"), 
                 id ~ tok2, value.var = "tok2", 
                 fun.aggregate = length)
#    id alpha bravo charlie delta tango
# 1:  1     1     1       0     0     0
# 2:  2     1     0       1     0     0
# 3:  3     0     0       0     1     2

编辑：更新为library(splitstackshape) since cSplit现在是该包的一部分。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

Substring

tokenize

tm

将分隔字符串拆分为 R 数据框中的不同列的相关文章

如何避免循环

大家好我是 R 新手我有两个面板数据文件其中包含 id date 和 ret 列文件 A 的数据比文件 B 多得多但我主要处理文件 B 数据 id 和 date 的组合是唯一标识符有没有一种优雅的方式来查找 B 中的每个 id
无法使用include_graphics在Rmarkdown中插入png（错误：文件不是PNG格式）

这个错误很奇怪当我编织文档时出现以下错误 Quitting from lines 42 43 sigminer doc Rmd Error in png readPNG path native TRUE info TRUE file i
列表列中的设置操作

我正在尝试做集合运算在存储在列表列中的向量之间例如this https stackoverflow com questions 38712196 text file to dataframe with a list column DT l
如何找到每个分类变量的连续变量的平均值

我想在 y 轴上绘制连续的 BMI 在 x 轴上绘制家庭收入的分类变量并且我希望该图绘制每个类别的平均 BMI 然而我不知道如何找到家庭收入每个因素的平均体重指数 Dataset nh 5994 total IDs with Obser
R 中的优化函数可以接受目标、梯度和粗麻布吗？

我有一个想要优化的复杂目标函数优化问题需要相当长的时间来优化幸运的是我确实有可用的函数的梯度和粗麻布 R 中是否有一个优化包可以接受所有这三个输入 optim 类不接受 Hessian 矩阵我已经扫描了用于优化的 CRAN 任务页面
R：使用 RGDAL 和 RASTER 包时抛出错误

给所有可能相关的人这是源代码 GRA D1 lt raster files 1 Sets up an empty output raster GRA D1 lt writeStart GRA D1 filename GRA D1 tif
R 中多类分类的 ROC 曲线

我有一个包含 6 个类别的数据集我想绘制多类别分类的 ROC 曲线 Achim Zeileis 给出的第一个答案非常好 R中使用rpart包的ROC曲线 https stackoverflow com questions 30818188
从 foreach 循环赋值

我想并行化一个循环例如 td lt data frame cbind c rep 1 4 2 rep 1 5 rep 1 10 2 names td lt c val id res lt rep NA NROW td for i in l
xml2 包 (R) 中的 xml_find_all 函数未找到相关节点

我使用 R 中的 xml2 包来访问 xml 数据发现它在不同的 xml documents 上表现不同在这个宠物的例子中 library xml2 doc lt read xml
在 R 中使用 gamlss::lms 选择百分位数曲线

我正在使用 gamlss 包中的示例代码来绘制百分位数曲线 library gamlss data abdom lms y x data abdom n cyc 30 它正在绘制自己的一组百分位数曲线如何选择只绘制第 10 50 和 90
R中不同级别的李克特分组

我想使用 Likert 包并按变量分组并绘制结果问题是我想要可视化的变量有不同的级别有没有解决的办法一个简单的例子来说明我的问题 library reshape library likert foo lt data frame ca
网页抓取（R 语言？）

我想获取中间栏中的公司名称this http www consumercomplaints in bysubcategory mobile service providers page 1 html页面以蓝色粗体书写以及登记投诉者的位置
为什么 rbind 会抛出警告

这与是否有更优雅的方法将不规则的数据转换为整洁的数据框 https stackoverflow com questions 25102617 are there more elegant ways to transform ragged d
如何从类外部更改公共 R6 类方法？

我希望能够在我的 R6 类中重新定义公共方法以便它根据该类保存的数据类型进行更改如下所示 library R6 Simple lt R6Class Simple public list dt mtcars my print functi
如何在ggplot2中使用希腊符号？

我的类别需要用希腊字母命名我在用ggplot2 并且它与数据配合得很好不幸的是我无法弄清楚如何将这些希腊符号放在 x 轴上在刻度线处并使它们出现在图例中有什么办法可以做到吗更新我看了一下link https github c
R Shiny - 修复了 Shiny 仪表板中的侧边栏和主标题

我有一个简化的闪亮仪表板请参阅下面的代码我想修复侧边栏和主标题因此在其他帖子的帮助下我编写了一个 CSS 文件来解决该问题 sidebar color FFF position fixed width 220px white sp
R markdown 引文标识符

R markdown 允许使用 YAML 元数据部分中的参考书目元数据字段指定参考书目文件例如 title Sample Document output html document bibliography bibliography bi
Rglpk - 梦幻足球阵容优化器 - For 循环输出的 Rbind

我有一个使用 Rgplk 的梦幻足球阵容优化器它使用for循环生成多个最佳阵容其数量由用户输入代码如下 Lineups lt list for i in 1 Lineup no matrix lt rbind as numeric D
在多面图中用 N 注释 x 轴

我正在尝试生成一些按治疗条件和访问次数细分的数字结果的箱线图每个框中的观察次数都放在图下方并且也标记了访问次数这里有一些虚假数据可以用来说明我举了两个我尝试过但不太有效的例子 library ggplot2 library plyr
为 ggplot 定义新的尺度轴变换

我正在尝试创建一个squared使用 y 轴变换scales trans new但遇到错误 MWE data data frame x 1 10 y runif 10 z rnorm 10 10 library ggplot2 ggplot

随机推荐

为自定义指令的节点生成标签

使用Sphinx TODO 指令示例 https www sphinx doc org en master development tutorials todo html我想参考一下todo嵌入在 rst 文件中的实例例如如果 rst
如何使用 lubridate 包计算两个日期向量之间的月数，其中向量之一具有 NA 值？

我已经阅读了 lubridate 包手册并通过我的问题的各种排列查询了 Stack Overflow 但没有找到针对我的具体问题的答案我想做的是计算事件发生时的年龄以月为单位作为出生日期和某些特定事件日期之间的差异因此我使用以下
急切的 java 类加载

我正在尝试对在各种硬件和操作系统平台上运行的 JVM 进行一些基准测试我创建了一个算法来练习 JVM 中我感兴趣的部分并打算多次运行该算法以找到一个合适的平均值当我运行基准测试时我发现第一次运行明显长于后续运行 132ms 86ms
强制退出 Makefile 目标而不引发错误

我使用外部工具 Netbeans 生成的 Makefile 在其中我无法更改主目标的逻辑但我能够在实际构建之前执行的目标中注入逻辑 build pre具体在 Netbeans 生成的 Makefile 中我希望该目标有条件地终止 m
Kubernetes 可以在没有 LXD 守护进程的情况下管理 LXC 容器吗？

我在 Oracle Linux 主机上运行多个 LXC 容器并在这些容器内运行 EBS 应用程序现在我每5台主机上就有10多个容器我正在寻找管理这些容器的解决方案研究告诉我 Kubernetes 是一个用于管理容器并用它执行其他一
将 C++ 应用程序从 Linux 交叉编译到 Windows 的手册？

是否有从 Linux 到 Windows 交叉编译 C 应用程序的手册只是我想要一些信息链接参考示例来指导我做到这一点我什至不知道这是否可能我的目标是在 Linux 中编译一个程序并获得一个可以在 Windows 下运行的
我得到“TypeError：异常必须从 BaseException 派生”，即使我确实定义了它

根据python文档 Exception是从BaseExceptions派生的我应该将它用于用户定义的异常所以我有 class VisaIOError Exception def init self error code abbrevi
Cocoa 中的双向地图

Cocoa 提供了 NSDictionary 它本质上是一个关联数组有没有一种好的方法来获得双向关联性即一种方法是如果 NSDictionary 有一个keyForObject 反映行为的方法objectForKey 我真的不在乎 NS
Mozilla Firefox 中通过 ASP.NET 实现多行工具提示 - 这可能吗？

有没有办法在 Web 控件具体来说是 ImageButton 上显示 ToolTip 在 Mozilla Firefox 浏览器中如下所示约翰史密斯 24岁性别男尝试过Environment NewLine n r n 其中字
使用 Swashbuckle 更改 swagger JSON 的位置

我正在尝试配置 Swashbuckle 以便可以使用 URL root swagger json 访问生成的 JSON 文件我已经操作了许多设置但无法使其正常工作这里有些例子 This works JSON file is locat
严重：在键 UserDatabase javax.naming.NameNotFoundException 下查找 UserDatabase 时出现异常：名称 [UserDatabase] 未在此上下文中绑定

我正在使用 TOMCAT 9 和最新的 hibernate jars 以及 java 1 8我在 mysql 中创建简单用户和 1 个名为 foo1 的表数据库在我的 tomcat 中的 web 应用程序中我根据在线示例进行配置工作区
如何在 CRUD 应用程序中变得更加 Laravel？

这是一个关于如何使用很棒的 Laravel 创建更好的应用程序的问题我想创建一个具有用户权限的多个表单的 CRUD 应用程序 Details View 我有 3 种形式例如我们称之为cat turtle and dog 最重要的是它们有
（播放2.5）如何为Option的类型别名定义json格式？

case class ClassA myObjectType TypeA myTypeAlias object ClassA implicit def jsonFormat Format ClassA Json format ClassA
Azure 数据工厂 - 按日期过滤 Mongodb 源数据集

此场景非常简单如 ADFv2 文档和示例中所述我创建了一个复制管道来从 MongoDB 集合获取数据并将其写入 Azure SQL 数据库完整的收集数据已成功传输并且所有映射均已正确设置当我尝试过滤源数据集以仅获取最后一个数据集
Android 模拟器“要启动 Android，请输入密码”，它提醒我密码错误”

我刚刚安装了 Android Studio 当我运行 Android 模拟器时它显示要启动 Android 请输入您的密码并提醒我密码错误我该如何修复它如果有人对此有答案我会很高兴在 Android 虚拟设备管理器中擦除数据对
在 JavaScript 中检测图像大部分是深色还是浅色？

我正在寻找一种方法来扫描任何给定的图像并确定它是否大部分是暗的或亮的在明亮鲜艳的颜色或暗且不饱和的颜色的意义上这是用 PHP 完成的背景图片深色还是浅色 https stackoverflow com questions 584244
在高负载的 .ashx http 处理程序中将记录附加到磁盘文件的最快、最安全的方法是什么？

在 net4 IIS7 的高度并行 Web 环境中将记录写入附加文件的最佳选项是什么我使用 ashx http 处理程序来接收应快速写入文件的小部分数据首先我使用 using var stream new FileStream fi
如何更改Android复选框的背景？

我有 android checkBox 并且默认背景是透明的我希望它是白色的所以我使用样式并设置复选框主题
无限循环中创建的对象的垃圾收集

我有一个非常基本的问题我写了一个这样的循环 while true MyTestClass myObject new MyTestClass 对象将在什么时候创建循环垃圾收集另外对于每次迭代是新的内存位置是分配给 myObje
将分隔字符串拆分为 R 数据框中的不同列

我需要一种快速而简洁的方法将数据框中的字符串文字拆分为一组列假设我有这个数据框 data lt data frame id c 1 2 3 tok1 c a b c a a d b d e tok2 c alpha bravo alpha

将分隔字符串拆分为 R 数据框中的不同列

将分隔字符串拆分为 R 数据框中的不同列 的相关文章

随机推荐

热门标签

将分隔字符串拆分为 R 数据框中的不同列的相关文章