如何在复杂数据的情况下分离行

2024-01-10

说实话这个问题本来就不是我的。这个问题 https://stackoverflow.com/q/67871768/2884859促使我把它放在一个简化的案例中。

因此，我必须根据分隔符将输入到单元格（列中）的数据分隔成单独的行，即;在目前的情况下。这可以很容易地使用tidyr::separate_rows()。近几列中的数据已经串联起来。现在的问题，实际上有两个，是——

可能有文本分隔;但可能在闭括号内() e.g. (text_A;text_B)这是要连接的而不是分开的。
每行中不同列的单元格之间的串联数量可能不均匀。在这种情况下，该行将被分成separate rows等于最大串联数。对于连接较少的其他每一列，最后一个 text_value 可能会重复。

可重现的示例如下

input <- data.frame(
  stringsAsFactors = FALSE,
  col_1 = c("A", "B", "C"),
  Col_2 = c("Text_A;Text_B","Text_C","Text_D;(Text_E;Text_F)"),
  Col_3 = c("Text_1", "Text_2;Text_3", "Text_4"),
  Col_4 = c("Text_a;(Text_b;Text_c);(Text_d;Text_dd)","Text_e","Text_f;Text_g")
)

input
  col_1                  Col_2         Col_3                                   Col_4
1     A          Text_A;Text_B        Text_1 Text_a;(Text_b;Text_c);(Text_d;Text_dd)
2     B                 Text_C Text_2;Text_3                                  Text_e
3     C Text_D;(Text_E;Text_F)        Text_4                           Text_f;Text_g

所需的输出如下：

output
#>   col_1           Col_2  Col_3            Col_4
#> 1     A          Text_A Text_1           Text_a
#> 2     A          Text_B Text_1  (Text_b;Text_c)
#> 3     A          Text_B Text_1 (Text_d;Text_dd)
#> 4     B          Text_C Text_2           Text_e
#> 5     B          Text_C Text_3           Text_e
#> 6     C          Text_D Text_4           Text_f
#> 7     C (Text_E;Text_F) Text_4           Text_g

答案除tidyverse也可以接受。

这是我的方法，仅假设没有顺序"<sep>"在您的专栏中：

input %>%
  mutate(across(-col_1,
                ~ str_replace_all(., "\\([^)]*\\)",
                                  \(x) str_replace_all(x, ";", "<sep>")))) %>%
  pmap(\(...) {
    args <- list(...)
    entries <- map(args[-1], ~ first(str_split(., ";")))
    map(entries, \(e) {
      c(e, rep(e[length(e)], do.call(max, map(entries, length)) - length(e)))
    }) %>%
    bind_rows() %>%
    bind_cols(args[1], .)
  }) %>%
  bind_rows() %>%
  mutate(across(-col_1, ~ str_replace_all(., "<sep>", ";")))

Returns:

# A tibble: 7 x 4
  col_1 Col_2           Col_3  Col_4
  <chr> <chr>           <chr>  <chr>
1 A     Text_A          Text_1 Text_a
2 A     Text_B          Text_1 (Text_b;Text_c)
3 A     Text_B          Text_1 (Text_d;Text_dd)
4 B     Text_C          Text_2 Text_e
5 B     Text_C          Text_3 Text_e
6 C     Text_D          Text_4 Text_f
7 C     (Text_E;Text_F) Text_4 Text_g

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

tidyverse

tidyr

delimiter

csv

如何在复杂数据的情况下分离行的相关文章

R中整数类和数字类有什么区别

我想先说我是一个绝对的编程初学者所以请原谅这个问题是多么基本我试图更好地理解 R 中的原子类也许这适用于一般编程中的类我理解字符逻辑和复杂数据类之间的区别但我正在努力寻找数字类和整数类之间的根本区别假设我有一个简单的向量x
如何定义“f_n-chi-square”函数并使用“uniroot”求置信区间？

I want to get a 95 confidence interval for the following question 我已经写了函数f n在我的 R 代码中我首先使用 Normal 随机采样 100 个样本然后定义函数h
当有很多列时，使用 readr::read_csv() 导入数据时覆盖列类型

我正在尝试使用 R 中的 readr read csv 读取 csv 文件我导入的 csv 文件大约有 150 列我只包含示例的前几列我希望将第二列从默认类型我执行 read csv 时为日期覆盖为字符或其他日期格式 GIS Jo
R - 与 SpatialPolygonsDataFrame 对象相交的 SpatialLinesDataFrame 列表的嵌套循环

我有一系列需要完成的步骤SpatialLinesDataFrame 此处的线基于对象与多特征中各个特征的关系SpatialPolygonsDataFrame 多边形对象简而言之每个线列表元素源自单个面要素内部并且可能会也可能不会
R- 将某些列从 0 标准化为 1，其值等于 0

我最近开始使用 are 我想扩展我的数据矩阵我在这里找到了一种方法在两点之间缩放系列 https stackoverflow com questions 5468280 scale a series between two points
R 中按时间划分的平均值

我每秒测量一次化合物浓度我想求 30 秒和 60 秒的平均值我一直在阅读这里的帖子我尝试过lubridate and dplyr 但没有运气我正在努力完成这项工作但我一直没能做到我正在从 SAS 过渡到 R 所以请耐心等待这是
仅将 pandas df 的前 N 行写入 csv

如何仅将前 N 行或从 P 到 Q 行从 pandas 数据帧写入 csv 而不首先对 df 进行子集化由于内存问题我无法对要导出的数据进行子集化我正在考虑一个逐行写入 csv 的函数谢谢 Use head https pandas
一段 R 代码会影响 foreach 输出中的随机数吗？

我使用运行模拟foreach and doParallel并与随机数名为random在代码中简而言之我模拟一个足球联赛随机生成所有比赛的获胜者以及相应的结果在dt base没有比赛进行在dt ex1 and dt ex24场比赛
跟踪循环迭代

抛硬币成功你赢100 否则你输50 你会一直玩直到你口袋里有钱a 的价值如何a在任何迭代中都被存储 a lt 100 while a gt 0 if rbinom 1 1 0 5 1 a lt a 100 else a lt a 50
使用字符串中的变量名称访问变量值，R

Intro 一个数据集有大量的age year变量 age 1990 age 1991 etc 我有一个字符串值数组length age years 表示这些变量使得age years 1 回报 age 1990 etc Need 我想搜
无法更新/编辑从 R 中的包（`gratia`）导出的 ggplot2 对象

我希望我在这里遗漏了一些令人痛苦的明显的东西我希望更新例如修复标题实验室等由生成的 ggplot 对象gratia draw 不太确定为什么我无法更新该对象有一个简单的解决方案吗 devtools install github
将字符串列拆分为多个虚拟变量

作为 R 中 data table 包的相对缺乏经验的用户我一直在尝试将一个文本列处理为大量指示符列虚拟变量每列中的 1 表示特定的子字符串是在字符串列中找到例如我想处理这个 ID String 1 a b 2 b c 3 c 进入
使用 R 下载压缩数据文件、提取和导入数据

EZGraphs 在 Twitter 上写道很多在线 csv 都被压缩了有没有办法下载解压缩存档并使用 R 将数据加载到 data frame Rstats 我今天也尝试这样做但最终只是手动下载 zip 文件我尝试过类似的东西 f
尝试使用 JRI 将 R 与我的 Java 应用程序集成，但出现错误。谁能解释一下原因和解决办法吗？

我需要将 Java 与 R 集成来运行一些数学命令并使用 R 的功能进行绘图以下部分代码给出了错误 public static void main String args HelloRWorld r new HelloRWorld r h
R中的重叠矩阵

我有以下数据框 id channel 1 a 1 b 1 c 2 a 2 c 3 a 我想创建并重叠矩阵它基本上是一个方阵行和列标签为 a b c 表中的每个条目显示每个通道共有多少个 id 例如在上面的例子中矩阵看起来像 a b
R - 计算 bin 中特定值的数量

我有一个如下所示的数据框 df Value lt c 1 1 0 2 1 3 4 0 0 1 2 0 3 0 4 5 2 3 0 6 Sl lt c 1 20 df lt data frame Sl Value gt df Sl Value
需要在R中按行绑定列表数据

我在 R 中按行绑定列表时遇到问题我的列表数据集是 id 1 data k 1 id k b c 1 1 1 3 data k 2 id k b c 1 2 1 4 id 2 data k 1 id k b c 2 1 1 6 data
在R中循环子文件夹

我正在 R 环境中包含多个子文件夹的文件夹中工作我想要循环遍历多个子文件夹然后在每个子文件夹中调用 R 脚本来执行我想出了下面的代码但我的代码似乎添加了到子文件夹列表我收到错误文件中的错误文件名 r 编码编码无效的描述
如何计算Python中字典中最常见的前10个值

我对 python 和一般编程都很陌生所以请友善我正在尝试分析包含音乐信息的 csv 文件并返回最常听的前 n 个乐队从下面的代码中每听一首歌曲都是一个列表中的字典条目格式如下 album Exile on Main Street
绘制 Cox 回归的 Kaplan-Meier 图

我使用 R 中的以下代码设置了一个 Cox 比例风险模型来预测死亡率添加协变量 A B 和 C 只是为了避免混淆即年龄性别种族但我们真正对预测变量 X 感兴趣 X 是一个连续变量 cox model lt coxph Surv t

随机推荐

使用“输入”事件动态更改背景颜色

我正在尝试使用 JavaScript 动态更改背景使用事件监听器监听输入类型颜色字段上的输入当我从调色板中选择颜色后单击颜色输入字段时背景颜色会正确更改但是我希望背景在用户滚动托盘时动态变化而不仅仅是在他选择最终颜色时希
包含嵌入/发布的 Google 文档的 Iframe 的自动高度

我有一个带有已发布的 Google 文档的 iframe 该文档的内容可能会发生变化因此我想根据其内容自动调整 iframe 的高度我找到了一些解决方案但它们都需要访问子文档的头部有谁知道如何做到这一点您可以查看下面我使用的代码的
在 Eclipse 中使用三星 Galaxy 5 作为设备

我无法在 Eclipse 中使用我的 Samsung Galaxy 5 例如将 s5 连接到我的计算机时我无法调试我的应用程序我在设备中看到该设备但其未知或处于离线状态我已经在开发者选项中激活了调试模式它适用于三星 Gala
用于修复损坏的序列化 PHP 数据的正则表达式/代码。

我有一个巨大的多维数组已由 PHP 序列化它已存储在MySQL中数据字段不够大末尾已被切断我需要提取数据 unserialize行不通有人知道可以关闭所有数组的代码重新计算字符串长度手动处理的数据太多了非常感谢这是重新计
附加到 asp.net 母版页中的默认标题

我正在使用 MVC 将标题添加到带有内容占位符的母版页默认的MVC母版页模板使用以下代码当我尝试将默认文本添加到内容容器的前面时它不会在最终呈现的页面中显示文本我试图让页面显示带有附加 contentp
Jquery 滚动到具有相同类的下一个/上一个 div

我有几个 div 都具有相同的类帖子并且我有一个简单的向上和向下导航
Python浮点精度和

我在 python 中有以下数组 n 565387674 45 321772103 48 321772103 48 214514735 66 214514735 65 357524559 41 如果我将所有这些元素相加我会得到 sum n
使用shutil移动文件时出错

我正在尝试创建一个简单的函数查找以某个字符串开头的文件然后将它们移动到新目录但我不断从shutil IOError Errno 2 没有这样的文件或目录 18 1 pdf 即使该文件存在 import os import shutil
组件中未定义渲染函数或模板：匿名

我遇到这样的问题重新加载页面后出现错误组件中未定义渲染函数或模板匿名我认为该错误是由于 socket io 造成的这个错误不是发生在本地机器上而是发生在生产上这是怎么回事开发者 https dev jujuway com u
如何在Python中编写字符串文字而不必转义它们？

有没有一种方法可以在Python中声明一个字符串变量这样它里面的所有内容都会自动转义或者有它的文字字符值 I m not询问如何用斜杠转义引号这是显而易见的我要求的是一种通用的方法用于将所有内容都放入字符串文字中这样我就不必手动
在查询中使用 TOP 1 时出现问题

我编写了以下查询来获取日期删除它的时间部分并添加我想要的时间如果我在没有 TOP 子句的情况下运行此查询则效果很好但是当我添加它时它返回以下异常从字符串转换日期和或时间时转换失败这是查询 SELECT TOP 1 CONVE
C# List .ConvertAll 效率和开销

我最近了解了 List 的 ConvertAll 扩展我今天在工作中在代码中使用了几次它将我的大量对象列表转换为其他对象的列表看起来效果真的很好但是我不确定与仅迭代列表和转换对象相比这有多高效或多快 ConvertAll 是否使
Android 应用内计费、非消耗品

我正在实施应用内计费用户将能够购买优质内容的访问权限这是典型的非消耗品假设优质内容是问题应用程序中的额外问题或类别我用过this http www techotopia com index php Integrating Googl
如何设置UILabel发光效果的颜色？

我们通常可以设置fontColorUILabel 的实现方式 label textColor self someTextColor 和阴影发光 label layer shadowColor self someGlowColor labe
如何在shell脚本中调用函数？

我有一个有条件调用函数的 shell 脚本例如 if choice true then process install elif choice false then process exit fi process install comm
通过句子或段落训练和评估 spaCy 模型

观察段落 I love apple I eat one banana a day句子 I love apple I eat one banana a day这一段有两句话 I love apple and I eat one banana
无法添加实体类型“X”的种子实体，因为没有为所需属性“..ID”提供值

我在玩机智EF Core 2 1 预览 2 我在使用 HasData Seed 方法时遇到问题OnModelCreating ModelBuilder modelBuilder 我的模型是简单的 POCO 类没有注释 public cla
无法使用“Regex::replace()”来替换编号的捕获组

我正在将复数器移植到 Rust 但在使用正则表达式时遇到了一些困难我无法获取Regex replace 正如我所期望的那样替换编号捕获组的方法例如以下显示空字符串 let re Regex new m l ouse unwrap p
从文件开头删除字节数

我想复制一个没有前 256 个字节的文件有没有一个好的方法可以用 python 来做到这一点我猜想简单的方法是用计数器读取字节然后仅在达到 256 时才开始复制我希望有更优雅的方式 Thanks with open input rb
如何在复杂数据的情况下分离行

说实话这个问题本来就不是我的这个问题 https stackoverflow com q 67871768 2884859促使我把它放在一个简化的案例中因此我必须根据分隔符将输入到单元格列中的数据分隔成单独的行即在目前的情况下

如何在复杂数据的情况下分离行

如何在复杂数据的情况下分离行 的相关文章

随机推荐

热门标签

如何在复杂数据的情况下分离行的相关文章