操作大数据表中字符串的最佳方法

2024-03-18

我有一个 67MM 行的 data.table，其中人名和姓氏用空格分隔。我只需要为每个单词创建一个新列。

这是数据的一小部分：

n <- structure(list(Subscription_Id = c("13.855.231.846.091.000", 
"11.156.048.529.090.800", "24.940.584.090.830", "242.753.039.111.124", 
"27.843.782.090.830", "13.773.513.145.090.800", "25.691.374.090.830", 
"12.236.174.155.090.900", "252.027.904.121.210", "11.136.991.054.110.100"
), Account_Desc = c("AGUAYO CARLA", "LEIVA LILIANA", "FULLANA MARIA LAURA", 
"PETREL SERGIO", "IPTICKET SRL", "LEDESMA ORLANDO", "CATTANEO LUIS RAUL", 
"CABRAL CARMEN ESTELA", "ITURGOYEN HECTOR", "CASA CASILDO"), 
    V1 = c("AGUAYO", "LEIVA", "FULLANA", "PETREL", "IPTICKET", 
    "LEDESMA", "CATTANEO", "CABRAL", "ITURGOYEN", "CASA"), V2 = c("CARLA", 
    "LILIANA", "MARIA", "SERGIO", "SRL", "ORLANDO", "LUIS", "CARMEN", 
    "HECTOR", "CASILDO"), V3 = c(NA, NA, "LAURA", NA, NA, NA, 
    "RAUL", "ESTELA", NA, NA), `NA` = c(NA_character_, NA_character_, 
    NA_character_, NA_character_, NA_character_, NA_character_, 
    NA_character_, NA_character_, NA_character_, NA_character_
    )), .Names = c("Subscription_Id", "Account_Desc", "V1", "V2", 
"V3", NA), class = c("data.table", "data.frame"), row.names = c(NA, 
-10L), .internal.selfref = <pointer: 0x0000000000200788>)


require("data.table")
n <- data.table(n)

预期输出

#           Subscription_Id         Account_Desc        V1      V2     V3 NA
# 1: 13.855.231.846.091.000         AGUAYO CARLA    AGUAYO   CARLA     NA NA
# 2: 11.156.048.529.090.800        LEIVA LILIANA     LEIVA LILIANA     NA NA
# 3:     24.940.584.090.830  FULLANA MARIA LAURA   FULLANA   MARIA  LAURA NA

第一次尝试

如何使这项工作发挥作用将是第一个问题

library(stringr)
# This separates the strings, but i loose the Subscription_Id variable.
n[, str_split_fixed(Account_Desc, "[ +]", 4)]

# This doesn't work.
n[, paste0("V",1:4) := str_split_fixed(Account_Desc, "[ +]", 4)]

第二次尝试

这可行，但我似乎计算了 3 次。不确定是否是最有效的方法

cols = paste0("V",1:3)
for(j in 1:3){
  set(n,i=NULL,j=cols[j],value = sapply(strsplit(as.character(n$Account_Desc),"[ +]"), "[", j))
}

让我们使用big_n基准测试

big_n <- data.table(Subscription_Id = rep(n[,Subscription_Id],1e7),
                    Account_Desc = rep(n[,Account_Desc],1e7)
                    )

我不处理接近这个规模的数据集，所以我不知道这是否有用。我想到的一件事是使用matrix和矩阵索引。

由于我不耐烦，我只在我的慢速系统上尝试过 1e5 行:-)

创建您的样本数据

big_n <- data.table(Subscription_Id = rep(n[,Subscription_Id],1e5),
                    Account_Desc = rep(n[,Account_Desc],1e5))

编写一个函数来创建矩阵

StringMat <- function(input) {
  Temp <- strsplit(input, " ", fixed = TRUE)
  Lens <- vapply(Temp, length, 1L)
  A <- unlist(Temp, use.names = FALSE)
  Rows <- rep(sequence(length(Temp)), Lens)
  Cols <- sequence(Lens)
  m <- matrix(NA, nrow = length(Temp), ncol = max(Lens),
              dimnames = list(NULL, paste0("V", sequence(max(Lens)))))
  m[cbind(Rows, Cols)] <- A
  m
}

计时并查看输出

system.time(outB1 <- cbind(big_n, StringMat(big_n$Account_Desc)))
#    user  system elapsed 
#   4.524   0.000   4.533 
outB1
#                 Subscription_Id         Account_Desc        V1      V2     V3
#       1: 13.855.231.846.091.000         AGUAYO CARLA    AGUAYO   CARLA     NA
#       2: 11.156.048.529.090.800        LEIVA LILIANA     LEIVA LILIANA     NA
#       3:     24.940.584.090.830  FULLANA MARIA LAURA   FULLANA   MARIA  LAURA
#       4:    242.753.039.111.124        PETREL SERGIO    PETREL  SERGIO     NA
#       5:     27.843.782.090.830         IPTICKET SRL  IPTICKET     SRL     NA
#      ---                                                                     
#  999996: 13.773.513.145.090.800      LEDESMA ORLANDO   LEDESMA ORLANDO     NA
#  999997:     25.691.374.090.830   CATTANEO LUIS RAUL  CATTANEO    LUIS   RAUL
#  999998: 12.236.174.155.090.900 CABRAL CARMEN ESTELA    CABRAL  CARMEN ESTELA
#  999999:    252.027.904.121.210     ITURGOYEN HECTOR ITURGOYEN  HECTOR     NA
# 1000000: 11.136.991.054.110.100         CASA CASILDO      CASA CASILDO     NA

纠正`set_method`函数和比较时序

set_method <- function(DT){
  cols = paste0("V",1:3)
  for(j in 1:3){
    set(DT,i=NULL,j=cols[j],
        value = sapply(strsplit(as.character(DT[, Account_Desc, with = TRUE]),
                                "[ +]"), "[", j))
  }
}

system.time(set_method(big_n))
#    user  system elapsed 
#  25.319   0.022  25.586

重置“big_n”数据集并尝试`str_split_fixed` (ouch!)

big_n[, c("V1", "V2", "V3") := NULL]

library(stringr)
system.time(outBrodie <- cbind(big_n, as.data.table(str_split_fixed(
  big_n$Account_Desc, "[ +]", 4))))
#    user  system elapsed 
# 204.966   0.514 206.910

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

strsplit

stringr

操作大数据表中字符串的最佳方法的相关文章

汇总表中各列的字符值比例

在这种数据框中 df lt data frame w1 c A A B C A w2 c C A A C C w3 c C A B C B 我需要计算所有列中字符值的列内比例有趣的是以下代码适用于大型实际数据集但对上述玩具数据会引发错
C# 数据表来保存表格（无限嵌套）

我相对较新C 但来自C C 背景我需要一个类似于的数据类型类 DataTable 但允许存储的列保存简单类型 int float boolean string 以及相同类型的数据以便一个列可以保存另一个表该表也具有存储表等的列
更快的 %in% 运算符

The 快速匹配 https cran r project org web packages fastmatch index html包实现了更快的版本match对于重复匹配例如在循环中 set seed 1 library fastma
手动设置scale_fill_distiller()的比例

我正在尝试制作一系列图表进行比较举例来说我想使用iris数据集来制作这样的图其中我已过滤以仅查看 setosa 物种 library ggplot2 library dplyr iris gt filter Species setos
按特定样本前缀对列名称向量进行子集化

假设我有一个如下所示的数据框 ca01 lt c 1 10 ca02 lt c 2 11 ca03 lt c 3 12 stuff 1 lt rep test 10 other lt rep 9 10 data lt data frame
从 R 中的方差分析 (glm) 中提取残余偏差

我在 R 中安装了一个 glm 模型并采用了方差分析表我需要提取残余偏差列但它会产生错误以下是代码创建数据 counts lt c 18 17 15 20 10 20 25 13 12 outcome lt gl 3 1 9 t
无法部署 ShinyApp：readTableHeader 在“raw”上发现不完整的最后一行（使用默认值：en_US）

我已经拼命尝试部署我的闪亮应用程序大约一周了但不幸的是我无法停止收到以下消息 Warning message Error detecting locale Error in read table file file header head
数据表中每一行的工具提示

这个问题尖叫着是重复的JSF 2 0 Primefaces 2 x 数据表行的工具提示 https stackoverflow com questions 9980155 jsf 2 0 primefaces 2 x tooltip for
从 df 中提取具有两列的重叠行对

我想找出这两个表之间哪些对重叠 gt dput data1 structure list Name x c MDH1 MDH1 IDH2 IDH2 IDH2 IDH2 IDH2 IDH2 IDH2 SCOALB SCOALB CSY4 CS
R- 将某些列从 0 标准化为 1，其值等于 0

我最近开始使用 are 我想扩展我的数据矩阵我在这里找到了一种方法在两点之间缩放系列 https stackoverflow com questions 5468280 scale a series between two points
使用大矩阵操作

我必须使用 big matrix 对象并且无法计算某些函数让我们考虑以下大矩阵 create big matrix object x lt as big matrix matrix sample 1 10 20 replace TRUE
对 data.table 中的列表列执行操作

假设我有一个data table 例如dt lt data table foo list 1 3 4 6 bar c 2 7 如何使用 dt 框架对 foo 向量列表执行操作操作可能是将 bar 添加到 foo 返回列表 3 5 11 1
将第 N 行上的 NA 行插入 data.frames 列表，其中 N 来自列表

经过几个小时后我发现自己无法解决以下问题我有一个数据框列表我想分别向每个 DF 插入而不是替换一行或多行 NA 始终至少一行要插入的 NA 数量存储在单独的列表中为了说明这一点我有以下两个列表 list of datafra
无法更新/编辑从 R 中的包（`gratia`）导出的 ggplot2 对象

我希望我在这里遗漏了一些令人痛苦的明显的东西我希望更新例如修复标题实验室等由生成的 ggplot 对象gratia draw 不太确定为什么我无法更新该对象有一个简单的解决方案吗 devtools install github
randomForest 包在删除一个预测类时的奇怪行为

我正在运行一个随机森林模型它产生的结果从统计角度来看对我来说完全没有意义因此我确信有些东西mustrandomForest 包的代码出现错误至少在模型的本次迭代中预测左侧变量是具有 3 种可能结果的政党 ID 民主党独立党共和
R、Rcpp 与 Armadillo 中矩阵 rowSums() 与 colSums() 的效率

背景来自 R 编程我正在扩展到 C C 形式的编译代码Rcpp 作为循环交换以及一般的 C C 效果的实践练习我实现了 R 的等效项rowSums and colSums 矩阵的函数Rcpp 我知道它们以 Rcpp 糖的形式存在并
R中的字典数据结构

在 R 中我有例如 gt foo lt list a 1 b 2 c 3 如果我输入foo I get a 1 1 b 1 2 c 1 3 我怎样才能看透foo仅获取键列表在这种情况下 a b c R 列表可以具有命名元素因此可
为什么数据帧上的 is.vector 不返回 TRUE？

tl dr R 中的向量到底是什么长版 R 中很多东西都是向量例如数字是长度为 1 的数值向量 is vector 1 1 TRUE 列表也是一个向量 is vector list 1 1 TRUE 好的所以列表是一个向量显然数
将 ftransform 与折叠 R 包中的 fgroup_by 一起使用

我正在尝试重现以下输出dplyr代码与R包裹collapse dplyr Code library tidyverse starwars gt select name mass species gt group by species gt
如何在 data.table 中分组后使用条件计算行数

我有以下数据框 dat lt read csv s1 s2 v1 v2 a b 10 20 a b 22 NA a b 13 33 c d 3 NA c d 4 5 NA c d 10 20 dat gt A tibble 6 x 4 gt

随机推荐

使用javascript在IE中设置cookie

document cookie cookiename cookievalue 过期星期一 12Jun2015 00 00 00 路径我在 Internet Explorer 10 上运行此脚本但它不在 2 个 IE 选项卡之间共享 c
Unity 2D Trail 渲染器碰撞

我制作 2D unity 游戏但我面临着我的游戏所依赖的一个主要问题我将一个轨迹渲染器组件附加到我的播放器上我需要的是使渲染器成为一个碰撞器充当网格碰撞器我只是不知道是否可以使碰撞器呈现 2D 轨迹渲染器的形状我在谷歌上搜索过但
将 StackExchange.Redis 客户端与 Redis 集群结合使用

如何告诉 StackExchange Redis v1 0 481 它即将连接到 Redis 集群 v3 2 6 如果重要的话而不仅仅是独立复制实例例如当我使用 redis cli 时我必须传递 c 标志以使其具有集群感知能力 S
尝试修复 tkinter GUI 冻结问题（使用线程）

我有一个 Python 3 x 报告创建器它的 I O 限制非常大由于 SQL 而不是 Python 以至于主窗口将锁定 minutes在创建报告时所需要的只是能够在 GUI 锁定时使用标准窗口操作移动调整大小最小化关闭等
使用 nbconvert 作为库运行预处理器

我想使用预处理器运行 nbconvert 该预处理器会删除标有 skip 标签的单元格我可以从命令行执行此操作但是当我尝试在笔记本中使用 nbconvert API 时我遇到了问题一个例子按照中的示例文档 https nbconv
彩色打印页眉和页脚？

我正在尝试在打印 JTable 时创建彩色页眉和页脚具体来说我正在查看 javax swing JTable 中的 getPrintable 但 MessageFormat 没有提供指定页眉或页脚颜色的选项我该怎么做澄清我有兴趣在打
c++11 union 包含带有虚函数的数据成员

include
回复然后继续使用 AWS Lambda/API Gateway？ [复制]

这个问题在这里已经有答案了我目前有一个 Web 挂钩正在调用 AWS API Gateway gt AWS Lambda 函数代理我想让 Web 挂钩响应更快并在继续在 Lambda 中处理的同时返回早期回复我继续执行 Lambd
在Java中解压缩GZip字符串

我可以找到很多可以解压缩 GZip 文件的函数但是如何解压缩 GZip 字符串呢我正在尝试解析 HTTP 响应其中响应正文是用 GZip 压缩的但是整个响应只是存储在字符串中因此字符串的一部分包含二进制字符我正在尝试使用 by
boost lib 构建配置变化

我是 boost 新手你能告诉我黑白有什么区别吗 boost 库的以下变体以及在哪种情况下我需要链接到哪一个 libboost unit test framework vc80 1 35 lib libboost unit test fr
如何制作一个非常大的 Facebook 分享按钮？

我想制作一个动态的 facebook 分享按钮我当然可以在 facebook 页面上制作但是我想制作一个非常大的按钮就像在这个网站上一样 http fullm com 这些 photos of an el salvador pris
输入“有吗？”没有下标成员（使用 Firebase）

每次我运行这行代码时它都不起作用任何人都可以帮助我改变它吗谢谢你的帮助以下是我不断收到的错误输入任意没有下标成员 var ref FIRDatabaseReference var refHandle UInt var postDa
Postgres全文搜索：如何在多个字段中搜索多个单词？

我第一次使用 Postgresql 我正在尝试在我的网站中创建一个搜索引擎我有这张表 CREATE TABLE shop id SERIAL PRIMARY KEY name TEXT NOT NULL description TEXT
如何在 O(1) 时间内找到二进制数中 1 的个数？

我知道以前曾问过这个问题但我正在查看列出的这个特定解决方案here https stackoverflow com a 8871435 1418853 int BitCount unsigned int u unsigned int uC
实体框架：一个数据库，多个DbContext。这是一个坏主意吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案迄今为止我的印象是DbContext旨在代表您的数据库因此如果您的应用程序使用一个数据库您只需要一个DbContext 然而一些同事希望
JavaScript：删除 HTML 标签、修改标签/文本以及重新插入标签

我正在尝试找到一种方法来删除 HTML 文档中的所有标签存储它们的位置修改剩余的文本然后将标签重新插入它们所属的位置关键点 I need to insert the tags back in again later thus I n
Spring Boot 2 war 文件尝试在 tomcat 7 (el-api 2.2) 上加载 el-api v3.0 类 (NoClassDefFoundError: javax/el/ELManager)

我有一个 Spring boot 2 gradle 项目我希望将其作为不可执行的 war 文件部署到 tomcat 7 实例 RHEL 我收到了NoClassDefFoundError将war部署到服务器上的tomcat时 Caused
axios 不发送 cookie

我有两个应用程序一个是用 Laravel 编写的服务器端应用程序另一个是用 VueJS 编写的客户端应用程序 vue 应用程序使用 laravel 应用程序提供的 api 授权流程用户尝试登录服务器发送两个token给客户端 a a
Excel 2007 工作簿名称大小限制是多少？为什么？

Excel 2007 中的工作簿名称的大小应该仅受内存限制但事实似乎并非如此最终保存到某个名称的数组将变得足够大以至于当您尝试保存时您会得到解释此工作簿中的一个或多个公式大于 8192 个字符限制请另存为二进制文件好的那
操作大数据表中字符串的最佳方法

我有一个 67MM 行的 data table 其中人名和姓氏用空格分隔我只需要为每个单词创建一个新列这是数据的一小部分 n lt structure list Subscription Id c 13 855 231 846 091