需要使用 R 从字符串列中提取单个字符

2024-01-13

背景

下面是我的gamedatadput 形式的数据集——它包含一些 MLB 比赛的比分。

structure(list(team = c("NYM", "NYM", "BOS", "NYM", "BOS"), linescore = c("010000000", 
"(10)1140006x", "002200010", "00000(11)01x", "311200"), ondate = structure(c(18475, 
18476, 18487, 18489, 18494), class = "Date")), class = "data.frame", row.names = c(NA, 
-5L))

例如，这是一行分数：“002200010”。

有些线分数以“x”结尾，有些线分数在括号中包含两位数，如“00000(11)01x”。括号内的每个数字表示该队在该局中得了多少分。如果一支球队在一局中得分超过 9 分，则该数字放在括号中，因此在得分线“00000(11)01x”中，球队在第六局中得分 11 分，并且在下半局没有击球。第九个（用“x”表示）。

并非每条线得分都有九局。有些有更多，有些只有六个。

我需要做什么

First,我需要做的是获取一支球队在每局中得分多少分，例如第一，第二，第三等，并将每个得分在新专栏中。我更喜欢使用 dplyr 的解决方案。

我已经查看了 stackoverflow 的建议解决方案，但没有发现符合我需要的解决方案。如果有的话，如果您能分享它的 URL，我将不胜感激。

我尝试使用以下代码来做到这一点：

gamedata %>%
  select(ondate, team, linescore) %>%
  mutate(inng1 = str_extract(linescore, "\\d|\\(\\d{2}\\)"))

这是输出：

ondate      team linescore    inng1
2020-08-01  NYM 010000000       0   
2020-08-02  NYM (10)1140006x  (10)  
2020-08-13  BOS 002200010       0   
2020-08-15  NYM 00000(11)01x    0   
2020-08-20  BOS 311200          3

Second,我怎样才能删除其中的括号inng1“10”列？

下面的代码产生了下面的错误:

gamedata %>%
  select(ondate, team, linescore) %>%
  mutate(inng1 = str_extract(linescore, "\\d|\\(\\d{2}\\)"))
 str_remove_all(inng1,"[()]")

这是我收到的错误消息：

“stri_replace_all_regex（字符串、模式、fix_replacement（替换）中出现错误：找不到对象‘inng1’”

Third,我需要知道如何提取每个附加局的得分，从第二局开始，将每个值放入其自己的列中，例如 inng2、inng3 等。

最后，我应该得到上面显示的输出（每个两位数局没有括号），每个局有一列，所以会有一个标题为“inng1”、“inng2”、“inng3”、“inng4”的列，局列中的数据需要是数字，稍后我将对它们进行求和。

解决方案02

这是您可以用于解决此问题的另一种解决方案，该解决方案比第一个解决方案更有效，并且主要基于purrr函数族：

library(dplyr)
library(purrr)

df %>%
  bind_cols(
    map(df %>% select(linescore), ~ strsplit(.x, "\\(|\\)")) %>%
      flatten() %>%
      map_dfr(~ map(.x, ~ if(nchar(.x) > 2) strsplit(.x, "")[[1]] else .x) %>%
                reduce(~ c(.x, .y)) %>%
                keep(~ nchar(.x) != 0) %>% t() %>%
                as_tibble() %>% 
                set_names(~ paste0("inng", 1:length(.x)))) %>%
      mutate(across(everything(), ~ replace(.x, .x == "x", NA_character_)), 
             count_inng = pmap_dbl(cur_data(), ~ sum(!is.na(c(...)))), 
             sums_inng = pmap_dbl(select(cur_data(), starts_with("inng")), 
                                  ~ sum(as.numeric(c(...)), na.rm = TRUE)))
  )

  team    linescore     ondate inng1 inng2 inng3 inng4 inng5 inng6 inng7 inng8 inng9 count_inng
1  NYM    010000000 2020-08-01     0     1     0     0     0     0     0     0     0          9
2  NYM (10)1140006x 2020-08-02    10     1     1     4     0     0     0     6  <NA>          8
3  BOS    002200010 2020-08-13     0     0     2     2     0     0     0     1     0          9
4  NYM 00000(11)01x 2020-08-15     0     0     0     0     0    11     0     1  <NA>          8
5  BOS       311200 2020-08-20     3     1     1     2     0     0  <NA>  <NA>  <NA>          6
  sums_inng
1         1
2        22
3         5
4        12
5         7

解决方案01

我对我的解决方案进行了一些修改，因为它错误地替换了输出向量中的两位数，我认为它已得到修复。我认为这个解决方案可能对您有帮助。为此，我决定编写一个自定义函数来检测两位数字并修剪分数的输出：

library(dplyr)
library(stringr)
library(tidyr)
library(purrr)

fn <- function(x) {
  out <- c()
  if(str_detect(x, "\\((\\d){2}\\)")) {
    double <- str_replace_all(str_extract(x, "\\((\\d){2}\\)"), "[)()]", "")
    ind <- str_locate(x, "\\(")
    x <- str_remove(x, "\\((\\d){2}\\)")
    out <- c(out, str_split(x, "")[[1]])
    out[(ind[1, 1]+1):(length(out)+1)] <- out[(ind[1, 1]):length(out)]
    out[ind] <- double
  } else {
    out <- c(out, str_split(x, "")[[1]])
  }
  if(any(grepl(")", out))) {
    out <- out[-which(out == ")")]
  }
  out
}

# Test
fn("(10)1140006x)")
[1] "10" "1"  "1"  "4"  "0"  "0"  "0"  "6"  "x"

然后我们以逐行操作将其应用到数据集上：

df %>%
  mutate(linescore = map(linescore, fn)) %>% 
  unnest_wider(linescore) %>%
  rename_with(~ gsub("(\\.\\.\\.)(\\d)", paste0("inng", "\\2"), .), starts_with("...")) %>%
  mutate(across(starts_with("inng"), ~ {replace(.x, .x == "x", NA)
    as.numeric(.x)}), 
    inns_count = pmap_dbl(select(cur_data(), starts_with("inng")), 
                          ~ sum(!is.na(c(...)))), 
    inns_sums = pmap_dbl(select(cur_data(), starts_with("inng")), 
                         ~ sum(c(...), na.rm = TRUE)))

# A tibble: 5 x 13
  team  inng1 inng2 inng3 inng4 inng5 inng6 inng7 inng8 inng9 ondate     inns_count inns_sums
  <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <date>          <dbl>     <dbl>
1 NYM       0     1     0     0     0     0     0     0     0 2020-08-01          9         1
2 NYM      10     1     1     4     0     0     0     6    NA 2020-08-02          8        22
3 BOS       0     0     2     2     0     0     0     1     0 2020-08-13          9         5
4 NYM       0     0     0     0     0    11     0     1    NA 2020-08-15          8        12
5 BOS       3     1     1     2     0     0    NA    NA    NA 2020-08-20          6         7

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

需要使用 R 从字符串列中提取单个字符的相关文章

正则表达式匹配除括号中的单词之外的所有单词 - javascript

我使用以下正则表达式来匹配所有单词 mystr replace W s g function match p1 index title 请注意单词可以包含特殊字符例如德语变音符号如何匹配除括号内的单词之外的所有单词如果我有以下字符串
Preg_split 用逗号，忽略括号，PHP

我必须分割一个字符串并且我想避免用括号内的逗号分割它那么我该如何实现呢 Example string string1 sString1 sString2 ssString1 ssString2 string2 string3 resul
当 vbscript.regexp 工作时，VBA RegExp 会导致编译错误

我正在为 Outlook 2013 的 VBA 编写一个脚本它使用正则表达式我发现的每个示例似乎都使用Set regex New RegExp创建一个正则表达式对象当我尝试这个时我得到了编译错误用户定义类型未定义我设法使用正则表
R data.table 中的复杂求和涉及查看其他列

我有一个数据表其中变量的每个值v1 and v2有一个关联的类型在单独的列中编码这是一个 MWE X lt data table id 1 5 group c 1 1 2 2 2 v1 c 10 12 14 16 18 type v
如何创建具有特定于每个方面的标题和副标题的分面图？

生成一个图该图与每列的单独图相结合带有标题和副标题以及每个图的垂直线我使用直方图创建了带有垂直线的列 library ggplot2 library gridExtra library tidyr actualIris lt dat
怎么格式化啊！从条件表达式返回 &str？

我遇到这个问题的地方format 据我所知以不锚定任何东西的模式创建一个临时值 let x 42 let category match x 0 9 gt Between 0 and 9 number 10 gt format It s a
R 中的数据转换

我需要以不同的方式查看数据框中的数据问题就在这里我有一个数据框如下 Person Item BuyOrSell 1 a B 1 b S 1 a S 2 d B 3 a S 3 e S 我需要把它改造成这样显示该人在单个项目上进行的所有
Android并计算给定字体和字体大小的单行字符串的大小？

是否有一种 API 方法可以计算以给定字体和字体大小显示在一行上的字符串的大小即宽度和高度 Paint p new Paint p setTypeface TypeFace obj if custom font use TypeFace
在具有重复观察的行之间生成精确加权平均值

我有一个类似于下面生成的数据框有些人对某一特定变量有多个观察值并且每个变量都有一个相关的估计标准误差 SE 我想创建一个新的数据框其中每个人仅包含一行对于具有多个观察值的个人例如 Kim 或 Bob 我需要根据估计值的标准误差以及
如何将嵌套的数字列表转换为字符串列表？

我有下面的列表 p 1 2 3 4 2 3 4 1 如何将子列表放入字符串中例如期望的结果是 p 1234 2341 可以通过将每个整数转换为字符串并连接字符串来完成 p join map str sub list for sub li
Groovy GDK 相当于 Apache Commons StringUtils.capitalize(str) 或 Perl 的 ucfirst(str)

是否问题是否有 Groovy GDK 函数可以将字符串的第一个字符大写我正在寻找 Perl 的 ucfirst 或 Apache Commons StringUtils capitalize str 的 Groovy 等效项后者将输
如何定义 Flexdashboard 上社交网络图标的链接？

我向 Flexdashboard 的导航栏添加了社交图标但无法为每个图标添加适当的链接在 R Markdown 文件中我添加了 output flexdashboard flex dashboard social twitter fa
php 测试字符串是否包含三个字符串之一？

实现以下目标的最佳方法是什么我有一个 img变量包含例如myimage left jgp someimage center jpg or img right jpg 最好的测试方法是什么 left right or center文件名并提
正则表达式匹配带或不带特殊/重音字符的字符串？

是否有正则表达式可以匹配包含或不包含特殊字符的特定字符串可以这么说特殊字符不敏感 Like c ra将匹配cera 反之亦然有任何想法吗编辑我想匹配带有或不带有特殊重音字符的特定字符串不仅仅是任何字符串字符测试示例 cli
如何使用 dplyr 将 2 个列集的内连接的列名称作为变量传递

我一直在研究各种将列名作为变量传递的建议方法例如使用 bang bang xvar as name xvar 和其他各种方法但我无法让它工作有谁知道如何传递使用的列名mtcars在下面的管道中作为变量 i e xvar lt mpg
当“”可以分配给std::string时，为什么有“clear”方法？

一个可以用string clear函数清空字符串也可以使用空双引号来执行此操作有什么不同当您分配一个空字符串时编译器必须在数据部分存储一个空的 C 字符串并创建代码以将指向它的指针传递给赋值运算符然后赋值运算符必须从数据部分
删除删除线的 unicode 文本？

我偶尔会收到用户的输入他们正在使用那些烦人的 stikethrough 文本生成器这破坏了我的代码我尝试过在这里找到的一些代码 string preg replace x00 x1F x80 xFF string 它有效但我需要它只
将代表扩展到矩阵？

如果你打电话rep在矩阵上它重复其元素而不是整个矩阵传统的修复方法是调用rep list theMatrix 我想延长rep以便它自动执行此操作我尝试使用 rep matrix lt function x rep list x 这确实
在R中读写csv.gz文件

有非常similar https stackoverflow com questions 9548630 read gzipped csv directly from a url in r关于这个主题的问题但非在 R 下非常精确地处理这个
ggplot2条形图：按数据顺序填充

给出这样的数据框 sam lt data table title c rep Cat 8 rep Dog 4 fcat c A B C B B C C B C B B C fnum c seq 8 1 seq 4 1 labeltext c

随机推荐

round() 和 trunc() 函数有什么区别？

我对这些功能很困惑在数学中 rounding http en wikipedia org wiki Rounding表示四舍五入到最接近的整数因此四舍五入 3 4 的结果是 3 四舍五入 3 6 的结果是 4 Truncating ht
Crystal Reports 使用 13.0.2000 的哪个版本？

我的任务是对几年前编写的 ASP NET Web Forms 应用程序进行一些小的更改该应用程序的实现者已经不在我们身边几年前就离开了该应用程序中有 6 个报告所有报告都使用某些版本的 Crystal Reports 当我看着Web
如何使用 Eloquent 查询两个坐标之间的距离

我知道这个问题已经被问过很多次了但我没想到要根据我的需要来制作我需要查询距离另一个用户最近的用户基本上我有一个users表这个表有一个one to one与的关系users locations具有纬度和经度字段的表所以我看过这个
是否可以一步在堆上创建 lambda？ [复制]

这个问题在这里已经有答案了我们可以像这样创建一个 lambda auto x 我可以在堆上创建一个副本如下所示 auto y new decltype x x 问题是是否可以一步完成此操作在堆上创建 lambda 而不需要额外的步骤
我可以阻止 JDialog 在按下退出/输入键时关闭吗？

我创建了一个对话框来接受用户击键来更改菜单项的键绑定我希望 Enter 和 escape 成为用户可以绑定的键但它们都会关闭对话框如何拦截这些压力机编辑对话框是使用 JOptionPane 和自定义组件创建的 GetKeyComp
初始化全局变量类

对于这样一个基本问题表示歉意但我无法弄清楚我知道你可以像这样初始化一个类 QFile file C example 但是如何从全局变量初始化它呢例如 QFile file QFile class int main file need
有没有办法仅通过国家/地区名称获取时区？ [复制]

这个问题在这里已经有答案了您好我知道这个问题被问了很多次但这些问题与网络服务有关我正在开发一个应用程序显示用户选择国家地区的时区例如我有所有国家地区的列表当用户从中选择一个国家地区时我想按国家地区名称可能是字符串
Python Facebook API - 光标分页

我的问题涉及学习如何使用 Facebook 的 Python API 检索我的整个好友列表当前结果返回一个具有有限数量好友的对象以及指向下一页的链接我如何使用它来获取下一组朋友请发布可能重复的链接任何帮助将不胜感激一般来说我
Linux 中的 -emit-llvm

我是 LLVM 的新手尝试在 Linux 上生成人类可读的 ll 文件我安装了 llvm gcc 但据我所知它只能生成汇编代码 S 选项有什么办法可以得到类似于 llvm 在线生成的东西compiler http llvm org d
使用 IIS 以纯文本形式提供不带扩展名的文件

我尝试过使用来自的答案IIS 如何提供没有扩展名的文件 https stackoverflow com questions 19950882 iis how to serve a file without extension
对象引用和对象哈希码之间的区别

java中对象的引用和同一对象的哈希码值有什么区别它们是完全不同的两个概念 Cat oldCat new Cat Cat newCat new Cat Cat oldCatRef oldCat 在上面的例子中 oldCat and old
在 SQL 输出中插入双引号

例如在运行查询并查看输出后 select from People 我的输出如下 First Last Email Ray Smith email protected cdn cgi l email protection 我如何导出这些数据
如何使用 JavaScript 检查文件是否存在？

如何使用 JavaScript 检查文件是否存在在本例中我想检查的是 xml 文件如果您使用的是 jQuery 您可以尝试加载该文件 ajax type GET url some xml success function found e
如何强制 pytest 写入颜色输出？

即使在写入管道时如何强制 pytest 以颜色显示结果似乎没有任何命令行选项可以执行此操作从 2 5 0 开始 py test 有这个选项 color yes 从 2 7 0 开始还应该可以执行以下操作 export PYTEST
Spring 与 JSF 2 的比较 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何两两比较多次测量的增减？

我有一个数据我想通过取差值来两两比较测量值如果差值大于 0 2 则添加另一列为是否则为否就像图像中的示例数据一样并且在每个人的最后如果至少有一个是则最终结果为是我已手动填写第一行但我想对我的所有个人 1000 个
Python 并删除列表列表中的重复项，无论列表中的顺序如何

我已经搜索过但没有找到与我相同的问题我想从 python 中的列表列表中删除重复项但是我不在乎列表中值的顺序我目前的做法太耗时了我想做的事 A 1 2 3 2 3 4 3 4 5 3 2 4 我想搜索 A 并删除所有重复项这里
使用python同时向多个CC和多个TO收件人发送电子邮件

分别尝试了多个 to 和多个 cc 效果很好但是当我尝试两者时出现错误 File 路径 Continuum anaconda2 envs mypython lib smtplib py 第 870 行在 sendmail sender
std::string 用 bool 初始化

考虑以下初始化 std string falseString false std string trueString true With g 5 2 0 编译器会抛出警告falseString 而错误为trueString With cla
需要使用 R 从字符串列中提取单个字符

背景下面是我的gamedatadput 形式的数据集它包含一些 MLB 比赛的比分 structure list team c NYM NYM BOS NYM BOS linescore c 010000000 10 1140006x

需要使用 R 从字符串列中提取单个字符

需要使用 R 从字符串列中提取单个字符 的相关文章

随机推荐

热门标签

需要使用 R 从字符串列中提取单个字符的相关文章