使用 str_extract_all 在 R 中运行正则表达式正则表达式尚未实现

2024-02-07

我正在尝试使用正则表达式来解析使用正则表达式的文件。在 R 中使用正则表达式的大多数解决方案都使用 stringr 包。我还没有找到另一种方法，或者另一个可以使用的包。如果您有其他方法来解决此问题，那也是可以接受的。

我想要完成的是获取几个由空格分隔的值，最后一个值是一些逗号分隔的可变长度值。目前，这应该以类似表格的格式进入矩阵或 df 中。

foo     foo_123bar      foo,bar,bazz
foo2    foo_456bar      foo2,bar2

我有我的正则表达式的工作示例here. https://regex101.com/r/yO4TpZ/2

我可能会遇到一些问题。第一个可能是我正在编写的正则表达式不受 R 的正则表达式引擎支持。虽然我有这样的感觉this http://www.rexegg.com/regex-disambiguation.html#define这将得到支持。我已经看到 R 使用类似 POSIX 的格式，这可以让事情变得有趣。第二个可能正是下面的错误消息所显示的内容。这还不是一个已被编码的功能。然而，这将是最麻烦的，因为如果没有这个包，我不知道另一种方法来解决我的问题。

下面是我用来复制此错误的 R 代码

library("stringr")

string = " foo  foo_123bar      foo,bar,bazz\n  foo2    foo_456bar      foo2,bar2,bazz2"

pattern = "
  (?(DEFINE)
    (?<blanks>[[:blank:]]+)
    (?<var>\"?[[:alnum:]_]+\"?)
    (?<csvar>(\"?[[:alnum:]_]+\"?,?)+)
  )
  ^
    (?&blanks)((?&var))
    (?&blanks)((?&var))
    (?&blanks)((?&csvar))"

# Both of these are throwing the error
str_extract_all(string, pattern)
str_extract_all(string, regex(pattern, multiline=TRUE, comments=TRUE))

> Error in stri_extract_all_regex(string, pattern, simplify = simplify,  : 
> Use of regexp feature that is not yet implemented. (U_REGEX_UNIMPLEMENTED)


# Using the example from ?str_extract_all runs without error
shopping_list <- c("apples x4", "bag of flour", "bag of sugar", "milk x2")
str_extract_all(shopping_list, "\\b[a-z]+\\b", simplify = TRUE)

我正在寻找一种解决方案，不一定是 stringr 解决方案，但这是我发现符合我的需求的唯一方法。其他更简单的 R 正则表达式函数仅接受模式，而不接受额外参数，包括我正在使用的多行和注释功能。

您有一个 PCRE 正则表达式，只能在使用 PCRE 正则表达式库（或 Boost，它基于 PCRE）解析正则表达式的方法/函数中使用。stringr str_extract使用 ICU 正则表达式库解析正则表达式。 ICU 正则表达式不支持递归并且DEFINE堵塞。您只是不能使用模式内方法来定义子模式然后重新使用它们。

相反，只需声明需要作为变量重用的正则表达式部分并动态构建模式：

library("stringr")
string = " foo  foo_123bar      foo,bar,bazz\n  foo2    foo_456bar      foo2,bar2,bazz2"
blanks <- "[[:blank:]]+"
vars <- "\"?[[:alnum:]_]+\"?"
csvar <- "(?:\"?[[:alnum:]_]+\"?,?)+"
pattern <- paste0("^",blanks,"(", vars, ")",blanks,"(", vars,")",blanks,"(",csvar, ")")
str_match_all(string, pattern)
# [[1]]
#     [,1]                                 [,2]  [,3]         [,4]          
#[1,] " foo  foo_123bar      foo,bar,bazz" "foo" "foo_123bar" "foo,bar,bazz"

注意：您需要使用str_match (or str_match_all) 将捕获组值提取为str_extract or str_extract_all只允许访问整个匹配值。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

regex

使用 str_extract_all 在 R 中运行正则表达式正则表达式尚未实现的相关文章

排序因素与水平

有人能解释一下 R 中 ordered 参数的用途吗 R says ordered逻辑标志来确定级别是否应被视为有序按给定的顺序所以如果我有一个名为名称的因素并设置ordered TRUE names lt factor c fred
RStudio 如何确定控制台宽度，为什么它似乎总是出错？

我刚刚发现wid lt options width在 RStudio 中它似乎是我日常控制台使用中令人烦恼的根源或者更确切地说更接近根源我应该先说一下我目前使用的是 R 3 2 2 RStudio 0 99 491 Linux M
从 R 中的方差分析 (glm) 中提取残余偏差

我在 R 中安装了一个 glm 模型并采用了方差分析表我需要提取残余偏差列但它会产生错误以下是代码创建数据 counts lt c 18 17 15 20 10 20 25 13 12 outcome lt gl 3 1 9 t
Pure Bash 替换捕获组

我有这个示例字符串 test string 13A6 该字符数字可以是从 0 到 9 以及从 A 到 F 我想要这个输出 1 3 A 6 我有这个工作 result echo test string sed s g 我想在没有 sed 的
RegularExpressionAttribute - 如何使其客户端验证不区分大小写？

我有一个用于客户端验证的字符串 private const String regex b d 5 s s d 5 A Z 2 d 3 s s 1 d 3 s 我在我的中使用这个字符串 RegularExpression regex Erro
如何使用 xpath 检查某个对象在网页中是否可见？

我正在 R 中使用 RSelenium 包来进行网络抓取有时加载网页后需要检查某个对象在网页中是否可见例如 library RSelenium open a browser RSelenium startServer remDr lt
从 html 属性中删除单引号和双引号，并且除 href 和 src 之外的所有属性上都没有空格

我正在尝试从 html 属性中删除单引号和双引号这些属性是没有空格的单个单词我写了这个有效的正则表达式 type title data toggle colspan scope role media name rel id class
用表达式分割轴标签

我有一个带有包含表达式的长标签的图我想将其分成两行在表达式中添加 n 结果不符合预期 ylabel lt expression A very long label with text and n expression alpha bet
使用大矩阵操作

我必须使用 big matrix 对象并且无法计算某些函数让我们考虑以下大矩阵 create big matrix object x lt as big matrix matrix sample 1 10 20 replace TRUE
如何使用 R 将每个文件的数据添加为附加行，从而将不同的 .csv 文件合并为一个完整的文件？

我有几个不同的文件夹它们都包含一个 csv 文件所有这些 csv 文件都有一个单独的列其中包含实验的一种条件的数据我想以将每个文件的数据添加为新列的方式合并这些 csv 文件目前它看起来像这样 C1 csv 102 106 15
获取函数的命名空间

我正在开发一个包我希望在其中向对象添加编辑历史记录该包允许其他包注册用于编辑对象的函数我正在寻找一种方法来记录注册用于编辑的函数的包的版本问题是给定一个函数如何从导出的位置获取包我的想法是调查它的搜索路径但是search 仅
跟踪循环迭代

抛硬币成功你赢100 否则你输50 你会一直玩直到你口袋里有钱a 的价值如何a在任何迭代中都被存储 a lt 100 while a gt 0 if rbinom 1 1 0 5 1 a lt a 100 else a lt a 50
正则表达式最多匹配五个单词

我有一个正则表达式 a zA Z 0 9 1 5 它验证该单词包含字母数字字符和少数特殊字符并且长度不应超过5人物如何使此正则表达式接受最多五个与上述正则表达式匹配的单词 a zA Z 0 9 1 5 s a zA Z 0 9 1 5
尝试使用 JRI 将 R 与我的 Java 应用程序集成，但出现错误。谁能解释一下原因和解决办法吗？

我需要将 Java 与 R 集成来运行一些数学命令并使用 R 的功能进行绘图以下部分代码给出了错误 public static void main String args HelloRWorld r new HelloRWorld r h
将html数据解析成python列表进行操作

我正在尝试读取 html 网站并提取其数据例如我想查看公司过去 5 年的 EPS 每股收益基本上我可以读入它并且可以使用 BeautifulSoup 或 html2text 创建一个巨大的文本块然后我想搜索该文件我一直在使用
Golang 正则表达式在字符串之间替换

我有一些可能采用以下形式的字符串 MYSTRING MYSTRING n MYSTRING n MYSTRING randomstringwithvariablelength n 我希望能够将其正则表达式为MYSTRING foo 基本上替
R 中两个时间戳之间的左连接

我的目标是执行左连接intervals哪里的bike id比赛和created at时间戳在records在之间start and end in the intervals table gt class records 1 data ta
正态分布平均值的贝叶斯推理玩具 R 代码 [降雪量数据]

我有一些降雪观测 x lt c 98 044 107 696 146 050 102 870 131 318 170 434 84 836 154 686 162 814 101 854 103 378 16 256 我被告知它遵循正态分布
R 闪亮仪表板中的动态重复条件面板

我正在尝试创建一个动态条件面板所以我的条件如下在用户界面中输入 selectInput inpt Input Number seq 1 50 1 selectize FALSE 我的条件面板 UI 输入是 conditionalPane
如何在 data.table 中分组后使用条件计算行数

我有以下数据框 dat lt read csv s1 s2 v1 v2 a b 10 20 a b 22 NA a b 13 33 c d 3 NA c d 4 5 NA c d 10 20 dat gt A tibble 6 x 4 gt

随机推荐

如何通过EC2 SSH隧道从本地JAVA程序连接到RDS

我正在尝试通过 SSH 隧道从本地 JAVA 程序连接到 RDS 数据库到 EC2 实例以进行调试我正在尝试在 EC2 实例中建立 SSH 隧道然后将端口转发到 RDS 数据库这是我的代码 final int localPort 9
Webgl 没有渲染我的圆圈

我正在尝试学习如何使用 Webgl 并且已经学会了如何绘制三角形正方形和直线我在 webgl 中创建圈子时遇到问题 var InitDemo function var canvas document getElementById cir
如何设置绑定项目的ContextMenu？

我正在努力实现以下目标
C# RichTextBox选择问题

我的应用程序上有一个 RichTextBox 控件这是我的问题当应用程序运行时如果我开始用鼠标选择单词内的某些字符并继续在其外部选择则选择会自动包含我开始选择的整个单词以及我想从中选择一部分的任何其他单词 ms word ish 如
IMPORTXML 到具有自动更新功能的 Google Apps 脚本中 [重复]

这个问题在这里已经有答案了我正在尝试让 Google 表格应用程序脚本适用于我正在使用的 IMPORTXML A1 importxml http www nfl com liveupdate scorestrip ss xml q A2
获取矩阵元素的邻居

我有一个矩阵对于每个元素我想获取其周围元素的索引所有这些结果必须按以下方式存储到矩阵中矩阵的每一行对应于一个矩阵元素并且该矩阵的每一列包含 s 个邻居索引例如对于 4x4 矩阵我们将得到一个 16x8 结果数组某些矩阵元素
Ms Access vba 打开另一个数据库中表的数据表视图

该语句将打开当前数据库中指定表的数据表视图 DoCmd OpenTable sTablename acViewNormal 有没有办法让另一个数据库中的表达到相同的结果我有一个表单可以在其中选择 Access 数据库然后下拉菜单中会填
Mongodb 是否可以聚合对象？

我正在尝试汇总本文档中的数据包总数 id ObjectId 51a6cd102769c63e65061bda capture 1369885967 packets 0 595 1 596 2 595 3 595 我能得到的最接近的是 db
Jythonc 失踪

我刚刚安装了 Jython 2 5 1 我想将我的 Python 文件转换为 Java 类文件网站上指示使用 jythonc 命令行工具但我找不到它有谁知道我在哪里可以找到它基本上我想要完成的是让我的 Python 代码在浏览器中运
ValueError：无法处理多标签指示器和二进制的混合

我将 Keras 与 scikit learn 包装器一起使用特别是我想使用 GridSearchCV 进行超参数优化这是一个多类问题即目标变量只能在一组 n 个类上选择一个标签例如目标变量可以是 Class1 Class2 C
PyMC - 方差-协方差矩阵估计

我读了下面的论文 http www3 stat sinica edu tw statistica oldpdf A10n416 pdf http www3 stat sinica edu tw statistica oldpdf A10n4
PHPUnit 总是输出“没有执行测试！”在 MacOS 大苏尔

当尝试跑步时anyPHPUnit 测试我总是得到No tests executed 我的 MacOS 机器上的消息在这台特定机器上进行重现的一个简单方法是安装一个新的 Laravel 实例并运行默认测试 composer create
jQuery；对于 new Image()，Chrome 图像宽度和高度 = 0

在 DOM 加载后我无法让 Chrome 识别图像宽度或高度图像通过 phpThumb 脚本动态加载调整图像大小如果我去掉动态 url 并将其替换为图像的直接 url 我不会遇到任何问题并且 Chrome 中一切正常但使用动态
SQL 中关键字“GROUP”附近的语法不正确

我在对语句进行分组时遇到错误这是我的代码 DECLARE avg volume INT SELECT avg volume ISNULL AVG Total Volume 0 FROM SELECT station id DATEPART
使用 ALTER 删除 MySQL 中存在的列

如果 MySQL 表中存在某列如何使用 ALTER 删除该列我知道我可以使用ALTER TABLE my table DROP COLUMN my column 但是如果my column不存在是否有替代语法来有条件地删除列我使用的
Android 数据绑定：多次调用自定义绑定适配器时生成的代码中缺少返回语句

我正在使用 android 数据绑定库和 MVVM 架构在 xml 布局中我定义了一个名为 viewModel 类型为 myViewModel 的变量该布局有几个 TextInputEditText 我使用了以下自定义绑定适配器 ma
检查 C++ 中 int 溢出

我正在运行一个 C 程序它在 for 循环中添加数字 int y 0 for int i 0 i
Mac Python“安装步骤失败：运行 postflight 脚本”

我是 Python 开发新手在尝试安装 Aptana Studio 时我似乎搞乱了我的 Python 安装所以我按照这里的卸载 MacPython 说明进行操作http homepages cwi nl jack macpython
对于已知情况是否应该避免尝试捕获

我有一个我知道会发生但非常罕见的案例例如代码每运行一万次这种情况可能会发生一次我可以通过一个简单的方法来检查这种情况if但是这个if会运行很多次没有用另一方面我可以将代码放在 try catch 块中当发生特殊情况时我会执行
使用 str_extract_all 在 R 中运行正则表达式正则表达式尚未实现

我正在尝试使用正则表达式来解析使用正则表达式的文件在 R 中使用正则表达式的大多数解决方案都使用 stringr 包我还没有找到另一种方法或者另一个可以使用的包如果您有其他方法来解决此问题那也是可以接受的我想要完成的是获取几个由

使用 str_extract_all 在 R 中运行正则表达式 正则表达式尚未实现

使用 str_extract_all 在 R 中运行正则表达式 正则表达式尚未实现 的相关文章

随机推荐

热门标签

使用 str_extract_all 在 R 中运行正则表达式正则表达式尚未实现

使用 str_extract_all 在 R 中运行正则表达式正则表达式尚未实现的相关文章