连续重复二元组的正则表达式

2024-02-05

我的问题是之前这个问题的直接延伸question https://stackoverflow.com/questions/2823016/regular-expression-for-consecutive-duplicate-words关于检测字符串中的连续单词（一元组）。

在上一个问题中，

Not 那个那个相关的

可以通过这个正则表达式检测到：\b(\w+)\s+\1\b

在这里，我想检测连续的二元组（单词对）：

是蓝色的然后然后然后非常明亮

理想情况下，我还想知道如何用单个元素替换检测到的模式（重复），以便最终获得：

是蓝色的，然后非常明亮

（对于这个应用程序，如果重要的话，我正在使用gsub in R)

这里的要点是，在某些情况下，会存在包含较短重复子串的重复子串。因此，为了匹配更长的，你可以使用

(\b.+\b)\1\b

（参见正则表达式演示 https://regex101.com/r/mH9zO2/2）对于那些寻找较短子字符串的人，我会依靠惰性点匹配:

(\b.+?\b)\1\b

See 这个正则表达式演示 https://regex101.com/r/mH9zO2/1。替换字符串将是\1- 对捕获部分的反向引用首先与分组结构匹配(...).

您需要一个 PCRE 正则表达式才能使其工作，因为有记录的问题与匹配多个单词边界gsub https://stat.ethz.ch/R-manual/R-devel/library/base/html/grep.html（所以，添加perl=T争论）。

gsub 和 gregexpr 的 POSIX 1003.2 模式在处理重复的字边界时无法正常工作（例如，pattern = "\b"). Use perl = TRUE对于此类匹配（但对于非 ASCII 输入可能无法按预期工作，因为“单词”的含义取决于系统）。

请注意，如果重复的子字符串可以跨越多行，则可以使用带有 DOTALL 修饰符的 PCRE 正则表达式(?s)在模式的开头（以便.也可以匹配换行符）。

所以，R 代码看起来像

gsub("(?s)(\\b.+\\b)\\1\\b", "\\1", s, perl=T)

gsub("(?s)(\\b.+?\\b)\\1\\b", "\\1", s, perl=T)

See the IDEONE演示 https://ideone.com/SiKl4e:

text <- "are blue and then and then more and then and then more very bright"
gsub("(?s)(\\b.+?\\b)\\1\\b", "\\1", text, perl=T) ## shorter repeated substrings
## [1] "are blue and then more and then more very bright"
gsub("(?s)(\\b.+\\b)\\1\\b", "\\1", text, perl=T) ## longer repeated substrings
## [1] "are blue and then and then more very bright"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

regex

r

gsub

连续重复二元组的正则表达式的相关文章

根据特定行中的值对列重新排序。

我在数据框中有以下数据 aa bb cc 1 3 4 5 2 5 4 3 3 7 8 6 100 33 63 55 我需要根据最后一行中的值对列重新排序这种转变的结果将是 bb cc aa 1 4 5 3 2 4 3 5 3 8 6 7
正则表达式 - 剥离非数字并删除分（如果有）

我目前正在开发一个 PHP 项目需要一些正则表达式的帮助我希望能够获取用户输入的货币值并删除所有非数字和小数位分 Ex 2 000 00 到 2000 2 000 00 美元到 2000 2abc000 到 2000 2 000 到
在 Rlattice xyplot 上分别控制轴刻度和轴线

我怎样才能去除周围的盒子xyplot 同时保留轴刻度刻度线本着爱德华塔夫特 Edward Tufte 极简主义数据图形美学的精神这些轴线是非数据墨水并且可以应该被擦除 library lattice my df lt dat
如何强制在较新版本的 R 上安装较旧的软件包？

我无法安装proj4string进入我当前版本的 R 2 15 1 Warning message package proj4string is not available for R version 2 15 1 我认为这是因为 2 15
“未找到 JAVA 路径。请检查 JAVA 是否已安装。”初始化 RSelenium 时出错

我正在尝试启动一个 RSelenium 会话到 webscrape 但是当运行此代码时 driver lt rsDriver browser c chrome chromever 76 0 3809 126 port 4444L 我收到此
将 12 小时字符时间转换为 24 小时

我有一个包含字符格式时间的数据集我试图将其从 12 小时格式转换为 24 小时格式我做了一些搜索但我发现的所有内容似乎都假设字符已经采用 24 小时格式这是我工作时的一个例子 times lt c 9 06 AM 4 42 PM 3
如何在 R 中“推断”面板数据的值？

我有一个带有 NA 值的面板数据如下所示 uid year month day value 1 1 2016 8 1 NA 2 1 2016 8 2 NA 3 1 2016 8 3 30 4 1 2016 8 4 NA 5 1 2016
从“class”名称中删除/替换不需要的前缀信息

我正进入状态style从后端它带有不需要的前缀我会替换没有前缀的相同内容正确的方法是什么这就是我得到的
R：如何将描述小时、分钟和秒的非直观字符串转换为可行的 POSIXct 格式以执行标准算术？

我在 R 中有一个数据集其值采用小时分钟和秒格式然而有些值只有小时和分钟有些值只有分钟和秒有些值只有分钟有些值只有秒它的格式也不是很有利样本数据如下 example lt as data frame c 22h28m 17
无效的命令名称“tk_chooseDirectory”错误

我使用 bioconductor 进行 WES 管道并使用 tk choose dir 选择用户存储输入文件的目录并将其存储以供进一步使用这里是命令行 library tcltk dataDir lt dirname tk choos
如何使用正则表达式限制小数点之前/之后/小数点以及整体的位数？

我正在尝试检查数值是否具有特定数量的数字总共不应超过 19 位数字小数点前不能超过17位整数部分小数点后不得超过 4 位小数部分可以有小数点也可以没有前面可以有或或没有有效示例 1 1 0 0 1234567890123
R 带有列和行的分面 qqplots

我需要使用按行和列的构面创建 qqplot 我了解如何用列和行绘制分面图但我不确定如何设置我的数据最终我想按列和行对数据集进行分组然后按升序对建模结果和观察到结果进行排序同时添加带有行组的列和带有列组的列我一直在
如何更改 r 中的树状图标签

我在 R 中有一个树形图它基于使用 hclust 的分层聚类我正在对不同颜色的标签进行着色但是当我尝试使用以下命令更改树图的标签集群所基于的数据帧的行时dendrogram dendrogram gt set labels dat
在 R 中使用深度网络和 MNIST 数据读取手写数字第 3 部分

我尝试编写一个基于深度网络的程序来读取手写数字我在 Youtube 上找到了一个代码 https www youtube com watch v 5bso 5X7Zu4 https www youtube com watch v 5bso
data.table 的包装函数

我有一个已经使用 data frame 上下文编写的项目为了缩短计算时间我尝试利用 data table 的速度我的方法是构造包装函数读取帧将它们转换为表进行计算然后转换回帧这是一个简单的例子 FastAgg lt func
根据 R 中的字符串模式选择行

假设我有以下数据 df lt data frame name c TO for Turnover for people HC people Hello world beenie man apple pears TO is number c
正则表达式 - 避免表达式中出现字符串

我正在尝试创建一个应该匹配以下情况的正则表达式如果单词完全匹配 first second third 那么匹配应该失败但如果它周围有任何字符那么应该匹配该字符串我还需要避免字符串中的某些字符集如果这些字符是字符串的一部分则匹配结
优化正则表达式以过滤数千个 HTML 选择选项

背景我开发了一个基于 jQuery 的穿梭小部件 https stackoverflow com a 13557000 59087对于 HTMLselect元素因为我找不到一个经过最低限度编码并提供正则表达式过滤器来补偿的元素变音符号
xpath+ 正则表达式：匹配文本

我正在尝试编写一个 xpath 以便仅返回包含文本和数字的节点我想使用正则表达式并希望这能起作用 td matches text d 谁能帮我理解我在这里做错了什么 tr td 1 td td 10 td td a td tr 你缺少量化
XLConnect 无法确定 JAVA_HOME 错误

感谢您的帮助我正在尝试运行 XLconnect 但收到此错误消息 gt library XLConnect lib loc C Users 1144143929 Documents R win library 2 15 Error onL

随机推荐

Ansible：如何禁用但正在运行的服务？

我想遍历很多主机并获取所有手动启动的服务 systemctl start xxxx 而无需先启用 systemctl enable xxxx 反之亦然所有已禁用 systemctldisable xxxx 但仍在运行的服务因为还没有停止
cookie 和缓存的过期值如何工作？

过期值总是让我感到困惑因为客户端的时间设置可能与服务器的时间设置完全不同我想知道幕后发生了什么假设我的服务器的时区是 GMT 1 客户端的时区是 GMT 2 如果我现在创建一个带有过期值的 cookie current timesta
滑动手势与 ViewPager 一起应用于 Fragment 级别，并且默认禁用滑动

我发现了以下问题 Android FragmentActivity 内的 FragmentActivity NavigationBar 中的 ScrollView https stackoverflow com q 11761454 787
如何配置 JetBrains 产品来调试需要设置上下文值的 CDK TypeScript 应用程序？

我有一个 CDK 应用程序我可以在其中获取上下文值例如 const stage StageType app node tryGetContext stage 我按照 JetBrains 文档使用 ts node 设置运行配置但是上下文
选择角度中的元素在第二次选择时不更新 modelValue

我有一个选择元素绑定到角度视图中的模型当使用键盘填写表单时我注意到如果您将向下箭头指向第二个选项值则模型仍然代表第一个值仅当使用键盘填写表单时才会发生这种情况设置非常简单使用 Angular 1 4 3 var app ang
有没有办法访问 TypeScript 模块中的“导出”对象？

我正在尝试使用 durandal 我需要getModuleId通过通过current模块我的问题是当我使用 TypeScript 时从 AMD 模块返回的底层对象似乎无法通过 Typescript 代码访问 export functi
Android 连续语音识别 - 无间隙

我有一个实施的活动RecognitionListener 为了使其每次都连续onEndOfSpeech 我再次启动监听器 speech startListening recognizerIntent 但是它需要一些时间大约半秒才能开始
Unicode 基本多语言平面对于 CJK 使用者来说足够了吗？

问题仅支持 Unicode BMP 是否足以使中文日文韩文母语人士能够以其母语使用应用程序我现在最关心的是说日语的人但我也对中国人的答案感兴趣如果应用程序仅支持 BMP 上的字符是否会导致该应用程序对于中文日文用户不可用即
如何在prepareForSegue之前调用didSelectRowAtIndexPath？

我正在制作基于 tableview 的 iOS 应用程序这就是我想做的表格视图1 gt 表格视图2 一旦我选择了 tableCell 之一就会显示新的 tableView2 我想在显示新的 tableView 之前突出显示该单元格尽
C++ 静态变量初始化是原子的吗？

迈耶斯辛格尔顿 Meyers Singleton 取决于以下事实局部静态变量初始化是原子的 https stackoverflow com questions 1661529 is meyers implementation of si
将所有 less 文件编译到一个样式表中？

我使用 simples 将项目拖入其中并将所有 less 文件定位到 styles css 问题是编译较少的样式表时只是相互编写而不是合并在一起编译时有没有办法将它们全部合并到 styles css 中您必须创建一个导入子文件的主较少
突出显示在外部模板中不起作用

我是 angularjs 的菜鸟我有一个问题我在我的网站中使用 prism js 或highlights js 相同的结果它可以在 index html 中正常工作但在我使用 ngRoute 加载的其他模板中不起作用我相信问题是
Android：传递结果失败 ResultInfo{who=null, request=1, result=-1, data=Intent

我在 Logcat 中收到意图传递错误并且当我调用此方法时应用程序意外停止 startActivityForResult new Intent Intent ACTION PICK android provider MediaStore
如何在 Git 中将以前的版本恢复为新提交？

首先我以前在这里看到过这个问题的答案但它被太多的答案所掩盖这些答案不能正确回答我的问题以至于我无法再次找到它所以事情就是这样如何在 Git 中恢复到我的历史记录中的先前版本以便它成为我当前历史记录之上的新提交基本上
查找并替换整个项目 intellij 的符号？

In 智能IDEA 是否有一个选项可以按时运行来查找和替换整个项目的符号 EDIT 这里是视觉表现 https youtu be PREdDtOoh1Q 为了更好的理解替换指定路径内所有文件中的一段文本执行以下操作之一在主菜单上选
错误：重载函数的地址没有上下文类型信息

Code class que public que operator int 1 que operator que operator int n que que go go 0 if n gt 0 go que operator 2 go
Unity-如何使材质双面

搜索该问题给出了许多解决方案但由于某种原因它们在我的 Unity3D 5 4 中不起作用喜欢球体内的相机 https stackoverflow com questions 13776151 camera inside a sphere
如何为 64 位函数动态添加 (SEH) 异常处理程序？

假设我有一个函数被注入到另一个 64 位进程中例如使用创建远程线程 https msdn microsoft com en us library windows desktop ms682437 v vs 85 aspx 并且我想实施结
将字符串转换为单元格中的日期

我的 Excel 中有 100 000 行数据有些字段是日期但 Excel 中的字段是文本我需要数字格式的这些字段包括日期和时间例如 21 10 2011 13 10 50 设置单元格格式不起作用因为这不会更改数据类型我可以用
连续重复二元组的正则表达式

我的问题是之前这个问题的直接延伸question https stackoverflow com questions 2823016 regular expression for consecutive duplicate words关于检

连续重复二元组的正则表达式

连续重复二元组的正则表达式 的相关文章

随机推荐

热门标签

连续重复二元组的正则表达式的相关文章