regexp_extract适用于多种模式吗？-Spark sql

2024-04-19

模式 1：由 | 分隔

Input : a|b|c|d     
Output: a|b|c|d

当用单个管道分隔时选择所有内容

模式 2：由 | 分隔和||
示例1：

Input :a|b||c||d       
Output:a|b||c

选择最后一个双管之前的所有内容

示例2：

Input :a|b||c|d     
Output:a|b

模式3：字符串的开头可以有多个管道（奇数或偶数），并进一步由 | 分隔和||

Input :|||a|b||c||d     
Output:|||a|b||c

选择最后一个双管之前的所有内容，字符串的开头可能有奇数或偶数管道，必须选择它们。

如果不能在一个 regexp_extract 中完成。您可以建议其他选项吗？

请指教。

使用以下正则表达式：

^(\|*(?:(?!\|\|(?!.*\|\|)).)*)

See the 正则表达式演示 https://regex101.com/r/EolcHu/1/显示所有比赛

这是一个相当复杂的要求，需要使用淬炼的贪婪令牌 https://stackoverflow.com/a/37343088/15070697与 Tempering 模式中的 Negative Lookahead 一起使用。让我解释一下以下逻辑：

Logics

^仅从字符串的开头匹配
(...)之后将整个图案括起来^使其成为一个捕获组
\|*对于模式3的要求，匹配倍数|一开始，尽可能多（因此使用贪婪*)
(?:(?!...).)*这是 Tempered Greedy Token 的主要构造（骨架），我将在下面解释其详细信息：
\|\|(?!.*\|\|)这是贪婪淬炼令的主体（核心）。第一部分之前(是为了确保字符匹配但不包括模式||第二部分(?!.*\|\|)是为了确保||第一部分中的模式后面没有任何其他双管||根据要求，在之后的某个地方。

事实上，我认为这个问题很有趣，需要 RegEx 的复杂功能来支持它。这也是我迄今为止看到的第一个需要在 Tempered Greedy Token 构造中使用 Negative Lookahead 的示例。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

regex

extract

regexp_extract适用于多种模式吗？-Spark sql 的相关文章

Perl 的 grep 函数如何与正则表达式一起使用？

以下 grep 函数如何工作什么作用 0o1Iil do chars grep 0o1Iil 0 9 A Z a z use Data Dumper print Dumper chars 在 chars中生成以下内容 VAR1 0 VAR
Python正则表达式替换除特定单词之外的所有内容

我正在尝试执行以下操作用正则表达式 import re x re compile going you words to replace s I am going home now thank you string to modify pri
YouTube 频道 URL 的正则表达式

如何使用 REGEX 验证 YouTube 频道 URL 我发现了这个模式但它不能正常工作 http https www youtube com channel user a zA Z0 9 1 谁能帮我你的问题是之后的额外管道user
Python 正则表达式从文本中提取域

我有以下正则表达式 r a zA Z0 9 a zA Z0 9 61 a zA Z0 9 a zA Z 2 6 当我将其应用于文本字符串时比方说这是 www website1 com 这是 website2 com 我得到 www we
正则表达式：如何表达没有下划线的 \w

有没有简洁的表达方式 w but without 即 w 中包含的所有字符除了我问这个是因为我正在寻找最简洁的方式来表达域名验证域名可以包含小写和大写字母数字句号和破折号但不能包含下划线 w 包括以上所有内容加上下划线那么
每第 n 个字符分割一个字符串

在 JavaScript 中这就是我们如何在每 3 个字符处分割一个字符串 foobarspam match 1 3 g 我正在尝试弄清楚如何在 Java 中做到这一点有什么指点吗你可以这样做 String s 1234567890
正则表达式：仅匹配括号外（以便文本不会在括号内拆分）？

我有一个目标字符串如下所示 foo foo foofoo bar foobar foo bar barbar foo bar foo 而且我要 foo foo foofoo bar foobar foo bar barbar foo ba
如果列表中的某个字符位于该字符之前，请选择该字符

我有这个正则表达式 a z s gmi 该正则表达式选择从我的文字中 sme a eliezovce 2015 Spolo ne pre Eur pu Osl vili aj 940 但我只想选择没有如果列表中的某些字符 a z 之前
如何在正则表达式中区分数字和ip地址？

例如如果我们查看 5 56 和 183 55 0 144 基本上当你做这样的事情时 d d 它匹配 5 56 189 55 和 0 144 有没有办法通过正则表达式仅匹配数字而不匹配 ip 地址的部分我尝试使用前瞻但我不知道它应该是
如何使用正则表达式解析 OCC 选项符号？

OCC 选项符号由 4 部分组成标的股票或 ETF 的根代码用空格填充至 6 个字符到期日期 6 位数字格式为 yymmdd 期权类型 P 或 C 用于看跌或看涨期权执行价格为价格 x 1000 前面填充 0 至 8 位数字举
如何从多边形数据中提取栅格值然后加入到空间数据框中？

我想将多边形数据和栅格数据合并到一个数据框中以便随后在 R 中使用 randomForests 包这涉及首先提取每个多边形的平均栅格值到目前为止我有以下内容 load libraries library raster library
如何使用 preg_replace 实现带条件的模板

我正在尝试实现一个管理界面经理可以在其中创建网站元标记形成的高级规则我有一个函数它采用模板并用 registry 中的值替换其中的占位符并在需要时应用修饰符 registy array profession name gt acto
Apache mod_rewrite 将双斜杠转换为单斜杠

我有一个像这样的网址 http example com img php url http example2 com path to image name jpg 所以我通过这个问题创建了一条规则Apache mod rewrite 复杂 U
JavaScript 正则表达式两个标签之间的多行文本

我编写了一个正则表达式来从 HTML 中获取字符串但似乎多行标志不起作用这是我的模式我想将文本输入h1 tag var pattern div class box content 5 h1 lt lt h1 gt mi m html
如何使用 PHP 查找字符串中字符的序列模式？

假设我有随机的文本块 EAMoAAQAABwEBAAAAAAAAAAAAAAABAgMFBgcIBAkBAQABBQEBAAAAAAAAAAAAAAAGAgMEBQcBCBAAAQMDAgMEBQcIBQgGCwEAAQACAxEEBSEG
多行 C# 正则表达式在空行后匹配

我正在寻找一个多行正则表达式它将匹配空行后出现的情况例如给定下面的示例电子邮件我想匹配发件人 Alex From s 可以匹配任何 From 行但我希望它仅限于正文中的行第一个空白行之后的任何行 Received from a
Kate 文本编辑器正则表达式用于在 PC 上更改 CNC 代码

使用某些CAM软件时通常会正确生成带有空格的CNC代码但例如当通过 USB 或网络移动到 Citizen Cincom L20 机器并在那里进行编辑时它会丢失空格也会丢失分号同时保留新行无论如何这些行都可以作为分号使用但是
需要 RegEx 返回第一段或前 n 个单词

我正在寻找一个正则表达式来返回段落中的前 n 个单词或者如果该段落包含少于 n 个单词则返回完整的段落例如假设我最多需要前 7 个单词 p one two p
bash 支持字边界正则表达式吗？

我试图在再次添加该单词之前匹配列表中是否存在该单词以避免重复我正在使用 bash 4 2 24 并尝试以下操作 foo bmyword b also foo
正则表达式替换混合数字+字符串

我想删除所有包含数字的单词示例 LW23 London W98 String 从上面的字符串中我唯一想保留的是 London String 这可以用正则表达式来完成吗我目前正在使用 Python 但 PHP 代码也很好 Thanks E

随机推荐

Socket ReceiveAsync 合并数据包

我打算通过套接字接收数据包但由于它们是从发送方以高频率发送的因此其中许多数据包被打包成一个byte array SocketAsyncEventArgs Buffer然后保存多个数据包即使它们是单独发送的使用验证wireshark
TypeScript + React：强制该组件返回另一种类型的组件

假设您有一个名为的通用组件
将参数传递给注册策略

我正在注册策略的帮助下使用社交身份提供商创建 B2C 用户但我们需要向这个新用户添加一些用户属性扩展属性例如为用户设置 AccountId 如果我添加 AccountId 作为注册属性并输入一些值它工作正常当我通过图形 API 检
如何增加R中ggplot2的geom_smooth中的评估点数

我正在创建一个绘图并为其添加基本的黄土平滑线 qplot Age GTS2004 X d18O data deepsea geom c point geom smooth method loess se T span 0 01 alpha
javafx大图像崩溃

JavaFX 新手此示例适用于小图像但是大图像会使 ImageView 崩溃我的示例代码有缺陷吗 JavaFX 中的大图像有问题吗还有别的事吗我从网上抓了一个例子 http www java2s com Code Java Jav
MySQL 服务器无法在 Raspberry Pi 上启动 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在使用运行 Debian Linux 的 Raspberry Pi 我正在尝试安装 MySQL 服务器并运行它这是我所做的 sudo
htaccess 阻止访问 .php 并仅允许使用 RewriteRule

我有一个带有这些重写规则的 htaccess 文件 RewriteEngine On RewriteRule login login php L RewriteRule index index php L RewriteRule page
如何在 numpy 数组中绘制线条？

我希望能够将线条绘制到 numpy 数组中以获得用于在线手写识别的离线功能这意味着我根本不需要图像但我需要 numpy 数组中的某些位置给定大小的图像看起来像这些位置我希望能够指定图像大小然后绘制如下笔画 import modu
在另一个 while 循环内的 while 循环内执行 mysqli 准备好的语句

我正在努力实现以下目标 User 1 Alert 1 Email Alert 2 Email User 2 Alert 1 Email Alert 2 Email 我试图在另一个运行 mysqli 准备好的语句的 while 循环中使用 w
X-Forwarded-For 和 X-Real-IP 标头之间的差异

我使用 Nginx 作为反向代理这些标头有什么区别 proxy set header X Forwarded For proxy add x forwarded for proxy set header X Real IP remote
为什么这个 Spring Boot Web 应用程序不需要 @Repository？

我正在学习 Spring Boot 和 JPA Spring Data Rest H2 数据库并且我找到了一个教程我试图理解它这是一个简单的例子但我不明白一些东西为什么没有必要放 Repository or Component在
使用 gcloud 的凭据助手访问 Google 源存储库会阻止 osxkeychain 工作

In the Google 源代码存储库文档 https cloud google com source repositories docs adding repositories as remotes 它要求你使用git config c
Python中配对列表的随机样本

I have two lists x and y both of length n with xi and yi forming a pair How could I take a random sample of m values fro
Symfony2：检查会话是否存在

有没有办法检查会话是否存在我尝试过这种方法但它总是给我一个太棒了回答 session this gt getRequest gt hasPreviousSession if session return new Response B
无法展开 RemoteView

我尝试创建自定义通知但出现以下异常 FATAL EXCEPTION main android app RemoteServiceException Bad notification posted from package com my a
是否可以禁用 MVC 控制器中一项操作的授权？

我在控制器上有一个授权属性但我想通过一个操作将其关闭我创建了自己的授权过滤器并将匿名添加到角色列表中在我的过滤器中如果 Anonymous 出现在角色列表中我将返回 true 然而它似乎并没有通过登录页面就好像控制器授权抢
将 UTF-16 转换为 UTF-8 并删除 BOM？

我们有一位数据输入人员在 Windows 上使用 UTF 16 编码希望使用 utf 8 并删除 BOM utf 8 转换有效但 BOM 仍然存在我该如何删除这个这就是我目前所拥有的 batch 3 src Users jt src
Angular 2 格式化货币 BRL 格式

我正在尝试使用管道以 PT BR 货币格式格式化商品的价格这是我想做的 div class desc statement price currency BRL true 1 2 2 div 我期望的结果是 33 111 00 现在返回 3
Cartopy：无法绘制具有不确定性的向量场（以及相关问题）

我已经尝试在 Cartopy 中绘制带有不确定性椭圆的矢量场有一段时间了这个想法是如果我有一个位置纬度经度和一个向量例如风速但该向量具有不确定性例如以标准差测量那么我想绘制一个椭圆周围的箭头表示不确定性在格林尼治标准时间
regexp_extract适用于多种模式吗？-Spark sql

模式 1 由分隔 Input a b c d Output a b c d 当用单个管道分隔时选择所有内容模式 2 由分隔和示例1 Input a b c d Output a b c 选择最后一个双管之前的所有内容示例2 Inp

regexp_extract适用于多种模式吗？-Spark sql

Logics

regexp_extract适用于多种模式吗？-Spark sql 的相关文章

随机推荐

热门标签