使用 Antlr4 解析任意分隔符

2024-05-07

我尝试在 Antlr4 中创建一个接受正则表达式的语法由任意字符分隔（与 Perl 中的类似）。我怎样才能实现这个目标？

需要明确的是：我的问题不是正则表达式本身（实际上我不在 Antlr 中处理，而是在访问者中处理），而是分隔符。我可以轻松地为词法分析器定义以下规则：

REGEXP: '/' (ESC_SEQ | ~('\\' | '/'))+ '/' ;
fragment ESC_SEQ: '\\' . ;

这将使用正斜杠作为分隔符（就像 Perl 中常用的那样）。但是，我也希望能够将正则表达式编写为m~regexp~（这在 Perl 中也是可能的）。

如果我必须使用正则表达式本身来解决这个问题，我会使用如下的反向引用：

m(.)(.+?)\1

（这是一个“m”，后跟任意字符，后跟表达式，后跟相同的任意字符）。但反向引用在 Antlr4 中似乎不可用。

如果我可以使用成对的括号，即，那就更好了m(regexp) or m{regexp}。但由于可能的括号类型的数量非常小，因此可以通过简单地枚举所有不同的变体来解决这个问题。

Antlr4可以解决这个问题吗？

你可以这样做：

lexer grammar TLexer;

REGEX
 : REGEX_DELIMITER ( {getText().charAt(0) != _input.LA(1)}? REGEX_ATOM )+ {getText().charAt(0) == _input.LA(1)}? .
 | '{' REGEX_ATOM+ '}'
 | '(' REGEX_ATOM+ ')'
 ;

ANY
 : .
 ;

fragment REGEX_DELIMITER
 : [/~@#]
 ;

fragment REGEX_ATOM
 : '\\' .
 | ~[\\]
 ;

如果您运行以下课程：

public class Main {

  public static void main(String[] args) throws Exception {

    TLexer lexer = new TLexer(new ANTLRInputStream("/foo/ /bar\\ ~\\~~ {mu} (bla("));

    for (Token t : lexer.getAllTokens()) {
      System.out.printf("%-20s %s\n", TLexer.VOCABULARY.getSymbolicName(t.getType()), t.getText().replace("\n", "\\n"));
    }
  }
}

您将看到以下输出：

REGEX                /foo/
ANY                   
ANY                  /
ANY                  b
ANY                  a
ANY                  r
ANY                  \
ANY                   
REGEX                ~\~~
ANY                   
REGEX                {mu}
ANY                   
ANY                  (
ANY                  b
ANY                  l
ANY                  a
ANY                  (

The {...}?称为谓词：

Antlr4 中语义谓词的语法 https://stackoverflow.com/questions/12749230/syntax-of-semantic-predicates-in-antlr4
ANTLR4 中的语义谓词？ https://stackoverflow.com/questions/13661754/semantic-predicates-in-antlr4

The ( {getText().charAt(0) != _input.LA(1)}? REGEX_ATOM )+部分告诉词法分析器继续匹配字符，只要字符匹配REGEX_DELIMITER不在字符流前面。和{getText().charAt(0) == _input.LA(1)}? .确保实际上有一个与第一个字符匹配的结束分隔符（这是一个REGEX_DELIMITER，当然）。

使用 ANTLR 4.5.3 进行测试

EDIT

并获得前面的分隔符m+一些可选的工作空间，你可以尝试这样的事情（未经测试！）：

lexer grammar TLexer;

  @lexer::members {
    boolean delimiterAhead(String start) {
      return start.replaceAll("^m[ \t]*", "").charAt(0) == _input.LA(1);
    }
  }

  REGEX
   : '/' ( '\\' . | ~[/\\] )+ '/'
   | 'm' SPACES? REGEX_DELIMITER ( {!delimiterAhead(getText())}? ( '\\' . | ~[\\] ) )+ {delimiterAhead(getText())}? .
   | 'm' SPACES? '{' ( '\\' . | ~'}' )+ '}'
   | 'm' SPACES? '(' ( '\\' . | ~')' )+ ')'
   ;

  ANY
   : .
   ;

  fragment REGEX_DELIMITER
   : [~@#]
   ;

  fragment SPACES
   : [ \t]+
   ;

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

regex

antlr4

使用 Antlr4 解析任意分隔符的相关文章

Mongo 正则表达式用于“不匹配”或反向[重复]

这个问题在这里已经有答案了我的 mongo 文档都包含一个名为templateName 有一些包含该值的文档 a SystemDefaultTemplate b SystemDefaultTemplate c SystemDefaultT
正则表达式匹配 JWT

我没有正则表达式的经验我请求你的帮助我需要一个正则表达式来捕获以下字符串中的 JWT contextJwt eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9 eyJzdWIiOiJIZWxsbyB5b3UiLCJ
RegEx 使用 match() 在 JavaScript 中提取字符串数组

我正在尝试使用string match 在 javascript 中使用正则表达式来提取字符串数组这是一个示例字符串 CREATE TABLE listings listing id INTEGER UNIQUE state TEXT t
如何替换字符串中除第一次出现之外的所有模式

快速问题我的模式是一个 svg 字符串它看起来像l 5 0 l 0 10 l 5 0 l 0 10要与参考进行一些单元测试比较我需要放弃除第一个之外的所有内容l我知道我可以放弃它们并在前面放置一个 l 或者我可以使用子字符串但我想知
匹配可能存在或可能不存在的组

我的正则表达式需要解析一个如下所示的地址 BLOOKKOKATU 20 A 773 00810 HELSINKI SUOMI 1 2 3 4 第一组第二组和第三组将始终存在于地址中第 4 组可能不存在我编写了一个正则表达式来帮助我获得
回退到正则表达式中字符串的开头

是否可以让正则表达式退回到字符串的开头并再次开始匹配这就是我问的原因给定下面的字符串我想捕获子字符串black red blue and green按照该顺序无论主题字符串中出现的顺序如何并且仅当所有子字符串都存在于主题字符串中时
Base 64 编码的有效字符范围

我对以下内容感兴趣是否有一个字符列表never作为 Base 64 编码字符串的一部分出现例如我不确定这种情况是否会发生如果原始输入实际上有作为它的一部分编码会有所不同吗这是我可以发现的 RFC 4648 http www r
在 R 中提取模式/分隔符之间的字符串

我的变量名称格式如下 PP Sample 12 GT or PP Sample 17 GT 我正在尝试使用字符串拆分来 grep 出中间部分即Sample 12 or Sample 17 但是当我这样做时 IDtmp lt sapply
在字符串中每个字母后面添加数字

我有几个具有固定格式的字符串格式为一个字母后跟一个数字例如 A3B1C7D1 但是如果字母后面的数字为 1 则字符串将写为 A3BC7D 我想做的是插入数字 1 然后将字符串转换为A3BC7D to A3B1C7D1 我的示例数据是
找出段落中出现的单词

sentence Alice was not a bit hurt and she jumped up on to her feet in a moment words Alice jumped played 我可以使用filterpyth
只有一组多次捕获

String 50 60 70 50 1 7 9 51 5 9 10 Want 9 51 Tried G K d Result 1 7 9 51 看来您正在使用 PCRE 正则表达式来获取可以在内部数学运算符前面添加的数字没有内在的 Us
在 p 标签中换行/换行

我有多个文本文件需要使用正则表达式将每个段落包装在 p 标记中即之前 Paragraph 1 Paragraph 2 Paragraph 3 After p Paragraph 1 p p Paragraph 2 p p Paragra
如何匹配与 Perl 中的特定模式不匹配的字符串？

我知道使用正则表达式很容易匹配除给定字符之外的任何内容 text ab ac ad text s c g Match anything except c text is now c 我不知道如何排除字符串而不是字符我如何匹配除 ac
正则表达式：如何获取组名称

我有一个 NET 正则表达式它看起来类似于
正则表达式挑选括号之间的一些文本[重复]

这个问题在这里已经有答案了可能的重复提取 R 中所有括号内的信息正则表达式 https stackoverflow com questions 8613237 extract info inside all parenthesis i
由表达式文字生成的正则表达式是否共享单个实例？

以下代码片段来自 Crockford 的Javascript 好的部分演示了由正则表达式文字创建的 RegExp 对象共享单个实例 function make a matcher return a gi var x make a mat
PostgreSQL & regexp_split_to_array + 取消嵌套

我有这样的绳子测试1 纽约 X 测试 2 芝加哥 Y 测试 3 宾夕法尼亚州哈里斯堡 Z 我需要的结果是 Column1 Column 2 Column3 Test 1 new york X Test 2 chicago Y Test 3
如何为所有语言创建字母数字正则表达式？

我今天遇到了这个问题此正则表达式仅匹配英语 a zA Z0 9 如果我需要支持这个世界上的任何语言我应该编写什么正则表达式如果您使用字符类简写和 Unicode 识别正则表达式引擎您就可以做到这一点这 wclass 匹配单词字符
正则表达式：括号表达式中的双反斜杠

以下表达式中的双反斜杠匹配什么它是一个过滤器吗 and 转义反斜杠或 and 未转义或 and 逃避问号这是正则表达式的链接以及一些示例测试字符串如在Rubular http rubular com r Jrw1G4YLtT Th
如何使用 Regex.Replace 从字符串中删除数字？

我需要使用Regex Replace从字符串中删除所有数字和符号输入示例 123 abcd33输出示例 abcd 请尝试以下操作 var output Regex Replace input d string Empty The d标识符

随机推荐

在 Spark Dataframe 中提取数组索引

我有一个带有数组类型列的数据框例如 val df List a Array 1d 2d 3d b Array 4d 5d 6d toDF ID DATA df org apache spark sql DataFrame ID strin
是否可以静默运行 .NET Core 控制台应用程序（隐藏控制台窗口）？

我正在尝试为自己自动化一些任务并且编写了一些 NET Core 1 0 控制台应用程序其中之一是 BrowserRouter 一个简单的应用程序它基于 URL 模式决定当我单击 HTTP S 链接时要打开哪个浏览器浏览器配置文件
访问 Linux 线程（pthreads）的本地堆栈

我目前正在实现一个使用多线程但对总内存消耗有要求的应用程序我希望有一个主线程执行 I O 并有几个工作线程执行计算目前我在主堆栈上有几个可供工作人员访问的数据结构我使用 OpenMP 进行工作分配由于主工作者模式不能很好地与 O
cmake MSYS Makefiles 生成器丢失

我通过 pacman 安装了 cmake 3 2 3 当我尝试从 msys64 shell 中使用它时出现错误 cmake G MSYS Makefiles CMake Error Could not create named genera
Winform 没有.NET 框架？

我必须创建一些表单并将其作为直接 EXE 提供而不是安装程序它安装 NET 框架最终用户对此不满意他们想要可以直接打开和工作的东西我知道它可以作为网络完成但我正在寻找 winforms 吗请建议哪种工具技术可以处理这个问题
不使用 razor viewengine 进行 Nancy 本地化

目前我在 Nancy 使用 razor 作为我的视图引擎我可以在剃刀中像这样访问我的资源文件 Text text greeting 但我想切换到不同的视图引擎是否有其他支持 TextResource 的视图引擎在超级简单的视图引擎中本
将“密码”类型添加到 Google Apps 脚本输入框

是否可以将密码类型分配给 Google Apps 脚本输入框以便不显示文本以下工作正常但输入字段是一个简单的文本框并显示文本而不是 Browser inputBox Please enter your password 我有一个
将现有项目文件夹添加到 eclipse 中的项目资源管理器

这里可能是一个非常直接的解决方案但似乎找不到答案我最近将 Eclipse 工作区更改为我的 dropbox 文件夹这样我在大学时可以在上网本上工作在家时可以在桌面上工作我将所有项目文件夹从旧工作区复制并粘贴到 dropbox 工作
什么时候应该使用 ThrowHelper 方法而不是直接抛出？

什么时候适合使用投掷助手方法而不是直接抛出 void MyMethod throw new ArgumentNullException paramName ThrowArgumentNullException paramName void
这个角色是什么？ ➡️0080➡0099

这个字符是什么 u0080 u0099 这应该是撇号或单引号我如何将它使用 Ruby 转换为简单的单引号或者在网页中将其作为单引号正确显示 Thanks 这是一个印刷正确的撇号更准确地说是右单引号 U 2019 经过一些错误的字符代
CORS 与 Amazon S3 和 Cloudfront

我有一个托管在 Heroku 上的 Rails 应用程序它使用 CloudFront 以及托管在 S3 上的资产它完美地显示了资产尽管需要一些努力我的 Cloudfront 设置 Forward Headers Whitelist
为什么 C# 中没有“fieldof”或“methodof”运算符？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案它们可以如下使用 FieldInfo field fieldof string Empty MethodInfo method1 methodo
Spark 按列重新分区，每列动态分区数

如何根据列中的项目数对 DataFrame 进行分区假设我们有一个包含 100 人的 DataFrame 列是first name and country 我们希望为一个国家地区的每 10 个人创建一个分区如果我们的数据集包含 80
Android快速查找网络上所有本地设备

我正在制作一个 Android 应用程序需要能够查看本地网络设备名称或 IP 目前我可以扫描网络并找到设备的本地IP 然而由于时间太长用户在搜索网络时会看到黑屏加载几分钟这是我当前正在使用的代码 private ArrayList
WCF - 进行多次调用时随机客户端超时

我有一个WPF客户端通过以下方式请求数据WCF服务托管于IIS 7 服务方法调用存储过程 SQL 2012 using EF检索一些数据由于需要加载大量数据因此客户端会多次调用服务方法以分解数据加载并避免大量负载和超时我们使用生
为什么recycleview数据无法与服务器端数据库数据同步

我正在使用rest api向我在android中的应用程序提供数据对于数据库我正在使用phpmyadmin并在本地主机中执行此操作一切顺利但是当我在数据库中添加新数据时我的recycleview无法与数据库中的最新数据同步因此当
Android 上的 Skobbler 地图显示黑屏

我正在使用 Skobbler SDK 2 3 0 针对 Lollipop 在 Nexus 5 和 Galaxy S4 上进行测试在 Android Studio 1 0 2 上构建我有一个带有导航抽屉和片段的 MainActivity
Zend url：获取参数始终保留在 url 中

我在使用带有 get 参数的 Zend url 帮助器时遇到一些问题在一个视图中我有分页它在 get 中发送额外的参数所以在 url 中所以没关系但这是不行的即使我更改页面参数也始终保留在 url 中事实上 zend ur
将 xml 传递给 jquery 脚本时出现问题

我正在尝试使用 jsp 中的 bufferedReader 从本地路径读取 xml 并尝试将 xml 传递给 jquery 脚本如下所示
使用 Antlr4 解析任意分隔符

我尝试在 Antlr4 中创建一个接受正则表达式的语法由任意字符分隔与 Perl 中的类似我怎样才能实现这个目标需要明确的是我的问题不是正则表达式本身实际上我不在 Antlr 中处理而是在访问者中处理而是分隔符我可以轻松地为

使用 Antlr4 解析任意分隔符

EDIT

使用 Antlr4 解析任意分隔符 的相关文章

随机推荐

热门标签

使用 Antlr4 解析任意分隔符的相关文章