如何使用 Java 的 Scanner 类和正则表达式对输入进行标记？

2023-11-23

出于我自己的目的，我尝试在 Java 中构建一个分词器，我可以在其中定义常规语法并让它基于该语法对输入进行分词。 StringTokenizer 类已被弃用，我在 Scanner 中发现了几个函数暗示我想要做什么，但还没有运气。有人知道解决这个问题的好方法吗？

“Scanner”这个名字有点误导，因为这个词经常被用来表示词法分析器，而这并不是 Scanner 的用途。所有这一切都只是替代品scanf()你在 C、Perl 中找到的函数，et al。像 StringTokenizer 和split()，它被设计为向前扫描，直到找到给定模式的匹配项，并且在途中跳过的任何内容都会作为令牌返回。

另一方面，词法分析器必须检查和分类每个字符，即使只是决定是否可以安全地忽略它们。这意味着，每次匹配后，它可能会应用多种模式，直到找到匹配的模式从那时开始。否则，它可能会找到序列“//”，并认为它找到了注释的开头，而实际上它位于字符串文字内，并且它只是没有注意到左引号。

当然，它实际上比这复杂得多，但我只是说明为什么像 StringTokenizer 这样的内置工具，split()和扫描仪不适合此类任务。然而，可以使用 Java 的正则表达式类进行有限形式的词法分析。事实上，添加 Scanner 类使其变得更加容易，因为添加了新的 Matcher API 来支持它，即区域和usePattern()方法。下面是一个基于 Java 正则表达式类构建的基本扫描器的示例。

import java.util.*;
import java.util.regex.*;

public class RETokenizer
{
  static List<Token> tokenize(String source, List<Rule> rules)
  {
    List<Token> tokens = new ArrayList<Token>();
    int pos = 0;
    final int end = source.length();
    Matcher m = Pattern.compile("dummy").matcher(source);
    m.useTransparentBounds(true).useAnchoringBounds(false);
    while (pos < end)
    {
      m.region(pos, end);
      for (Rule r : rules)
      {
        if (m.usePattern(r.pattern).lookingAt())
        {
          tokens.add(new Token(r.name, m.start(), m.end()));
          pos = m.end();
          break;
        }
      }
      pos++;  // bump-along, in case no rule matched
    }
    return tokens;
  }

  static class Rule
  {
    final String name;
    final Pattern pattern;

    Rule(String name, String regex)
    {
      this.name = name;
      pattern = Pattern.compile(regex);
    }
  }

  static class Token
  {
    final String name;
    final int startPos;
    final int endPos;

    Token(String name, int startPos, int endPos)
    {
      this.name = name;
      this.startPos = startPos;
      this.endPos = endPos;
    }

    @Override
    public String toString()
    {
      return String.format("Token [%2d, %2d, %s]", startPos, endPos, name);
    }
  }

  public static void main(String[] args) throws Exception
  {
    List<Rule> rules = new ArrayList<Rule>();
    rules.add(new Rule("WORD", "[A-Za-z]+"));
    rules.add(new Rule("QUOTED", "\"[^\"]*+\""));
    rules.add(new Rule("COMMENT", "//.*"));
    rules.add(new Rule("WHITESPACE", "\\s+"));

    String str = "foo //in \"comment\"\nbar \"no //comment\" end";
    List<Token> result = RETokenizer.tokenize(str, rules);
    for (Token t : result)
    {
      System.out.println(t);
    }
  }
}

顺便说一句，这是我发现的唯一好的用途lookingAt()方法。：D

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 Java 的 Scanner 类和正则表达式对输入进行标记？的相关文章

获取字符串中的最后一个整数

我需要隔离包含多个整数的字符串中最新出现的整数我怎样才能得到23代替1 for lastnum1 text 1 out of 23 lastnum1 this gt getEval eregi replace out of text 你可
来自数据库的 jfreechart 散点图

如何使用java中的jfreechart绘制mysql数据库表中数据的散点图我使用过 Swing 库任何链接都会有帮助我搜索了谷歌但找不到理解的解决方案如果您有代码请提供给我实际上我确实做了条形图并使用 jfreechart 绘
如何在 JSP 中导入类？

我是一个完全的JSP初学者我正在尝试使用java util List在 JSP 页面中我需要做什么才能使用除以下类之外的类java lang 使用以下导入语句进行导入java util List 顺便说一句要导入多个类请使用以下格式
Java套接字：在连接被拒绝异常时重试的最佳方法？

现在我正在这样做 while true try SocketAddress sockaddr new InetSocketAddress ivDestIP ivDestPort downloadSock new Socket downloa
在 HTTP 标头中发送 UTF-8 值会导致 Mojibake

我想使用 servlet 发送阿拉伯语数据HTTPServletResponse给客户我正在尝试这个 response setCharacterEncoding UTF 8 response setHeader Info arabicWo
主线程如何在该线程之前运行？

我有以下代码 public class Derived implements Runnable private int num public synchronized void setA int num try Thread sleep 1
记录骆驼路线

我的项目中有几个 Camel 上下文如果可能的话我想以逆向工程方式记录路线因为我们希望保持与上下文相关的文档最新最好的方法是什么我们倾向于预先实际设计路线并使用来自EIP book http www eaipatterns co
在java中实现你自己的阻塞队列

我知道这个问题之前已经被问过并回答过很多次了但我只是无法根据互联网上找到的示例找出窍门例如this http tutorials jenkov com java concurrency blocking queues html or t
具有共享依赖项的多模块项目的 Gradle 配置

使用 gradle 制作第一个项目所以我研究了 spring gradle hibernate 项目如何组织 gradle 文件并开始制作自己的项目但是找不到错误为什么我的配置不起作用子项目无法解决依赖关系所以项目树 Root
将表值参数与 SQL Server JDBC 结合使用

任何人都可以提供一些有关如何将表值参数 TVP 与 SQL Server JDBC 一起使用的指导吗我使用的是微软提供的6 0版本的SQL Server驱动程序我已经查看了官方文档 https msdn microsoft com en
检测两个正则表达式是否可能匹配相同的字符串[重复]

这个问题在这里已经有答案了给定两个正则表达式是否可以检测是否存在与它们都匹配的可能字符串例如给定正则表达式A and 我可以看到那个字符串 A 匹配他们两个这是一个简单的案例我的问题是针对更广泛的情况给定任何两个有效的正则表达
RSA OAEP、Golang 加密、Java 解密 -BadPaddingException：解密错误

我正在尝试解密使用 RSA OAEP 在 Golang 中加密的字符串但出现 BadPaddingException 解密错误很难弄清楚我错过了什么这是Golang加密方法 func encryptString rootPEM io
Git 无法识别重命名和修改的包文件

我有一个名为的java文件package old myfile java 我已经通过 git 提交了这个文件然后我将我的包重命名为new所以我的文件在package new myfile java 我现在想将此文件重命名和内容更改提交
计算日期之间的天数差异

在我的代码中日期之间的差异是错误的因为它应该是 38 天而不是 8 天我该如何修复 package random04diferencadata import java text ParseException import java t
逃离的正确方法是什么？使用 Oracle 12c MATCH_RECOGNIZE 时 JDBCPreparedStatement 中的字符？

以下查询在 Oracle 12c 中是正确的 SELECT FROM dual MATCH RECOGNIZE MEASURES a dummy AS dummy PATTERN a DEFINE a AS 1 1 但它不能通过 JDBC
JSON 到 hashmap (杰克逊)

我想将 JSON 转换为 HashMapJackson http jackson codehaus org 这是我的 JSON String json Opleidingen name Bijz trajecten zorg en welz
使用正则表达式查找并替换（批处理.BAT）

我想在多个文本文件中进行查找替换如何使用 BAT 实现自动化我还需要正则表达式示例查找
如何在 gulp.src 中使用基本正则表达式？

我正在尝试选择两个文件gulp src highcharts js and highcharts src js 当然我知道我可以使用数组表达式显式添加这两个表达式但出于学习目的我尝试为它们编写一个表达式我读过可以使用简单的正则表达式
JAXB - 列表<可序列化>？

我使用 xjc 制作了一些课程 public class MyType XmlElementRefs XmlElementRef name MyInnerType type JAXBElement class required false
Android 和 Java 中绘制椭圆的区别

在Java中由于某种原因Ellipse2D Double使用参数 height width x y 当我创建一个RectF在Android中参数是 left top right bottom 所以我对适应差异有点困惑如果在 Java 中创

随机推荐

在测试中实例化多个 Spring Boot 应用程序

我有几个 Spring Boot 应用程序实例它们同时对数据库进行一些工作每个实例都在单独的 JVM 中运行这是一种用 Java 编写测试以在一个 JVM 上进行测试的方法吗就像下面这样设置一些嵌入式数据库用于测试目的甚至只是模
为什么在 AngularJS 中使用 $onInit？ [复制]

这个问题在这里已经有答案了在 AngularJS 中 onInit函数是否可以在没有该函数的情况下进行相同的初始化例如这个 module component myComponent controller function const c
理解和可视化递归

我在这里提到了几个有关递归的问题但我无法理解递归如何解决这个特定问题 Python中获取字符串中所有字符组合的递归程序 st def combi prefix s if len s 0 return else st append pref
是否可以在 Twitter Bootstrap 中的模态中使用“行”和“跨度”？

我正在尝试使用 Twitter Bootstrap 中的模式来实现联系表单理想情况下我希望前两个字段集彼此相邻对齐第三个字段集包含文本区域和提交按钮占据模式的整个宽度我尝试使用行和跨度来使它们很好地发挥作用但不确定如何进行此操
是否应该在第二个 lambda 中重用 LINQ lambda 表达式参数？

下列的这个问题我想知道lambda参数表达式实例的重用应该被认为是好还是坏我有时会得到一个完整的 LINQ 表达式树其中相同的 lambda 参数实例在第二个非嵌套 lambda 中正确使用 class Person public in
PHP 中 mb_detect_order() 的奇怪行为

我想检测一些文本的编码使用 PHP 为此我使用 mb detect encoding 函数问题是如果我使用 mb detect order 函数更改可能编码的顺序该函数会返回不同的结果考虑下面的例子 html lt lt lt
Chrome 扩展：下载/导出“即时”创建的内容

我需要让用户下载从扩展中包含的某些数据动态创建的文件但我不想在服务器端执行此操作作为一个现实世界的例子有一个变量包含文本 hello world 我希望用户能够下载创建 TXT包含此类文本的文件是否可以 2010年10月30日编辑
无法安装node-sass

我正在尝试安装node sass 但它不让我安装我尝试过更新npm 我把这个放进去 sudo npm install g 节点 sass 我得到了这个从错误之前的一行开始 gyp verb build dir attempting to
无法使用 Sheets API 访问公共工作表

一年多以来我一直在网页上使用 Google Sheets APIv4 来显示公开共享的 Google 电子表格中的数据尽管我们这边没有任何改变但 Sheets API 现在返回 403 权限被拒绝错误我尝试访问的工作表是我拥有的工作
Lucene：如何获取文档的分数

我想输出文档的分数我为此编写的代码是 IndexReader reader IndexReader open FSDirectory open indexDir IndexSearcher searcher new IndexSearch
Github远程推送包大小超出

我是 Git 新手有一个相当大的项目我想将其推送到 Github 上的远程存储库存储库 B 原始项目也在 Github 上但来自不同的存储库存储库 A 我必须先对 Repo A 中的文件进行一些更改然后才能在 Repo B 上设
如何连接到 AVD

我正在尝试编写自己的 Android http 服务器没问题但我的 AVD 有问题我不想每次想要测试更改时都将应用程序下载到手机上我想通过 AVD 连接到我的应用程序为了获取IP地址我使用这个函数 private String
继承字典的序列化类不是序列化属性

我有一个继承自 Dictionary 的类并且有几个属性当我序列化时它仅序列化字典而不序列化属性如果我有一个包含属性的有效负载它会反序列化为它们如何让它序列化我的对象包括属性 public class Maintenance
使用时钟滴答作为随机数种子

我使用当前时钟滴答作为随机数生成的种子随机数用于伪 GUID 并且在我的数据库中进行检查将确保它在返回之前不存在平均而言在进程的生命周期内该方法将被连续调用大约 10k 次我担心的是可能会连续生成相同的号码从而导致对我的数据库
如何获取 clojure 数组映射来维护 assoc 之后的插入顺序？

我有一个array map我就是assoc将一些值写入其中达到一定大小后返回值是PersistentHashMap而不是原来的PersistentArrayMap 我在一些网站上读到过有关此行为的信息有没有办法强制插入顺序即使在ass
在 JavaScript 变量名中使用冒号（例如 a:b:c）

我刚刚注意到我可以在 javascript 中执行以下操作 a b c d happy days a b c function text alert text 然而我却做不到 var a b c d happy days or var my
virtualenv v16.7.2 powershell 激活脚本：“您必须‘来源’此脚本：PS> . .\ENV\Scripts\activate”错误

问题 python v 3 7 4 上的最新版本 virtualenv 16 7 2 为 activate ps1 脚本添加了 4 行在 Windows10 powerhsell 上运行时会出现错误 You must source thi
在Django中如何获取文件上传后的绝对路径？

我想将文件上传到我的数据库上传后导入它并最终将数据导出到我的数据库中我的上传工作正常但我不确定如何在上传文件后获取文件的绝对路径我可以打印出文档的名称但如果上传相同的文档名称则会附加该名称但如果我调用仍然显示原始文件名for
Zeppelin - 无法使用 %sql 查询我在 pyspark 注册的表

我是 Spark zeppelin 的新手我想完成一个简单的练习其中我将把 csv 文件从 pandas 转换为 Spark 数据框架然后注册该表以使用 sql 查询它并使用 Zeppelin 对其进行可视化但我似乎在最后一步失败了
如何使用 Java 的 Scanner 类和正则表达式对输入进行标记？

出于我自己的目的我尝试在 Java 中构建一个分词器我可以在其中定义常规语法并让它基于该语法对输入进行分词 StringTokenizer 类已被弃用我在 Scanner 中发现了几个函数暗示我想要做什么但还没有运气有人知道解决这

如何使用 Java 的 Scanner 类和正则表达式对输入进行标记？

如何使用 Java 的 Scanner 类和正则表达式对输入进行标记？ 的相关文章

随机推荐

热门标签

如何使用 Java 的 Scanner 类和正则表达式对输入进行标记？的相关文章