如何使用 Java 的 Scanner 类和正则表达式对输入进行标记?

2023-11-23

出于我自己的目的,我尝试在 Java 中构建一个分词器,我可以在其中定义常规语法并让它基于该语法对输入进行分词。 StringTokenizer 类已被弃用,我在 Scanner 中发现了几个函数暗示我想要做什么,但还没有运气。有人知道解决这个问题的好方法吗?


“Scanner”这个名字有点误导,因为这个词经常被用来表示词法分析器,而这并不是 Scanner 的用途。所有这一切都只是替代品scanf()你在 C、Perl 中找到的函数,et al。像 StringTokenizer 和split(),它被设计为向前扫描,直到找到给定模式的匹配项,并且在途中跳过的任何内容都会作为令牌返回。

另一方面,词法分析器必须检查和分类每个字符,即使只是决定是否可以安全地忽略它们。这意味着,每次匹配后,它可能会应用多种模式,直到找到匹配的模式从那时开始。否则,它可能会找到序列“//”,并认为它找到了注释的开头,而实际上它位于字符串文字内,并且它只是没有注意到左引号。

当然,它实际上比这复杂得多,但我只是说明为什么像 StringTokenizer 这样的内置工具,split()和扫描仪不适合此类任务。然而,可以使用 Java 的正则表达式类进行有限形式的词法分析。事实上,添加 Scanner 类使其变得更加容易,因为添加了新的 Matcher API 来支持它,即区域和usePattern()方法。下面是一个基于 Java 正则表达式类构建的基本扫描器的示例。

import java.util.*;
import java.util.regex.*;

public class RETokenizer
{
  static List<Token> tokenize(String source, List<Rule> rules)
  {
    List<Token> tokens = new ArrayList<Token>();
    int pos = 0;
    final int end = source.length();
    Matcher m = Pattern.compile("dummy").matcher(source);
    m.useTransparentBounds(true).useAnchoringBounds(false);
    while (pos < end)
    {
      m.region(pos, end);
      for (Rule r : rules)
      {
        if (m.usePattern(r.pattern).lookingAt())
        {
          tokens.add(new Token(r.name, m.start(), m.end()));
          pos = m.end();
          break;
        }
      }
      pos++;  // bump-along, in case no rule matched
    }
    return tokens;
  }

  static class Rule
  {
    final String name;
    final Pattern pattern;

    Rule(String name, String regex)
    {
      this.name = name;
      pattern = Pattern.compile(regex);
    }
  }

  static class Token
  {
    final String name;
    final int startPos;
    final int endPos;

    Token(String name, int startPos, int endPos)
    {
      this.name = name;
      this.startPos = startPos;
      this.endPos = endPos;
    }

    @Override
    public String toString()
    {
      return String.format("Token [%2d, %2d, %s]", startPos, endPos, name);
    }
  }

  public static void main(String[] args) throws Exception
  {
    List<Rule> rules = new ArrayList<Rule>();
    rules.add(new Rule("WORD", "[A-Za-z]+"));
    rules.add(new Rule("QUOTED", "\"[^\"]*+\""));
    rules.add(new Rule("COMMENT", "//.*"));
    rules.add(new Rule("WHITESPACE", "\\s+"));

    String str = "foo //in \"comment\"\nbar \"no //comment\" end";
    List<Token> result = RETokenizer.tokenize(str, rules);
    for (Token t : result)
    {
      System.out.println(t);
    }
  }
}

顺便说一句,这是我发现的唯一好的用途lookingAt()方法。 :D

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 Java 的 Scanner 类和正则表达式对输入进行标记? 的相关文章

  • 获取字符串中的最后一个整数

    我需要隔离包含多个整数的字符串中最新出现的整数 我怎样才能得到23代替1 for lastnum1 text 1 out of 23 lastnum1 this gt getEval eregi replace out of text 你可
  • 来自数据库的 jfreechart 散点图

    如何使用java中的jfreechart绘制mysql数据库表中数据的散点图 我使用过 Swing 库 任何链接都会有帮助 我搜索了谷歌但找不到理解的解决方案 如果您有代码 请提供给我 实际上我确实做了条形图并使用 jfreechart 绘
  • 如何在 JSP 中导入类?

    我是一个完全的JSP初学者 我正在尝试使用java util List在 JSP 页面中 我需要做什么才能使用除以下类之外的类java lang 使用以下导入语句进行导入java util List 顺便说一句 要导入多个类 请使用以下格式
  • Java套接字:在连接被拒绝异常时重试的最佳方法?

    现在我正在这样做 while true try SocketAddress sockaddr new InetSocketAddress ivDestIP ivDestPort downloadSock new Socket downloa
  • 在 HTTP 标头中发送 UTF-8 值会导致 Mojibake

    我想使用 servlet 发送阿拉伯语数据HTTPServletResponse给客户 我正在尝试这个 response setCharacterEncoding UTF 8 response setHeader Info arabicWo
  • 主线程如何在该线程之前运行?

    我有以下代码 public class Derived implements Runnable private int num public synchronized void setA int num try Thread sleep 1
  • 记录骆驼路线

    我的项目中有几个 Camel 上下文 如果可能的话 我想以逆向工程方式记录路线 因为我们希望保持与上下文相关的文档最新 最好的方法是什么 我们倾向于预先实际设计路线 并使用来自EIP book http www eaipatterns co
  • 在java中实现你自己的阻塞队列

    我知道这个问题之前已经被问过并回答过很多次了 但我只是无法根据互联网上找到的示例找出窍门 例如this http tutorials jenkov com java concurrency blocking queues html or t
  • 具有共享依赖项的多模块项目的 Gradle 配置

    使用 gradle 制作第一个项目 所以我研究了 spring gradle hibernate 项目如何组织 gradle 文件 并开始制作自己的项目 但是 找不到错误 为什么我的配置不起作用 子项目无法解决依赖关系 所以项目树 Root
  • 将表值参数与 SQL Server JDBC 结合使用

    任何人都可以提供一些有关如何将表值参数 TVP 与 SQL Server JDBC 一起使用的指导吗 我使用的是微软提供的6 0版本的SQL Server驱动程序 我已经查看了官方文档 https msdn microsoft com en
  • 检测两个正则表达式是否可能匹配相同的字符串[重复]

    这个问题在这里已经有答案了 给定两个正则表达式 是否可以检测是否存在与它们都匹配的可能字符串 例如 给定正则表达式A and 我可以看到那个字符串 A 匹配他们两个 这是一个简单的案例 我的问题是针对更广泛的情况 给定任何两个有效的正则表达
  • RSA OAEP、Golang 加密、Java 解密 -BadPaddingException:解密错误

    我正在尝试解密使用 RSA OAEP 在 Golang 中加密的字符串 但出现 BadPaddingException 解密错误 很难弄清楚我错过了什么 这是Golang加密方法 func encryptString rootPEM io
  • Git 无法识别重命名和修改的包文件

    我有一个名为的java文件package old myfile java 我已经通过 git 提交了这个文件 然后我将我的包重命名为new所以我的文件在package new myfile java 我现在想将此文件重命名 和内容更改 提交
  • 计算日期之间的天数差异

    在我的代码中 日期之间的差异是错误的 因为它应该是 38 天而不是 8 天 我该如何修复 package random04diferencadata import java text ParseException import java t
  • 逃离的正确方法是什么?使用 Oracle 12c MATCH_RECOGNIZE 时 JDBCPreparedStatement 中的字符?

    以下查询在 Oracle 12c 中是正确的 SELECT FROM dual MATCH RECOGNIZE MEASURES a dummy AS dummy PATTERN a DEFINE a AS 1 1 但它不能通过 JDBC
  • JSON 到 hashmap (杰克逊)

    我想将 JSON 转换为 HashMapJackson http jackson codehaus org 这是我的 JSON String json Opleidingen name Bijz trajecten zorg en welz
  • 使用正则表达式查找并替换(批处理.BAT)

    我想在多个文本文件中进行查找 替换 如何使用 BAT 实现自动化 我还需要正则表达式 示例 查找
  • 如何在 gulp.src 中使用基本正则表达式?

    我正在尝试选择两个文件gulp src highcharts js and highcharts src js 当然 我知道我可以使用数组表达式显式添加这两个表达式 但出于学习目的 我尝试为它们编写一个表达式 我读过可以使用简单的正则表达式
  • JAXB - 列表<可序列化>?

    我使用 xjc 制作了一些课程 public class MyType XmlElementRefs XmlElementRef name MyInnerType type JAXBElement class required false
  • Android 和 Java 中绘制椭圆的区别

    在Java中由于某种原因Ellipse2D Double使用参数 height width x y 当我创建一个RectF在Android中参数是 left top right bottom 所以我对适应差异有点困惑 如果在 Java 中创

随机推荐

  • 在测试中实例化多个 Spring Boot 应用程序

    我有几个 Spring Boot 应用程序实例 它们同时对数据库进行一些工作 每个实例都在单独的 JVM 中运行 这是一种用 Java 编写测试以在一个 JVM 上进行测试的方法吗 就像下面这样 设置一些嵌入式数据库用于测试目的 甚至只是模
  • 为什么在 AngularJS 中使用 $onInit? [复制]

    这个问题在这里已经有答案了 在 AngularJS 中 onInit函数是否可以在没有该函数的情况下进行相同的初始化 例如这个 module component myComponent controller function const c
  • 理解和可视化递归

    我在这里提到了几个有关递归的问题 但我无法理解递归如何解决这个特定问题 Python中获取字符串中所有字符组合的递归程序 st def combi prefix s if len s 0 return else st append pref
  • 是否可以在 Twitter Bootstrap 中的模态中使用“行”和“跨度”?

    我正在尝试使用 Twitter Bootstrap 中的模式来实现联系表单 理想情况下 我希望前两个字段集彼此相邻对齐 第三个字段集 包含文本区域和提交按钮 占据模式的整个宽度 我尝试使用行和跨度来使它们很好地发挥作用 但不确定如何进行此操
  • 是否应该在第二个 lambda 中重用 LINQ lambda 表达式参数?

    下列的这个问题我想知道lambda参数表达式实例的重用应该被认为是好还是坏 我有时会得到一个完整的 LINQ 表达式树 其中相同的 lambda 参数实例在第二个非嵌套 lambda 中正确使用 class Person public in
  • PHP 中 mb_detect_order() 的奇怪行为

    我想检测一些文本的编码 使用 PHP 为此 我使用 mb detect encoding 函数 问题是 如果我使用 mb detect order 函数更改可能编码的顺序 该函数会返回不同的结果 考虑下面的例子 html lt lt lt
  • Chrome 扩展:下载/导出“即时”创建的内容

    我需要让用户下载从扩展中包含的某些数据动态创建的文件 但我不想在服务器端执行此操作 作为一个现实世界的例子 有一个变量包含文本 hello world 我希望用户能够下载 创建 TXT包含此类文本的文件 是否可以 2010年10月30日编辑
  • 无法安装node-sass

    我正在尝试安装node sass 但它不让我安装 我尝试过更新npm 我把这个放进去 sudo npm install g 节点 sass 我得到了这个 从错误之前的一行开始 gyp verb build dir attempting to
  • 无法使用 Sheets API 访问公共工作表

    一年多以来 我一直在网页上使用 Google Sheets APIv4 来显示公开共享的 Google 电子表格中的数据 尽管我们这边没有任何改变 但 Sheets API 现在返回 403 权限被拒绝错误 我尝试访问的工作表是我拥有的工作
  • Lucene:如何获取文档的分数

    我想输出文档的分数 我为此编写的代码是 IndexReader reader IndexReader open FSDirectory open indexDir IndexSearcher searcher new IndexSearch
  • Github远程推送包大小超出

    我是 Git 新手 有一个相当大的项目 我想将其推送到 Github 上的远程存储库 存储库 B 原始项目也在 Github 上 但来自不同的存储库 存储库 A 我必须先对 Repo A 中的文件进行一些更改 然后才能在 Repo B 上设
  • 如何连接到 AVD

    我正在尝试编写自己的 Android http 服务器 没问题 但我的 AVD 有问题 我不想每次想要测试更改时都将应用程序下载到手机上 我想通过 AVD 连接到我的应用程序 为了获取IP地址 我使用这个函数 private String
  • 继承字典的序列化类不是序列化属性

    我有一个继承自 Dictionary 的类 并且有几个属性 当我序列化时 它仅序列化字典而不序列化属性 如果我有一个包含属性的有效负载 它会反序列化为它们 如何让它序列化我的对象 包括属性 public class Maintenance
  • 使用时钟滴答作为随机数种子

    我使用当前时钟滴答作为随机数生成的种子 随机数用于伪 GUID 并且在我的数据库中进行检查将确保它在返回之前不存在 平均而言 在进程的生命周期内 该方法将被连续调用大约 10k 次 我担心的是 可能会连续生成相同的号码 从而导致对我的数据库
  • 如何获取 clojure 数组映射来维护 assoc 之后的插入顺序?

    我有一个array map我就是assoc将一些值写入其中 达到一定大小后 返回值是PersistentHashMap而不是原来的PersistentArrayMap 我在一些网站上读到过有关此行为的信息 有没有办法强制插入顺序即使在ass
  • 在 JavaScript 变量名中使用冒号(例如 a:b:c)

    我刚刚注意到我可以在 javascript 中执行以下操作 a b c d happy days a b c function text alert text 然而我却做不到 var a b c d happy days or var my
  • virtualenv v16.7.2 powershell 激活脚本:“您必须‘来源’此脚本:PS> . .\ENV\Scripts\activate”错误

    问题 python v 3 7 4 上的最新版本 virtualenv 16 7 2 为 activate ps1 脚本添加了 4 行 在 Windows10 powerhsell 上运行时会出现错误 You must source thi
  • 在Django中如何获取文件上传后的绝对路径?

    我想将文件上传到我的数据库 上传后导入它并最终将数据导出到我的数据库中 我的上传工作正常 但我不确定如何在上传文件后获取文件的绝对路径 我可以打印出文档的名称 但如果上传相同的文档名称 则会附加该名称 但如果我调用 仍然显示原始文件名for
  • Zeppelin - 无法使用 %sql 查询我在 pyspark 注册的表

    我是 Spark zeppelin 的新手 我想完成一个简单的练习 其中我将把 csv 文件从 pandas 转换为 Spark 数据框架 然后注册该表以使用 sql 查询它并使用 Zeppelin 对其进行可视化 但我似乎在最后一步失败了
  • 如何使用 Java 的 Scanner 类和正则表达式对输入进行标记?

    出于我自己的目的 我尝试在 Java 中构建一个分词器 我可以在其中定义常规语法并让它基于该语法对输入进行分词 StringTokenizer 类已被弃用 我在 Scanner 中发现了几个函数暗示我想要做什么 但还没有运气 有人知道解决这