Java String.split() 有时会给出空白字符串

2024-01-12

我正在制作一个基于文本的骰子滚筒。它接受像“2d10+5”这样的字符串，并返回一个字符串作为掷骰的结果。我的问题出现在分词器中，它将字符串分割成有用的部分，以便我解析成信息。

String[] tokens = message.split("(?=[dk\\+\\-])");

这产生了奇怪的、意想不到的结果。我不知道到底是什么原因造成的。这可能是正则表达式、我的误解，或者 Java 就是 Java。这是发生的事情：

3d6+4产生字符串数组[3, d6, +4]。这是对的。
d%产生字符串数组[d%]。这是对的。
d20产生字符串数组[d20]。这是对的。
d%+3产生字符串数组[, d%, +3]。这是不正确的。
d20+2产生字符串数组[, d20, +2]。这是不正确的。

在第四个和第五个示例中，一些奇怪的事情导致数组的前面出现了额外的空字符串。这并不是字符串前面缺少数字，其他例子反驳了这一点。这不是百分号或加号的存在。

现在我只是继续对空白字符串进行 for 循环，但这感觉有点像创可贴解决方案。有谁知道是什么原因导致数组前面出现空白字符串？我该如何修复它？

通过深入研究源代码，我得到了这种行为背后的确切问题。

The String.split()方法内部使用Pattern.split()。 split 方法在返回结果数组之前检查最后一个匹配的索引或是否确实存在匹配。如果最后一个匹配的索引是0，这意味着您的模式仅匹配字符串开头的空字符串或根本不匹配，在这种情况下，返回的数组是包含相同元素的单元素数组。

这是源代码：

public String[] split(CharSequence input, int limit) {
        int index = 0;
        boolean matchLimited = limit > 0;
        ArrayList<String> matchList = new ArrayList<String>();
        Matcher m = matcher(input);

        // Add segments before each match found
        while(m.find()) {
            if (!matchLimited || matchList.size() < limit - 1) {
                String match = input.subSequence(index, m.start()).toString();
                matchList.add(match);

                // Consider this assignment. For a single empty string match
                // m.end() will be 0, and hence index will also be 0
                index = m.end();
            } else if (matchList.size() == limit - 1) { // last one
                String match = input.subSequence(index,
                                                 input.length()).toString();
                matchList.add(match);
                index = m.end();
            }
        }

        // If no match was found, return this
        if (index == 0)
            return new String[] {input.toString()};

        // Rest of them is not required

如果上面代码中的最后一个条件 -index == 0，为 true，则单个元素数组与输入字符串一起返回。

现在，考虑以下情况：index can be 0.

当根本没有匹配的时候。（正如上面的评论中已经提到的那样）
如果在开头找到匹配项，则匹配字符串的长度为0，那么索引中的值if块（在while环形） -
```
index = m.end();
```
将为 0。唯一可能的匹配字符串是空字符串（长度=0）。这里的情况正是如此。而且也不应该有任何进一步的比赛，否则index将更新为不同的索引。

因此，考虑到您的情况：

For d%，在第一个之前只有一个模式匹配d。因此索引值将是0。但由于没有任何进一步的匹配，索引值不会更新，并且if条件变为true，并返回带有原始字符串的单元素数组。
For d20+2将会有两场比赛，一场之前d，以及之前的一个+。因此索引值将被更新，因此ArrayList上面代码中的将会被返回，其中包含由于分隔符（字符串的第一个字符）分割而导致的空字符串，正如 @Stema 的答案中已经解释的那样。

因此，为了获得您想要的行为（仅当分隔符不在开头时才在分隔符上拆分，您可以在正则表达式模式中添加负后视）：

"(?<!^)(?=[dk+-])"  // You don't need to escape + and hyphen(when at the end)

这将在空字符串上分割，后跟您的字符类，但前面不包含字符串的开头。

考虑分割字符串的情况"ad%"在正则表达式模式上 -"a(?=[dk+-])"。这将为您提供一个第一个元素为空字符串的数组。这里唯一的变化是，空字符串被替换为a:

"ad%".split("a(?=[dk+-])");  // Prints - `[, d%]`

为什么？这是因为匹配字符串的长度是1。所以第一次匹配后的索引值 -m.end()不会是0 but 1，因此不会返回单元素数组。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

regex

string

split

Java String.split() 有时会给出空白字符串的相关文章

字符串文字会被编译器优化吗？

C 编译器或 NET CLR 是否对字符串文字常量进行了任何巧妙的内存优化我可以发誓我听说过字符串内化的概念因此在程序中的任何两位代码中文字这是一个字符串实际上会指代同一个对象大概是安全的对于字符串来说是这样的不可变
java 中的梵文 i18n

我正在尝试使用来自互联网的示例 ttf 文件在 java 中使用 i18n 进行梵文印地文我可以加载资源包条目还可以加载 ttf 并设置字体但它不会根据需要呈现 jlabel 它显示块代替字符如果我在 Eclipse 中调试我可
为什么通过方法向 List 添加元素（类型正确）会出现编译错误？ [复制]

这个问题在这里已经有答案了我对泛型通配符概念几乎没有疑问 1 假设我有一个方法 void write List
什么正则表达式永远无法匹配？

Merged https meta stackexchange com questions 158066 what is a merged question with 永远不会与任何内容匹配的正则表达式 questions 1723182
FileObserver 不适用于 Android 6.0 Marshmallow (API 23) 中的外部存储

我有一个应用程序可以观察外部存储上的公共目录FileObserver 它运行良好Lollipop设备我想添加对Marshmallow 所以我用它设置了一台 Nexus 9 平板电脑在 Marshmallow 设备上它失败在 Loll
在拇指上方显示修改后的 JSlider 值

有没有一种简单的方法可以在使用某些外观和感觉的同时更改 JSlider 上方标签中显示的值为了清楚起见我正在谈论这个值具体来说我想显示除以 1000 的值而不是值本身我知道如果我显示它们我可以为刻度设置标签但用户将不得不猜
如何自动转换十六进制代码以将其用作 Java 中的 byte[]？

我这里有很多十六进制代码我想将它们放入 Java 中而不需要向每个实体附加 0x 喜欢 0102FFAB 和我必须执行以下操作 byte test 0x01 0x02 0xFF 0xAB 我有很多很长的十六进制代码有什么办法可以自动做
从 CLI 部署 Maven 项目？

在 IDE 中构建并运行良好 cd home thufir NetBeansProjects HelloMaven JAVA HOME usr lib jvm java 8 openjdk amd64 home thufir local s
打印“X”个字符数与“X”字符串长度的所有可能组合（暴力破解）

我正在尝试编写一个单词组合生成器我的意思是打印 X 个字符数与 X 字符串长度的所有可能组合首先我需要说的是我在 StackOverFlow 中看到了一个关于这个问题的问题其中有很多单词生成器的答案来执行此操作在不同的语言上但
在Java中如何将字节数组转换为十六进制？

我有一个字节数组我希望该数组的每个字节字符串转换为其相应的十六进制值 Java中有没有将字节数组转换为十六进制的函数 byte bytes 1 0 1 2 3 StringBuilder sb new StringBuilder for
jDBI中如何进行内查询？

我怎样才能在 jDBI 中执行这样的事情 SqlQuery select id from foo where name in
如何使用 PHP 将字符串按大写字母分解？

我有一个字符串 CamelCaseString 我想对大写字母进行explode split 或一些更好的方法来将该字符串分解为单个单词最简单的方法是什么解决方案更新此链接指向一个略有不同的问题但我认为答案通常比本页当前问题的答案更
Java HashSet 是线程安全的只读吗？

如果我通过 Collections unmodifyingSet 运行 HashSet 实例后它是线程安全的吗我问这个是因为 Set 文档声明它不是但我只是执行读取操作来自 Javadoc 请注意此实现不是同步的如果多个线程同时
Janusgraph 0.3.2 + HBase 1.4.9 - 无法设置 graph.timestamps

我在 Docker 容器中运行 Janusgraph 0 3 2 并尝试使用运行 HBase 1 4 9 的 AWS EMR 集群作为存储后端我可以运行 gremlin server sh 但如果我尝试保存某些内容我会得到粘贴在下面的堆
从字节数组设置 img src

我需要设置img src我在对象中拥有的字节数组的属性 img
为什么 java.util.Arraylist#clear 按照 OpenJDK 中的方式实现？

http grepcode com file repository grepcode com java root jdk openjdk 6 b14 java util ArrayList java 473 http grepcode co
使用 Java 8 Spring 4 + MyBatis 集成问题

使用 Java 8 1 8 0 60 Spring 4 2 1 和 MyBatis 3 3 0 时遇到以下异常 Sep 29 2015 11 02 58 AM org springframework context annotation A
Java 中序列化的目的是什么？

我读过很多关于序列化的文章以及它如何如此美好和伟大但没有一个论点足够令人信服我想知道是否有人能真正告诉我通过序列化一个类我们真正可以实现什么让我们先定义序列化然后我们才能讨论它为什么如此有用序列化只是将现有对象转换为字节数组该
com.sun.xml.ws.message.saaj.SAAJHeader 无法转换为 com.sun.xml.ws.security.opt.impl.outgoing.SecurityHeader

我正在尝试访问第三方 Web 服务该服务要求我创建一个传递时间信息用户名和密码的安全标头我在网上搜索了可行的示例并尝试了多种方法我正在尝试使用 Java 6 中内置的内容来做到这一点我不确定我做错了什么从 WSDL 生成 We
Unicode（希腊语）字符存储在数据库中，例如“??????”

数据库中的希腊字符就像问号我找不到解决办法我使用 Java Swing 开发了一个应用程序但是当我在 MySQL 中插入希腊字母时就像问号一样我将数据库排序规则更改为 utf8 并将列也更改为 utf8 我的项目编码设置为UTF

随机推荐

如何在 Android 的 SD 卡中设置代理自动配置 (PAC) 文件

打扰一下我使用以下命令将文件 proxy pac 推送到 SD 卡 adb push C Users zuokang li Documents proxy pac sdcard 我尝试在 android 中设置代理自动配置所以我设置了
在 Python 中循环 Protocol Buffers 属性

我想要帮助递归地循环协议缓冲区消息中包含的所有属性子对象假设我们不知道它们的名称或者有多少个作为示例请从 google 网站上的教程中获取以下 proto 文件 message Person required string nam
Matplotlib Xticks 条形图中的值

我有这段代码我正在尝试制作一个图表列表中的所有值都是正确的但是我在 x 轴上遇到问题首先前两个价格变动之间存在差距我阅读了他们网站上的所有 matplotlib 但找不到任何对这个问题有用的东西我对 xticks 函数很困惑
Powershell 3.0：“获取音量”的替代方案

我正在尝试获取计算机上每个硬盘卷的各种属性我正在使用 cmdletget volume然后通过它走过foreach 但 Windows Server 2008 中不存在该 cmdlet 有人知道替代方案吗我只需要驱动器号 objectI
WPF 调度程序、后台工作人员和很多痛苦

好吧这可能真的很简单但我尝试的一切似乎都碰壁了我有一个具有两个属性的视图模型它们绑定到我的 WPF 表单 bool IsWorking get set ObservableCollection
从tasklet存储在JobExecutionContext中并在另一个tasklet中访问

我有一个要求其中一个微线程将目录中的所有文件存储在数组列表中列表的大小存储在作业执行上下文中稍后在另一个步骤中从另一个微线程访问此计数这是怎么做到的我尝试存储在作业执行上下文中在运行时抛出不可修改的集合异常 public Re
为什么评估布尔表达式的普通法则不适合 LINQ？

在这样的代码中 if insuranceNumberSearch null true ei InsuranceNumber Contains insuranceNumberSearch Trim doSomething where insu
Fluent NHibernate 中的 schemaExport 是什么？

我很想知道更多关于此代码的方式以及执行时的预期结果
如何使用 RxJava 将双精度值的嵌套列表转换为 Java 类？

在我的 Android 客户端中我从后端收到以下 JSON 数据 1427378400000 553 1427382000000 553 这是实际加载数据的例程我在用接收Android https github com Reactive
身份验证 - JavaScript - 注销问题

我需要一些帮助来解决我的问题 firebase auth onAuthStateChanged user gt if user console log log in window location href event list html
Chrome 堆分析器中分离的 DOM 节点的颜色意味着什么？

当使用 Chrome 开发工具分析堆快照时我似乎无法弄清楚查看分离 DOM 树时颜色的含义红色和黄色有什么区别有一个很好的解释可以在这里找到 http addyosmani com blog taming the unicorn ea
多部分/混合消息中的边界字符串不正确

我正在使用 Delphi 2006 在仅供个人使用的应用程序中创建并发送带有附件的电子邮件我使用 TIdSMTP 实例发送邮件然后将副本放入包含 TIdIMAP4 实例的特定 IMAP 文件夹中这一切都与 BDS2006 一起分发的
Azure Web 应用程序突然不再支持文化

突然间我们的 Azure Web 应用程序出现了有关不受支持的文化的错误我们加载了一个国家地区列表以显示在首页上但这突然出现错误相同的代码也用于其他各种网络应用程序并且它们没有遇到问题下面的代码给出了一个问题 private
如何获取默认的WebApplicationContext？

我需要上下文ApplicationContext xml 我在其中提供了web xml as
JavaFX：如何绑定列表中的多个属性？

我有课SimpleElement其中有一个权重字段第二个有一个列表SimpleElement以及一个权重字段该字段取决于所有其他权重的总和SimpleElements 包含在列表中任何人都知道如何通过绑定来做到这一点我的代码 imp
Apache Beam：为什么全局窗口中聚合值的时间戳是 9223371950454775？

我们从 Google Dataflow 1 9 迁移到 Apache Beam 0 6 我们注意到应用全局窗口后时间戳的行为发生了变化在 Google Dataflow 1 9 中我们将在窗口组合函数之后在 DoFn 中获得正确的时间
XCode：在故事板编辑器中移动 UI 元素

是否可以锁定或冻结故事板编辑器中的元素以便在单击和拖动时忽略它们我的问题是我在覆盖整个窗口的两个大 UIView 下有几个元素因此为了例如移动它们下面的按钮我首先必须将大视图移开移动按钮然后将它们移回来有没有更好的办法当
如何在 Mifare Ultralight C（使用 Android）上使用安全性？

我正在尝试开发一个使用 MF0ICU2 标签 Mifare Ultralight C 功能特别是读取保护的 Android 应用程序该标签与 Mifare DESFire EV1 兼容在 Android 类中 MifareUltra
在 CSS 中选择相邻的和之前的兄弟姐妹

比如说我有以下 HTML ul li a href a A a li li a href b B a li li class myclass a href c C a li li a href d D a li li a href e E
Java String.split() 有时会给出空白字符串

我正在制作一个基于文本的骰子滚筒它接受像 2d10 5 这样的字符串并返回一个字符串作为掷骰的结果我的问题出现在分词器中它将字符串分割成有用的部分以便我解析成信息 String tokens message split dk 这产

Java String.split() 有时会给出空白字符串

Java String.split() 有时会给出空白字符串 的相关文章

随机推荐

热门标签

Java String.split() 有时会给出空白字符串的相关文章