为什么代理 Java 正则表达式会找到连字符减号 -

2024-01-30

我试图找出为什么 JAVA 中存在这个正则表达式([\ud800-\udbff\udc00-\udfff])用于replaceAll(regexp,"")还将删除连字符减号以及代理字符。

这个的 Unicode 是\u002d所以它似乎不在任何这些范围之内。

我可以轻松地删除这种行为添加&&[^\u002d]导致([\ud800-\udbff\udc00-\udfff&&[^\u002d]])

但是，由于我不知道为什么会这样\u002d被删除，我认为可能会有更多未被注意到的字符被删除。

Example:

String text = "A\u002dB";
System.out.println(text);
String regex = "([\ud800-\udbff\udc00-\udfff])";
System.out.println(text.replaceAll(regex, "X"));

prints:

A-B
AXB

概述和假设

匹配星体层中的字符（代码点 U+10000 到 U+10FFFF）一直是 Java 正则表达式中记录不足的功能。

这个答案主要涉及Oracle对Java版本6及以上版本的实现（参考实现，OpenJDK中也使用）。

如果您碰巧使用 GNU Classpath 或 Android，请自行测试代码，因为它们使用自己的实现。

幕后花絮

假设您在 Oracle 的实现上运行正则表达式，您的正则表达式

"([\ud800-\udbff\udc00-\udfff])"

编译如下：

StartS. Start unanchored match (minLength=1)
java.util.regex.Pattern$GroupHead
Pattern.union. A ∪ B:
  Pattern.union. A ∪ B:
    Pattern.rangeFor. U+D800 <= codePoint <= U+10FC00.
    BitClass. Match any of these 1 character(s):
      [U+002D]
  SingleS. Match code point: U+DFFF LOW SURROGATES DFFF
java.util.regex.Pattern$GroupTail
java.util.regex.Pattern$LastNode
Node. Accept match

字符类被解析为\ud800-\udbff\udc00, -, \udfff. Since \udbff\udc00形成有效的代理对，它代表代码点 U+10FC00。

错误的解决方案

写起来没有意义：

"[\ud800-\udbff][\udc00-\udfff]"

由于 Oracle 的实现按代码点进行匹配，并且有效的代理项对将在匹配之前转换为代码点，因此上面的正则表达式无法匹配任何内容，因为它正在搜索可以形成有效对的 2 个连续的单独代理项。

Solution

如果您想匹配并删除星体层中 U+FFFF 以上的所有代码点（由有效的代理对形成），加上单独的代理（无法形成有效的代理对），您应该编写：

input.replaceAll("[\ud800\udc00-\udbff\udfff\ud800-\udfff]", "");

该解决方案已经过测试，可在 Java 6 和 7（Oracle 实现）中运行。

上面的正则表达式编译为：

StartS. Start unanchored match (minLength=1)
Pattern.union. A ∪ B:
  Pattern.rangeFor. U+10000 <= codePoint <= U+10FFFF.
  Pattern.rangeFor. U+D800 <= codePoint <= U+DFFF.
java.util.regex.Pattern$LastNode
Node. Accept match

请注意，我使用字符串文字 Unicode 转义序列指定字符，而不是正则表达式语法中的转义序列。

// Only works in Java 7
input.replaceAll("[\\ud800\\udc00-\\udbff\\udfff\\ud800-\\udfff]", "")

当使用正则表达式语法指定时，Java 6 无法识别代理对，因此正则表达式可以识别\\ud800作为一个字符并尝试编译范围\\udc00-\\udbff失败的地方。我们很幸运，它会为此输入抛出异常；否则，错误将无法被检测到。 Java 7 正确解析此正则表达式并编译为与上面相同的结构。

从 Java 7 及更高版本开始，语法\x{h..h}已添加支持指定 BMP（基本多语言平面）之外的字符，并且推荐使用它来指定星体平面中的字符。

input.replaceAll("[\\x{10000}-\\x{10ffff}\ud800-\udfff]", "");

该正则表达式也编译为与上面相同的结构。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

regex