Java正则表达式跳过匹配

2024-01-13

我有一些文字；我想提取不以标点符号分隔的单词对。这是代码：

//n-grams
Pattern p = Pattern.compile("[a-z]+");
if (n == 2) {
    p = Pattern.compile("[a-z]+ [a-z]+");
}
if (n == 3) {
    p = Pattern.compile("[a-z]+ [a-z]+ [a-z]+");
}
Matcher m = p.matcher(text.toLowerCase());
ArrayList<String> result = new ArrayList<String>();

while (m.find()) {
    String temporary = m.group();
    System.out.println(temporary);

    result.add(temporary);
}

问题是它会跳过一些匹配项。例如

“我的名字是詹姆斯”

，对于 n = 3，必须匹配

“我的名字是”和“名字是詹姆斯”

，但它只匹配第一个。有办法解决这个问题吗？

您可以使用前瞻中的组来捕获它

(?=(\b[a-z]+\b \b[a-z]+\b \b[a-z]+\b))

这会导致它分为两组。所以在你的情况下它会是

组1->my name is

组2->name is james

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

regex

Java正则表达式跳过匹配的相关文章

用于从 Open3.popen3 标准输出中提取值的正则表达式

如何获取外部命令的输出并从中提取值我有这样的事情 stdin stdout stderr wait thr Open3 popen3 path foobar configfile if exit 0 wait thr value to s
如何为java注释处理器编写自动化单元测试？

我正在尝试使用 java 注释处理器我可以使用 JavaCompiler 编写集成测试事实上我现在正在使用 hickory 我可以运行编译过程并分析输出问题即使我的注释处理器中没有任何代码单个测试也会运行大约半秒对于以 TDD
EL 通过 Scriptlet

在 JSP 中使用 EL 相对于 scriptlet 的优势是什么 EL 被认为是无脚本语言 EL 使 JSP 免受容易出错原始 Java 代码并强制您根据 MVC 思想编写 JSP EL 或像 JSTL 这样的标签库不可能实现的任何事情
从字符串生成密钥？

我需要从字符串生成一个密钥以便我始终可以从同一字符串创建相同的密钥具体来说是一个Key对象这样我就可以用它来创建Cipher进而创建SealedObject 这在 Java 中可行吗我应该考虑什么类方法组合才能做到这一点对于 A
c和java语言中的换行符

现在行分隔符取决于系统但在 C 程序中我使用 n 作为行分隔符无论我在 Windows 还是 Linux 中运行它都可以正常工作为什么在java中我们必须使用 n 因为它与系统相关那么为什么我们在c中使用 n 作为新行而不管我
net.sf.jasperreports.engine.JRRuntimeException：java.io.IOException：无法读取字体数据

我正在尝试通过 JasperReport 创建 PDF 报告但读取字体数据时出现问题我有 jasperreports extension properties 和 ClassPath 中的相关 TTF 文件这是错误 java io I
为什么下面代码的输出是Thread[main,5,main]

public class test1 public static void main String args TODO Auto generated method stub Thread t Thread currentThread Sys
如何仅替换多个文件中记事本++中的第一个文本实例？

我正在努力更新一个网站并进行一些更改并且我已经成功使用标准查找和替换搜索对多个文件进行了大部分更改我的 f r 中只留下一个错误需要修复但它在整个文档中出现了几次我只想替换第一个实例这是唯一一次错误 div class boxb
忽略正则表达式匹配的嵌套括号内的逗号

我有以下正则表达式 s s g这允许我匹配由逗号分隔的元素同时忽略内部的逗号有这个 a b c aaa bbb ccc d 我明白了 a b c aaa bbb ccc d 现在我想升级它以考虑另一个级别的括号我不想考虑任何级别我
反应式 Spring Webflux REST 控制器内部重定向

我正在为 spring 反应项目创建简单的控制器服务器在设置重定向到另一个位置时我在调用时发现错误http localhost 8080 There was an unexpected error type Internal Serve
两条腿的 OAuth 和 Gmail Atom feed

我们正在尝试让 2 legged OAuth 与 Gmail Atom feed 一起使用我们使用 John Kristian Praveen Alavilli 和 Dirk Ba lfanz 贡献的 Java 库 http oauth
java中日期转换dd-MMM-yyyy到dd-MM-yyyy

在Java中将23 Mar 2011转换为23 03 2011的最简单方法是什么感谢大家这似乎解决了这个问题 try Calendar cal Calendar getInstance cal setTime new SimpleDat
使用 Box2d（适用于 Android）进行碰撞检测？

有人可以解释一下使用 box2d for android 进行碰撞检测的工作原理吗我无法理解 BBContactListener 以什么方式工作 BBContactListener listener new BBContactListen
Java字符串查找和替换的最佳方法？

我正在寻找 Java 中字符串查找和替换的最佳方法这是一句话我的名字叫米兰人们都知道我叫米兰瓦西奇我想用 Milan Vasic 替换 Milan 弦但在我已经有 Milan Vasic 的地方情况不应该是这样搜索替换后的结
Elasticsearch - EdgeNgram + 突出显示 + term_vector = 不好的突出显示

当我使用带有edgengram min 3 max 7 front term vector with positions offsets的分析器时文档包含文本 CouchDB 当我搜索 couc 时我的亮点是 cpu 而不是 couc
如何在Java中模拟引用传递？

我是一个十足的 Java 菜鸟我知道 Java 将所有参数视为按值传递并且还有其他几个线程人们对此进行了解释例如在 C 中我可以这样做 void makeAThree int n n 3 int main int myInt 4 m
Java 验证日期为 yyyyMMddHHmmss

我想在java中验证给定的日期格式为yyyyMMddHHmmss 状况应符合格式 yyyyMMddHHmmss 它应该验证当前日期它应该验证与当前小时有 3 小时或 3 小时差异的小时数如果满足所有三个条件 Java 方法应返回 tr
更新分页。是否可以？

他们是否存在一些方法来处理更新分页例如我有 100 行类型 Id private Integer id Column private boolean flag Column private Date last 一开始它们看起来像 id f
删除 .htaccess 中 URL 中各处的多组斜杠

我目前有一个网站访客可以访问每个网址并使用任意数量的斜杠来分隔文件夹名称例如如果 URL 应该是 http example com one two three four 然后用户可以通过以下任意方式访问同一页面 http examp
Retrofit 2.0：预期为 BEGIN_OBJECT，但在第 1 行第 1 列路径 $ [重复] 处为 STRING

这个问题在这里已经有答案了我在邮递员上传递了更新用户请求并获得了成功的响应参见图片现在当我尝试使用 Retrofit 2 在我的应用程序中执行相同操作时出现错误 com google gson JsonSyntaxException

随机推荐

从 QuickTime（电影）文件中获取缩略图

有人知道是否有可能在 PHP 中从服务器上的 Quicktime 电影中获取帧缩略图类似于通常的 GD 缩略图生成但适用于 mov 文件注意我使用的是 dreamhost 因此我只能通过 Web 面板访问服务器这看起来很有希
登录页面是否需要防伪令牌？

我不断看到在标准用户名密码登录页面上放置防伪令牌的代码示例甚至 Asp Net Web 项目模板也能做到这一点为什么唯一改变的系统状态是用户的登录状态为了实现这一点攻击者需要他们的用户名和密码这意味着一切都已经受到最大程度的损
需要帮助根据真值表创建二叉树

首先为了充分披露我想指出这与机器学习课程中的作业有关这个问题不是家庭作业问题而是我需要解决的问题以便完成创建 ID3 决策树算法这一更大的问题当给定真值表时我需要生成类似于以下内容的树 let learnedTree Node
将数字截断至小数点后两位而不进行四舍五入

假设我的值为 15 7784514 我想将其显示为 15 77 不进行舍入 var num parseFloat 15 7784514 document write num toFixed 1 br document write num t
如何在没有选择按钮的情况下在GridView中实现全行选择？

我正在实现一项功能当用户按下 GridView 中行中的任何点时将选择该行而不是选择按钮为了实现这一点我使用以下代码 protected void GridView1 RowDataBound object sender Gri
动态创建文件输入元素

我想自定义文件输入按钮所以我使用此代码创建一个文件输入元素 function inputBtn var input document createElement input input type file setTimeout funct
TensorFlow：如何根据历元设置学习率衰减？

学习率衰减函数tf train exponential decay需要一个decay steps范围每隔一段时间降低学习率num epochs 你会设置decay steps num epochs num train examples b
Apache、SSL 客户端证书、LDAP 授权

我在 serverfault com 上发布了这个问题但没有答案所以我在这里尝试是否可以混合 mod ssl 和 mod auth ldap 以便使用客户端证书进行身份验证并使用 mod auth ldap 进行授权需要 ldap
javax.servlet.ServletException：包装器找不到 servlet 类

我已经从 Jasper Reports for Java Developer 第 3 章中制作了一个 servlet 它将在浏览器上显示 Jasper Report 该 Servlet 如下所示 public class FirstRep
如何抑制 Visual Studio 2017 (C#) 中的初始构建后事件错误？

我在 Visual Studio 2017 中有一个 C 解决方案我还有一个名为的批处理脚本foobar bat其中包含以下代码 echo foobar error 1 This is a test error 我的目标是得到only当我
new之后直接调用方法？

PHP 是否允许像这样调用新对象的方法 new CEntry new Control gt actuate 我可以传递一个新对象作为参数如下所示new Control 然而它似乎不喜欢 actuate 调用我收到错误 Parse er
如何使用 C++ 中具有多个参数的 if 语句调用多个函数

该程序针对每种条件运行所有函数而它应该只针对每种条件运行一个函数为什么我应该编写计算球体圆柱体和圆锥体的体积和表面积的函数我无法弄清楚是 if 语句弄乱了还是函数本身弄乱了该程序的理想输出如下选择形状 1 球体 2 圆柱体
从 node-mysql 连接到 Amazon RDS (MySQL) 时出错

我正在尝试使用 felixge node mysql 包从 Lambda 中托管的 Nodejs 代码连接到我的 Amazon RDS MySQL 实例我需要帮助来找出我做错了什么我收到连接 ETIMEDOUT 错误我的代码托管在
不同源文件中的 D 模板特化

我最近问this https stackoverflow com questions 6328444 type classes in d有关如何在 D 中模拟类型类的问题并建议了一种使用模板专业化来实现此目的的方法我发现 D 无法识别不
基于不同XAML的样式继承

如何将样式中的 BasedOn 标记指定为在其他文件中定义的样式 Example Dictionary1 xaml 定义在 Dictionary2 xaml 中我需要类似的东西
从 pandas 数据框中删除闰年日

我有福尔数据框 datetime 2012 01 01 125 5010 2012 01 02 125 5010 2012 01 03 125 5010 2012 02 04 125 5010 2012 02 05 125 5010 20
我是否需要担心“Rc”的开销？

我是否正确地假设唯一放慢速度的事情Rc问题是它会在对象删除时检查是否释放该对象除此之外取消引用的开销是多少 Rc 即我应该关心它吗这两个函数几乎同样快吗或者说速度上有明显的区别吗 fn test with box let b
日志记录和同步

我刚刚编写了自己的日志框架非常轻量级不需要大型日志框架它由一个接口 ILogger 和许多实现该接口的类组成我有一个问题是 TGUILogger 它采用 TStrings 作为日志记录目标并将日志记录与主线程同步以便列表框的 I
Linux 中如何给线程命名？ [复制]

这个问题在这里已经有答案了我有一个用 C C 编写的多线程 Linux 应用程序我有为我的线程选择名称 https stackoverflow com questions 149932 naming conventions for th
Java正则表达式跳过匹配

我有一些文字我想提取不以标点符号分隔的单词对这是代码 n grams Pattern p Pattern compile a z if n 2 p Pattern compile a z a z if n 3 p Pattern com

Java正则表达式跳过匹配

Java正则表达式跳过匹配 的相关文章

随机推荐

热门标签

Java正则表达式跳过匹配的相关文章