用于计算句子中单词数的正则表达式

2024-05-31

public static int getWordCount(String sentence) {
    return sentence.split("(([a-zA-Z0-9]([-][_])*[a-zA-Z0-9])+)", -1).length
         + sentence.replaceAll("([[a-z][A-Z][0-9][\\W][-][_]]*)", "").length() - 1;
}

我的目的是计算句子中的单词数。该函数的输入是长句子。它可能有 255 个单词。

该单词之间应使用连字符或下划线
函数应该只计算有效单词意味着特殊字符不应该计算在内，例如。 &&&& 或 #### 不应算作一个单词。

上面的正则表达式工作正常，但是当连字符或下划线出现在单词之间时，例如：合作，返回的计数为 2，它应该是 1。有人可以帮忙吗？

而不是使用.split and .replaceAll这是相当昂贵的操作，请使用内存使用量恒定的方法。

根据您的规格，您似乎正在寻找以下正则表达式：

[\w-]+

接下来你可以使用这种方法 https://stackoverflow.com/a/7378472/67579计算匹配的数量：

public static int getWordCount(String sentence) {
    Pattern pattern = Pattern.compile("[\\w-]+");
    Matcher  matcher = pattern.matcher(sentence);
    int count = 0;
    while (matcher.find())
        count++;
    return count;
}

online jDoodle demo http://jdoodle.com/a/pe.

这种方法适用于（更多）常量内存：分割时，程序构造一个数组，这基本上是无用的，因为您从不检查数组的内容。

如果您不希望单词以连字符开头或结尾，可以使用以下正则表达式：

\w+([-]\w+)*

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

regex

用于计算句子中单词数的正则表达式的相关文章

Java无法读取字体

好的我在使用自定义字体时遇到问题基本上我得到了从互联网上下载的自定义字体并在我的程序中使用它当我在 Eclipse 我使用的编辑器中运行该程序时一切正常没有问题但是每当我将它从 eclipse 导出到 jar 时或者尝试从
为什么在Java中读取易失性和写入字段成员是不可扩展的？

观察以下用 Java 编写的程序完整的可运行版本如下但程序的重要部分在下面的代码片段中 import java util ArrayList A not easy to explain benchmark class MultiVola
在记录活动中使用 readConfiguration 方法

为了在小型 Java 桌面应用程序中使用日志记录我试图深入了解一些方法的操作我使用一个非常愚蠢的小Java程序来测试它们特别是在测试 LogManager readConfiguration 方法的行为时我发现了一些奇怪的事情在
从 java 代码运行 Python 脚本

这是我第一次在java中尝试python 我正在尝试从我的代码执行 python 脚本如下所示 Process process Runtime getRuntime exec python C Users username Desktop
JFreeChart 更改现有条形图中的数据

我想循环更改条形图数据但我不知道该怎么做我的代码 DefaultCategoryDataset barChartData new DefaultCategoryDataset barChartData setValue 0 Values
java中简单程序中的“未为类型定义方法”错误

所以我只是想学习 Java 在观看了一些教程并阅读了一些基本内容之后我对为什么它无法运行感到困惑 package Test public class TestProg public static void main String args
Apache HttpClient 4.x 在上传较大文件时表现奇怪？

我正在使用 java 和 scala 开发和测试一个简单的客户端服务器应用程序 The server是基于com sun net httpserver HttpServer并允许使用 POST 和 PUT 操作通过基本的 RESTful
Run As JUnit 未出现在 Eclipse 中 - 使用 JUnit4

我正在尝试为我的 Web 应用程序编写 JUnit4 测试它们之前一直工作正常但是现在当我尝试通过右键单击类文件 gt Run As gt JUnit Test 来运行测试时我看不到该选项我认为这可能是因为一位同事意外提交了一些
获取 Spring Boot 中当前活动数据源的引用

我想通过实现数据库数据初始化DataSourceInitializer 我将这些方法放在我的 Spring Boot 主方法下面但似乎它根本没有被执行我尝试故意删除字符只是为了触发一个错误来确认执行什么也没有发生 Configurat
java应用程序，线程在终止MySQL连接后挂起

我有一些工作线程正在运行其中包括 MySQL 和 mysql connector java 5 1 20 当我杀死一些 SQL 语句使用 mysql 客户端的kill 连接id 时 java线程挂起这应该抛出一些异常 jstack 打
如何在Java中验证字符串是否是有效的URL（包括深层链接）[重复]

这个问题在这里已经有答案了如何在 Java 中验证字符串是否是有效的 URL 包括深层链接对于以下测试用例该方法应返回 true http www example com gizmos https www example com gi
StringBuilder - 重置或创建新的

我有一个条件 StringBuilder 不断存储与大型平面文件数百 MB 中的模式匹配的行但是在达到条件后我将 StringBuilder 变量的内容写入文本文件现在我想知道是否应该通过重置对象来使用相同的变量 gt strin
将 Tango 3D 点投影到屏幕 Google Project Tango

Project Tango 提供了点云如何获取点云中 3D 点的像素位置以米为单位我尝试使用投影矩阵但得到的值非常小 0 5 1 3 等而不是 1234 324 以像素为单位我包含我尝试过的代码 Get the current
解析字符串：提取单词和短语 [JavaScript]

我需要在以空格分隔的术语列表中支持确切的短语用引号引起来因此用空格字符分割相应的字符串已经不够了 Example input foo bar lorem ipsum baz output foo bar lorem ipsum baz
在同步子句中抛出异常的副作用？

从同步子句中抛出异常是否有任何不清楚的副作用锁会发生什么情况 private void doSomething throws Exception synchronized lock doSomething 我没有看到任何副作用 The 锁
JdbcTemplate queryForInt/Long 在 Spring 3.2.2 中已弃用。应该用什么来代替呢？

JdbcTemplate 中的 queryforInt queryforLong 方法在 Spring 3 2 中已弃用我无法找出为什么或什么被认为是使用这些方法替换现有代码的最佳实践典型方法 int rowCount jscoreJd
从java类文件获取apache webcontents文件夹的绝对路径[重复]

这个问题在这里已经有答案了需要在动态 Web 应用程序内获取 java 类文件中的绝对路径实际上我需要获取 apache webapps 文件夹的路径部署 webapps 的位置 e g apache root webapps my
特殊字符和 URL 重写

我目前正在开发一个应用程序该应用程序从暴雪社区 API 中提取 JSON 数据并使用 PHP 对其进行解析一切正常直到我遇到一个名字中有特殊字符的角色为了提取角色数据我需要知道他们的角色名称和他们所在的领域我将名称和领域通过 U
JPA2+Hibernate 3.6.0 中的 JTA 还是 LOCAL 事务？

我们正在重新思考我们的技术堆栈以下是我们的选择由于应用程序的复杂性等我们不能没有 Spring 和 Hibernate 我们还从 J2EE 1 4 迁移到 Java EE 5 技术栈 Java EE 5 JPA 2 0 我知道Java
GridLayout 中的 JLabel

如何添加JLabel出于GridLayout 我有一个 8x8 网格布局 Container content getContentPane content setLayout new GridLayout 8 8 2 2 for int f

随机推荐

如何向 firebase.auth() 添加附加信息

如何向该数据集添加额外的电话号码和地址属性 Firebase 文档似乎没有指定任何相关内容我已经使用实现了登录注册和更新firebase auth Login Email Login firebase auth signInWithEm
自适应支付 API 错误 580001

我正在 python 中向 paypal 自适应支付 API 发出 PAY 请求并收到通用错误 id 580001 没有其他信息 headers API credentials for the API caller business ac
PowerShell（2.0，32 位）无法加载 TFS 2010 管理单元...除非可以

我有一个与 Team Foundation Server 交互的 PowerShell 脚本当我在 PowerShell 控制台中运行它时它运行得很好这对于测试它来说很好但我想通过双击它或批处理文件或其他东西来运行它我什至选择右键
#！（hashbang）和 Google SEO [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我已经阅读了有关抓取支持 AJAX 的页面的 Google 规范由于 Google 的部分索引方法使用 URL 本身因此将转换为对S
Eclipse PTP：在本地计算机上运行并行（MPI）应用程序？

必须如何配置 eclipse PTP 才能在本地计算机上使用 OpenMPI 运行 MPI 应用程序使用添加资源管理器我可以选择 OpenMPI 并在连接名称中切换到本地主机但仍然要求我提供一些用户名和密码这是正确的方法吗 D
C++ 并行任务的开销

我有以下简单的功能 include
Relay 中的嵌套片段数据始终相同

我是 Relay 新手并且遇到了片段上嵌套数据的问题当我在 graphiql 中进行测试时以下查询返回正确的数据因此我确信我的架构是正确的 viewer customers name billing address city 但是
如何将 35 类城市景观数据集转换为 19 类？

以下是我的代码的一小段使用它我可以在城市景观数据集上训练名为 lolnet 的模型但数据集包含 35 个类别标签 0 34 imports trainloader torch utils data DataLoader datase
C 链表销毁函数

我正在尝试学习 C 和很多人一样我对指针有点困惑无论如何我创建了一个递归函数来销毁我的链表但是正如我调试的那样当我从函数返回时列表的头部不应该为空所以我猜这是对指针的一些基本误解这是函数 void destroy struc
Google App Engine 是否可以通过自定义域（即 Google Apps）支持 SSL？ [复制]

这个问题在这里已经有答案了可能的重复 Google App Engine 是否支持以 mydomain com 托管的应用程序的 SSL https stackoverflow com questions 5593197 does goo
更改实体的可访问性

我想建立一个内部实体我已将实体其标量属性和导航属性更改为内部当我尝试构建它时出现此错误错误 6036 EntityType 文件具有内部可访问性 EntitySet 文件具有具有公共可访问性的 get 属性 Entity
进行异步调用时，“yield”在龙卷风中如何工作？

最近我在学习龙卷风简介我遇到了以下代码 class IndexHandler tornado web RequestHandler tornado web asynchronous tornado gen engine def get s
在 python 中使用 subprocess.call 时如何将 stdout 重定向到文件？

我正在从另一个 python 脚本 A 调用一个 python 脚本 B 使用 subprocess call 如何将 B 的标准输出重定向到指定的文件我正在使用 python 2 6 1 传递一个文件作为stdout参数为subproc
使用 matplotlib 设置或固定二元分布值

I ve animated a bivariate gaussian distribution using matplotlib 我已经计算过这个distribution通过调整COV matrix来考虑特定的变量我可以提供有关此过程的更
使用ajax轮询服务器

我正在建立一个网站该网站有一个用户可以互相发送消息的系统我希望这样当登录用户收到消息时他会在屏幕上看到一些更新告诉他这一点这些消息不必是实时的所以我认为我不想用彗星或主宰之类的东西来推动相反我很乐意每隔一分钟左右轮询一次服务器
Spring Data：2个不同数据源之间的关系

在 Spring Boot 应用程序项目中我有 2 个数据源 MySQL 数据库又名 db1 MongoDB 数据库又名 db2 我在用着Spring数据JPA and Spring数据MongoDB 而且效果很好一次一个假设 d
领域驱动设计和工厂类的作用

我不清楚工厂类的角色和职责是什么我知道工厂类应该负责创建域对象聚合根及其关联的实体和值对象但我不清楚 DDD 架构的工厂层在哪里工厂应该直接调用存储库来获取其数据还是服务库工厂在以下框架中的位置 UI gt 应用程序 gt
安装 Ruby 后，MAC OS X 上的活动开发人员路径无效

我收到此错误 xcrun 错误无效的活动开发人员路径 Applications Xcode app 缺少 xcrun Applications Xcode app usr bin xcrun This solution https sta
iphone：通过代码获取目标设置中的用户定义变量？

我的项目有多个目标每个目标都有自己的目标Class用于设置内容的文件我想存储它Class目标设置中的名称 Info plist或目标的建筑物设置这样我就可以根据此设置定义每个目标中需要使用哪个类根据这个问题 https stacko
用于计算句子中单词数的正则表达式

public static int getWordCount String sentence return sentence split a zA Z0 9 a zA Z0 9 1 length sentence replaceAll a

用于计算句子中单词数的正则表达式

用于计算句子中单词数的正则表达式 的相关文章

随机推荐

热门标签

用于计算句子中单词数的正则表达式的相关文章