将字符串分割成句子

2023-11-27

我编写了这段代码,用于分割字符串并将其存储在字符串数组中:-

String[] sSentence = sResult.split("[a-z]\\.\\s+");

但是,我添加了 [a-z],因为我想处理一些缩写问题。但后来我的结果显示如下:-

此外,当埃弗里特试图指导他们基础数学时,他们没有反应

我发现我丢失了 split 函数中指定的模式。丢失句号对我来说没关系,但是丢失单词的最后一个字母会扰乱其含义。

有人可以帮助我解决这个问题吗?此外,有人可以帮助我处理缩写吗?例如,因为我根据句点分割字符串,所以我不想丢失缩写。


解析句子绝非易事,即使对于英语等拉丁语言也是如此。像您在问题中概述的那种幼稚的方法经常会失败,以至于在实践中证明它毫无用处。

更好的方法是使用中断迭代器配置了正确的区域设置。

BreakIterator iterator = BreakIterator.getSentenceInstance(Locale.US);
String source = "This is a test. This is a T.L.A. test. Now with a Dr. in it.";
iterator.setText(source);
int start = iterator.first();
for (int end = iterator.next();
    end != BreakIterator.DONE;
    start = end, end = iterator.next()) {
  System.out.println(source.substring(start,end));
}

产生以下结果:

  1. 这是一个测试。
  2. 这是一家 T.L.A.测试。
  3. 现在里面有一个博士。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

将字符串分割成句子 的相关文章

随机推荐

  • 如何在 Woocommerce 中检查产品是否具有特定产品属性

    我想确定产品是否具有属性 例如 if product has attribute pa color do something 我怎样才能做到这一点 您只需使用WC Product method get attribute 这边走 If ne
  • 在 keras 中加载模型后的不同预测

    我在 Keras 中构建了一个序列模型 经过训练后它给了我很好的预测 但是当我保存然后加载模型时 我没有在同一数据集上获得相同的预测 为什么 请注意 我检查了模型的权重 它们以及模型的架构都是相同的 并使用 model summary 和
  • 使用 Java 邮件服务器进行测试

    我正在测试一个应用程序 该应用程序从邮箱中取出邮件 根据该邮件的内容执行某些操作 然后根据操作的结果发送响应邮件 我正在寻找一种为此应用程序编写测试的方法 理想情况下 我希望这些测试能够启动自己的邮件服务器 将我的测试电子邮件推送到该邮件服
  • 如何等待 Angular Google 地图将 getGMap 附加到控制对象

    我一直在尝试在google maps Map由创建的对象ui gmap google map指令来自Angular 谷歌地图库 我需要动态地执行此操作 因此 至少通过我的简短测试 似乎使用events上的参数ui gmap google m
  • ccAvenue 支付网关中 ios 9 中的安全错误

    在发布 iOS 9 之前 我将 ccAvenue paymeny 网关集成到我的 iOS 应用程序中 付款已成功转移到 iOS 8 中的商家帐户 当我在 iOS 9 中测试我的应用程序时 付款已转移到商家帐户 但显示安全错误 我也改变lib
  • 函数的返回类型是重整名称的一部分吗?

    假设我有两个具有相同参数类型和名称的函数 不在同一个程序中 std string foo int x return hello int foo int x return x 编译后它们会具有相同的损坏名称吗 返回类型是 C 中重整名称的一部
  • 如何从OpenStreetMap中找到路口?

    如何在OpenStreetMap中提取路口 我需要路口的经度和纬度 谢谢 曾经有过类似的问题here 没有直接的 API 调用来检索交集 但是您可以查询给定边界框中的所有方式 例如直接通过API或通过立交桥API 并查找由两种或多种方式共享
  • 仅从 ELF 二进制文件中提取我的函数名称

    我正在编写一个脚本 用于提取二进制文件中的所有函数 由用户编写 以下 shell 脚本提取我的函数名称以及一些以以下开头的库函数 readelf s a out gawk if 4 FUNC 3 0 7 13 8 main print b
  • php + gd 的图像比较

    使用 php 比较两个图像的最佳方法是什么图形绘制 GD 库 这是场景 我有一张图像 我想找到给定集合中哪张图像与其最相似 最相似的图像实际上是同一张图像 不是像素完美匹配 而是同一张图像 我在示例中戏剧化了两个图像与第一张图像之间的差异
  • 代理后面的Java应用程序在linux中使用http_proxy变量

    我正在考虑一个简单的Java应用程序 命令行 它连接到互联网来下载XML文件 问题是我的Ubuntu正在使用代理通过用户名和密码连接到互联网 通过http proxy http
  • Rabbit 消息侦听器执行失败,并且未设置 ErrorHandler。无法调用参数类型 = [class [B] 的目标方法,

    我正在使用 spring amqprabbitmq 并使用发送消息 Message message MessageBuilder withBody item toString getBytes setReplyTo importReply
  • 当 shell=True 时如何确定 subprocess.Popen() 失败

    Windows 版本的 Python 2 6 4 有什么方法可以确定使用 shell True 时 subprocess Popen 是否失败 shell False 时 Popen 成功失败 gt gt gt import subproc
  • 为什么 bad_alloc(const char*) 在 Visual C++ 2012 中被设为私有?

    我只是想使用 Visual Studio 2012 候选版本 C 编译一个更大的项目 该项目现在使用VS2010编译 我只是贪图 C 11 的东西 所以我尝试了 除了我自己可以解释的事情之外 该项目使用如下代码 ostringstream
  • Mac OS X 上的黑莓开发

    我最近开始为移动设备创建应用程序 并成功完成了 iPhone 的应用程序 我现在将注意力转向黑莓 但尚未找到令人信服的文章或网站来说明可以做到这一点 也找不到有关如何做到这一点的教程 可以在 Mac OS X 上开发 Blackberry
  • 告诉 GCC *不*链接 libgomp,以便它链接 libiomp5

    我需要找出一个可以输入 gcc 的编译器 链接器指令 以便在指定 fopenmp 时它不会自动链接 libgomp 原因是我正在尝试针对英特尔的 MKL BLAS 进行构建 MKL 需要添加单独的 Intel 库来处理多线程 例如 libm
  • 使用 pkg-config 宏 PKG_CHECK_MODULES 失败

    我确信这是一个相当简单的问题 我有一个非常简单的configure ac 文件 我用它来学习autoconf 和pkg config 如何协同工作 这confgure ac文件看起来像 AC PREREQ 2 61 AC INIT auto
  • 如何判断html页面的哪个元素获得焦点? [复制]

    这个问题在这里已经有答案了 可能的重复 如何找出哪个 DOM 元素具有焦点 javascript 有没有办法确定哪个 html 页面元素具有焦点 Use the document activeElement财产 The document a
  • 在 Bloomberg API 中,如何指定以点差而不是绝对值的形式获取外汇远期?

    如何使用 Bloomberg API 明确请求直接外汇远期 在彭博终端中 您可以通过执行 XDF 选择是否以绝对汇率 直接 或即期 点 的形式获得外汇远期 达到 7 则该选项大约下降了一半 0 表示直接 1 表示偏移 对于大多数默认值 您可
  • 如何在 Web API 中使用“User.Identity.IsAuthenticated”

    User Identity IsAuthenticated总是返回false在我的 ASP NET Web API 项目中 账户内ApiController我有以下内容 ClaimsIdentity identity new ClaimsI
  • 将字符串分割成句子

    我编写了这段代码 用于分割字符串并将其存储在字符串数组中 String sSentence sResult split a z s 但是 我添加了 a z 因为我想处理一些缩写问题 但后来我的结果显示如下 此外 当埃弗里特试图指导他们基础数