文本中的句子注释不带标点符号

2024-02-26

我很难让 CoreNLP 系统正确找到诗歌语料库中一个句子的结束位置和另一个句子的开始位置。

其陷入困境的原因：

有些诗在整个长度上都没有标点符号（有时甚至没有大小写）
有些诗的句子从一个段落延伸到另一个段落
有些诗每行开头都大写

这是一个特别棘手的问题 http://www.poetryfoundation.org/poem/180418（系统认为第一句以第二节开头的“.”结束）

鉴于缺乏大写字母和标点符号，我想我会尝试使用-tokenizeNLs看看这是否改进了它，但它太过分了，并切断了空行之间的任何句子（有一些）

这些句子通常以行尾结束，但并非总是如此，所以如果系统可以将行结尾视为句子中断的潜在候选者，并可能权衡这些句子作为端点的可能性，那就很巧妙了，但我不知道如何实现它。

有没有一种优雅的方法来做到这一点？或者替代方案？

提前致谢！

（预期句子输出here https://www.dropbox.com/s/pt8yoaxvbnucmjy/sentences.txt?dl=0)

我构建了一个句子分段器，它对于不带标点或部分标点的文本也非常有效。您可以在以下位置找到它：https://github.com/bedapudi6788/deepsegment https://github.com/bedapudi6788/deepsegment .

该模型基于命名实体识别可用于句子边界（即：句子的开头或句子的结尾）的想法。我利用 tatoeba 的数据生成训练数据，并为此任务训练了具有手套嵌入和角色级别的 BiLSTM+CRF 模型。

尽管这是用 Python 构建的，但您将能够使用 Flask 设置一个简单的 REST API，并将其与 Java 代码一起使用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

NLP

stanfordnlp

文本中的句子注释不带标点符号的相关文章

如果测试用例失败，Selenium Web 驱动程序无法关闭 Firefox 实例

我各位我正在使用 junit 和 selenium web 驱动程序 2 28 问题是如果我运行成功的测试用例 Web 驱动器能够关闭 Firefox 实例但是当测试用例失败时 Selenium Web 驱动器无法关闭 Firefox
如何使用 FileChannel 将一个文件的内容附加到另一个文件的末尾？

File a txt好像 ABC File d txt好像 DEF 我正在尝试将 DEF 附加到 ABC 所以a txt好像 ABC DEF 我尝试过的方法总是完全覆盖第一个条目所以我总是最终得到 DEF 这是我尝试过的两种方法 File
我需要在 Spring 中检查每个控制器中的有效会话吗？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案假设在 Spring Mvc 的 Web 应用程序中我们是否需要检查每个控制器或 jsps 中的有效会话我该如何解决 MVC 中的
ElasticBeanstalk Java，Spring 活动配置文件

我正在尝试通过 AWS ElasticBeanstalk 启动 spring boot jar 一切正常配置文件为默认有谁知道如何为 java ElasticBeanstalk 应用程序不是 tomcat 设置活动配置文件 spri
AES 加密 Java/plsql

我需要在Java和plsql DBMS CRYPTO for Oracle 10g 上实现相同的加密解密应用程序两种实现都工作正常但这里的问题是我对相同纯文本的加密得到了不同的输出下面是用于加密解密过程的代码 Java 和 PLS
在Windows上安装Java 11 OpenJDK（系统路径问题）

Java 11 最近发布了众所周知这个版本没有安装文件当然要在没有安装程序的情况下安装 Java 我将系统设置 PATH 和 JAVA HOME 设置为解压缩 Java 11 的文件夹的地址根据对类似问题的已接受回复建议唯一的事
Android Studio 在编译时未检测到支持库

由于 Android Studio 将成为 Android 开发的默认 IDE 因此我决定将现有项目迁移到 Android studio 中项目结构似乎不同我的项目中的文件夹层次结构如下 Complete Project gt idea
在浏览器中点击应用程序时播放框架挂起

我正在 Play 中运行一个应用程序activator run 也许 5 次中有 3 次它会挂起当我去http localhost 9000 它就永远坐在那里旋转我看到很多promise timed out错误也我应该去哪里寻找这个
OnClick 事件中的 finish() 如何工作？

我有一个Activity一键退出Activity 通过layout xml我必须设置OnClick事件至cmd exit调用 this finish 效果很好 public void cmd exit View editLayout thi
请求位置更新参数

这就是 requestLocationUpdates 的样子我使用它的方式 requestLocationUpdates String provider long minTime float minDistance LocationLis
迁移到 java 17 后有关“每个进程的内存映射”和 JVM 崩溃的 GC 警告

我们正在将 java 8 应用程序迁移到 java 17 并将 GC 从G1GC to ZGC 我们的应用程序作为容器运行这两个基础映像之间的唯一区别是 java 的版本例如对于 java 17 版本 FROM ubuntu 20 04
在具有相同属性名称的不同数据类型上使用 ModelMapper

我有两节课说Animal AnimalDto我想用ModelMapper将 Entity 转换为 DTO 反之亦然但是对于具有相似名称的一些属性这些类应该具有不同的数据类型我该如何实现这一目标动物 java public class
检查 protobuf 消息 - 如何按名称获取字段值？

我似乎无法找到一种方法来验证 protobuf 消息中字段的值而无需显式调用其 getter 我看到周围的例子使用Descriptors FieldDescriptor实例到达消息映射内部但它们要么基于迭代器要么由字段号驱动一旦我有
Tomcat 6找不到mysql驱动

这里有一个类似的问题但关于类路径 ClassNotFoundException com mysql jdbc Driver https stackoverflow com questions 1585811 classnotfoundex
Windows 上的 Nifi 命令

在我当前的项目中我一直在Windows操作系统上使用apache nifi 我已经提取了nifi 0 7 0 bin zip文件输入C 现在当我跑步时 bin run nifi bat as 管理员我在命令行上看到以下消息但无法运行
运行 Jar 文件时出现问题

我已将 java 项目编译成 Jar 文件但运行它时遇到问题当我跑步时 java jar myJar jar 我收到以下错误 Could not find the main class myClass 类文件不在 jar 的根目录中因
Java - 不要用 bufferedwriter 覆盖

我有一个程序可以将人员添加到数组列表中我想做的是将这些人也添加到文本文件中但程序会覆盖第一行因此这些人会被删除如何告诉编译器在下一个空闲行写入 import java io import java util import javax
如何配置eclipse以保持这种代码格式？

以下代码来自 playframework 2 0 的示例 Display the dashboard public static Result index return ok dashboard render Project findInv
com.jcraft.jsch.JSchException：身份验证失败

当我从本地磁盘上传文件到远程服务器时出现这样的异常 com jcraft jsch JSchException Auth fail at org apache tools ant taskdefs optional ssh Scp exe
JAVA - 如何从扫描仪读取文件中检测到“\n”字符

第一次海报我在读取文本文件的扫描仪中读取返回字符时遇到问题正在读取的文本文件如下所示 test txt start 2 0 30 30 1 1 90 30 0 test txt end 第一行 2 表示两个点第二行位置索引 0 xp

随机推荐

如何将UIImage插入到UITextView中

我正在开发一个可编辑的笔记本类型项目它随时由一些文本和图像组成在UITextView如果我们将图像添加为子视图则帧是固定的但我有editable选项所以我必须将图像另存为NSString格式为UITextView 但它应该在 ui
AutoMapper 4.2 和 Ninject 3.2

我正在更新我的一个项目以使用 AutoMapper 4 2 并且遇到了重大更改当我seem为了解决上述更改我并不完全相信我已经以最合适的方式做到了这一点在旧代码中我有一个NinjectConfiguration 和AutoMappe
Android 2.1 WebView 中的 SIGSEGV

在 Android 2 1 中使用 WebView 时我间歇性地收到 SIGSEGV SIGSEGV 位于 system lib libwebcore so 内此 WebView 实现是否存在已知问题我可以解决该问题以避免 SEGV
由于零而始终将滑块求和到 100% 失败的算法

这是应该是一个函数它确保多个滑块值的总和always总计为globalTotal 用户可以手动更改滑块值changer value然后当将此函数应用于other滑块它可以确定它们的新或endVal 它需要startVal需要更改的滑
初学者使用 Linqpad 运行非常基本的 linq to sql 查询的步骤

尝试使用 Linq 学习LinqPad http www linqpad net 并对如何开始感到沮丧假设我想编写一个 C 表达式和一个 C 语句其中 SQL Server 中有一个名为 Products 的表并且我想提取价格大于 5
使用 lucene/java 标记名称

我有我公司所有员工的姓名超过 5000 名我想编写一个引擎它可以在在线文章博客维基帮助文档中即时查找名称并用用户电子邮件的 mailto 标签标记它们截至目前我计划从文章中删除所有停用词然后在 lucene 索引中搜索
手动修改 DOM 的 innerHTML 会停止 ReactJS 监听器

我正在学习 ReactJS 和 Node Express 生态系统对我来说是早期我有一个基本的 ReactJS 文件包括组件定义和渲染调用它本身按预期工作为了快速轻松地进行调试昨天我在客户端代码中进行了以下更改 Added H
在运行时将设计时面板添加到 TabPage

我希望在设计时有一个带有控件的面板但我想在运行时将此面板添加到 TabControl 的所需 tabPage 中我写了这样的东西没有用面板没有显示在选项卡页中请帮我 panel2 Parent tabGuy TabPages 0
XPath - 提取两个节点之间的文本

我的 XPath 查询遇到问题我必须解析一个 div 它被划分为未知数量的部分其中每一个都由 h5 和部分名称分隔可能的部分标题列表是已知的并且每个标题只能出现一次此外每个部分可以包含一些 br 标签所以假设我想提取 Se
尽管在 Windows 的 VS Code 中安装了字体并激活了连字，但仍无法显示 FiraCode

在我的设置中我有 editor fontLigatures true editor fontFamily Fira Code Comic Sans MS Tahoma Consolas 我已经尝试过根据this https github
在 IIS7 中重写映射 — 如何使匹配项选择性地包含尾部斜杠？

我已经阅读了几种组合的前 30 名 Google 搜索结果IIS rewrite map condition等等但我在 microsoft com 网站或其他地方找不到任何像样的文档我在 IIS7 中有一堆重写映射我想处理它们无论它
svn:ignore 的模式匹配字符

在网上回应一个问题 svn ignore 模式的语法记录在某处唯一的图案我可以在中找到匹配的字符 svn ignore 下的 SVN 书是颠覆书 svn ignore http svnbook red bean com en 1 0
使用php验证数字签名

我有一封经过数字签名的电子邮件 email BEGIN PGP SIGNED MESSAGE Hash SHA1 The below email has been digitally signed for test purposes We
从 PostgreSQL 检索原始通知文本

我正在使用 PL pgSQL 尝试模拟我在 Oracle PL SQL 中可以执行的操作其中 dbms output 相当于 stdout 我读过 RAISE NOTICE 可能是处理此问题的最佳方法然而我的问题是当我从 psycop
可以从自定义模型绑定器访问数据库吗？

假设我有一个对象它从 HttpPost 获取一些数据从数据库获取一些数据我想我想允许 ModelBinder 访问数据库存储库以获取帖子中丢失的数据实际上这是一个好主意还是坏主意鉴于自 2010 年初以来我对这类事情的思考已经
Swift 5.4 十六进制转 NSColor

我正在为 macOS 开发一个程序我需要将十六进制颜色转换为 NSColor 我在这里查看了建议的解决方案将十六进制颜色代码转换为 NSColor https stackoverflow com questions 8697205 co
EPPlus 中的隐藏列不起作用

我想使用 EPPlus nuget 包隐藏 excel 中的一列但它不起作用它没有隐藏该列这就是我发现应该能解决问题的方法也许有一个错误 worksheet Column 1 Hidden true 我使用的是4 5 2 1版本项
以编程方式创建 XPath 表达式

是否可以从网页上光标的位置自动生成最具体的 XPath 表达式 XPath 表达式将随着 onMouseMove 事件而改变如果可以的话你会如何实施或者它已经在某些地方实施了Javascript or Python图书馆我更喜欢它
不带空格的字符串长度 (C#)

快点小问题我需要计算字符串的长度但不包括其中的空格例如对于像 I am Bob 这样的字符串 string Length将返回 8 6 个字母 2 个空格我需要一种方法或其他东西来给我字母的长度或数量在我是鲍勃的情况下为
文本中的句子注释不带标点符号

我很难让 CoreNLP 系统正确找到诗歌语料库中一个句子的结束位置和另一个句子的开始位置其陷入困境的原因有些诗在整个长度上都没有标点符号有时甚至没有大小写有些诗的句子从一个段落延伸到另一个段落有些诗每行开头都大写这是一个特别棘

文本中的句子注释不带标点符号

文本中的句子注释不带标点符号 的相关文章

随机推荐

热门标签

文本中的句子注释不带标点符号的相关文章