将中文文档拆分成句子[关闭]

2024-03-14

我必须将中文文本分成多个句子。我尝试了斯坦福文档预处理器。它对于英语来说效果很好，但对于中文则不然。

请告诉我有什么好的中文分句器，最好是 Java 或 Python 的。

在 Python 中使用一些正则表达式技巧（参见 2.3 节的修改后的正则表达式）http://aclweb.org/anthology/Y/Y11/Y11-1038.pdf http://aclweb.org/anthology/Y/Y11/Y11-1038.pdf):

import re

paragraph = u'\u70ed\u5e26\u98ce\u66b4\u5c1a\u5854\u5c14\u662f2001\u5e74\u5927\u897f\u6d0b\u98d3\u98ce\u5b63\u7684\u4e00\u573a\u57288\u6708\u7a7f\u8d8a\u4e86\u52a0\u52d2\u6bd4\u6d77\u7684\u5317\u5927\u897f\u6d0b\u70ed\u5e26\u6c14\u65cb\u3002\u5c1a\u5854\u5c14\u4e8e8\u670814\u65e5\u7531\u70ed\u5e26\u5927\u897f\u6d0b\u7684\u4e00\u80a1\u4e1c\u98ce\u6ce2\u53d1\u5c55\u800c\u6210\uff0c\u5176\u5b58\u5728\u7684\u5927\u90e8\u5206\u65f6\u95f4\u91cc\u90fd\u5728\u5feb\u901f\u5411\u897f\u79fb\u52a8\uff0c\u9000\u5316\u6210\u4e1c\u98ce\u6ce2\u540e\u7a7f\u8d8a\u4e86\u5411\u98ce\u7fa4\u5c9b\u3002'

def zng(paragraph):
    for sent in re.findall(u'[^!?。\.\!\?]+[!?。\.\!\?]?', paragraph, flags=re.U):
        yield sent

list(zng(paragraph))

正则表达式解释：https://regex101.com/r/eNFdqM/2 https://regex101.com/r/eNFdqM/2

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

tokenize

stanfordnlp

sentence

将中文文档拆分成句子[关闭] 的相关文章

有什么工具可以以编程方式将日语句子转换为其罗马字（语音阅读）？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案 Input 日本好 Output 日本 ga sukidesu 遗憾的是无法通过 Google Translate API 进行语音阅读 KAKA
如何找到句子的主语？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我是 NLP 新手正在研究应该使用哪种语言工具包来执行以下操作我想做两件事之一来完成同样的事情我基本上想对文本进行分类通常是一个包
Attention机制中的“源隐藏状态”指的是什么？

注意力权重计算如下我想知道什么h s指在tensorflow代码中编码器RNN返回一个元组 encoder outputs encoder state tf nn dynamic rnn 正如我所想 h s应该是encoder sta
使用 NLTK python 对使用示例数据或 Web 服务的句子进行情感分析？

我正在着手一个用于情感分析的 NLP 项目我已经成功安装了Python的NLTK 看起来是一个很棒的软件但是我无法理解如何使用它来完成我的任务这是我的任务我从一长条数据开始假设来自他们的网络服务的数百条关于英国大选主题的推文我
日期自然语言解析器（.NET）？

我希望能够让用户使用自然语言例如下周五每个工作日输入日期包括重复日期很像以下的例子http todoist com Help timeInsert http todoist com Help timeInsert I found
如何在 python-gensim 中使用潜在狄利克雷分配（LDA）来抽象二元组主题而不是一元组？

LDA 原始输出一元语法主题1 水肺水蒸汽潜水主题2 二氧化物植物绿色碳所需输出二元组主题主题1 水肺潜水水蒸气主题2 绿色植物二氧化碳任何想法鉴于我有一个名为docs 包含文档中的单词列表我可以使用 n
NLTK CoreNLPDependencyParser：无法建立连接

我正在尝试通过 NLTK 使用斯坦福解析器按照示例here http www nltk org api nltk parse html nltk parse corenlp CoreNLPDependencyParser 20tutori
如何将地名词典或词典表示为 crf++ 中的特征？

如何使用地名词典或词典作为功能CRF https taku910 github io crfpp 详细说明假设我想对人名进行 NER 并且我有一个包含常见人名的地名词典或字典我想使用这个地名词典作为 crf 的输入我该怎么做我正在
使用 Hadoop MapReduce 的计算语言学项目构想

我需要做一个关于计算语言学课程的项目是否有任何有趣的语言问题其数据密集程度足以使用 Hadoop MapReduce 来解决解决方案或算法应尝试分析并提供语言领域的一些见解但是它应该适用于大型数据集以便我可以使用 hado
下载变压器模型以供离线使用

我有一个训练有素的 Transformer NER 模型我想在未连接到互联网的机器上使用它加载此类模型时当前会将缓存文件下载到 cache 文件夹要离线加载并运行模型需要将 cache 文件夹中的文件复制到离线机器上然而这些文
在Python或Sklearn中用整数值对具有字符串值的列变量进行编码

如何用整数值对数据表中字符串类型的列值进行编码例如我有两个特征变量颜色可能的字符串值 R G 和 B 和技能可能的字符串值 C Java SQL 和 Python 给定数据表有两列 Color gt R G B B G R B G
SGDClassifier 每次为文本分类提供不同的准确度

我使用 SVM 分类器将文本分类为好文本和乱码我正在使用 python 的 scikit learn 并按如下方式执行 Created on May 5 2017 import re import random import numpy
如何调整 NLTK 句子标记器

我正在使用 NLTK 来分析一些经典文本但我在按句子标记文本时遇到了麻烦例如这是我从以下内容中得到的片段莫比迪克 http www gutenberg org cache epub 2701 pg2701 txt import nlt
创建 .conll 文件作为斯坦福解析器的输出

我想使用斯坦福解析器创建一个 conll 文件以进行进一步处理到目前为止我设法使用以下命令解析测试句子 stanford parser full 2013 06 20 lexparser sh stanford parser full
否定句子的算法

我想知道是否有人熟悉算法句子否定的任何尝试例如给定一个句子这本书很好请提供任意数量的意思相反的替代句子例如这本书不好甚至这本书不好显然以高精度实现这一点可能超出了当前 NLP 的范围但我确信在这个主题上已经有了一些工作
将 python NLTK 解析树保存到图像文件[重复]

这个问题在这里已经有答案了这可能会复制这个 stackoverflowquestion https stackoverflow com questions 23429117 saving nltk drawn parse tree to
从文本文件中提取与输入单词最相似的前 N 个单词

我有一个文本文件其中包含我使用 BeautifulSoup 提取的网页内容我需要根据给定的单词从文本文件中找到 N 个相似的单词流程如下从中提取文本的网站 https en wikipedia org wiki Football h
Node2vec 的工作原理

我一直在读关于node2vec https cs stanford edu jure pubs node2vec kdd16 pdf嵌入算法我有点困惑它是如何工作的作为参考 node2vec 由 p 和 q 参数化并通过模拟来自节点的
NLTK 中的无监督 HMM 训练

我只是想进行非常简单的无监督 HMM 训练nltk http www nltk org 考虑 import nltk trainer nltk tag hmm HiddenMarkovModelTrainer from nltk corpu
快速NLTK解析成语法树

我正在尝试将数百个句子解析为语法树我需要快速完成问题是如果我使用 NLTK 那么我需要定义一个语法而我不知道我只知道它会是英语我尝试使用this https github com emilmont pyStatParser统计解析器

随机推荐

pandas加入DataFrame强制后缀？

如何在合并或连接上强制使用后缀我知道如果发生冲突可以提供一个但在我的情况下我将 df1 与 df2 合并这不会导致任何冲突但然后在使用后缀的 df2 上再次合并但我希望每次合并都有一个后缀因为如果我按照你的想象进行不同的组合
Spark错误：parquet.column.values.dictionary.PlainValuesDictionary$PlainIntegerDictionary

我在从配置单元表读取 Spark 数据帧时遇到问题我将数据框存储为 dataframe coalesce n files write option mergeSchema true mode overwrite parquet table
获取时、分、秒、毫秒、微秒的时间

我有这个代码 SimpleDateFormat sDate new SimpleDateFormat yyyy MM dd HH mm ss 我知道这段代码返回时间中的小时分钟秒我怎样才能得到毫秒和微秒您不会有微秒因为 Date
R 在 HPC MPIcluster 上运行 foreach dopar 循环

我可以访问带有 MPI 分区的 HPC 集群我的问题是无论我尝试什么我的代码在我的 PC 上运行良好都无法在 HPC 集群上运行代码如下所示图书馆 TM 图书馆 qdap 图书馆雪图书馆 doSNOW 库 foreach
创建 24 位 WAV 文件需要做什么特别的事情吗？

我可以成功创建 16 位 wav 文件但创建 24 位文件时我听到的只是白噪声我正在设置 24 位有符号整数数据块我是否必须在 wav 文件头的第 20 字节处设置一些特殊的音频格式我目前使用的是格式1 Edit 1 The wB
如何在 Swift 中在地图图钉周围添加圆圈？

我一直在试图解决这个问题但没有运气我可以做什么显示用户当前位置在我想要的任何地方显示图钉取决于纬度和经度我不明白的是如何围绕该位置创建地理围栏 func setupData 1 check if system can moni
Object.Create() 在幕后做什么？

我正在深入研究 JavaScript 的原型继承当使用 Object Create 创建对象时有人可以展示幕后发生了什么吗 Object Create 是否依赖于幕后的 new 和构造函数 When Object create 用于创建
为什么 C++ 隐式转换有效，但显式转换无效？

以下代码在 C 11 中编译成功 include json hpp using json nlohmann json using namespace std int main json js asd string s1 js lt comp
如何获取 firestore 文档中的字段？

我正在开发一些与 Firestore 配合使用的云功能我正在尝试获取特定文档的字段列表例如我有一个文档参考even data ref 但我不确定该文档是否包含我正在查看的字段我想获取字段名称的列表但我不知道该怎么做我试图使用Ob
使用目录树和过滤填充 TTreeView

在 Lazarus 0 9 28 2 项目上我有一个TTreeView 与名字DirTree在我的表格上 frmConvert 但我想用所有目录树填充它因为C 像这样 C 目录树 http i imagehost org 0185 cdi
卷曲 IP 地址

我需要发送一个带有用户 IP 地址而不是服务器 IP 地址的卷曲请求我尝试了这个但没有运气 curl setopt ch CURLOPT INTERFACE ip 有任何想法吗好吧所以没有办法安全地欺骗curl请求的ip地址但我发现
2 的幂公式帮助

我知道 Java 中的 2 i i i 1 1 可以让我找到一个数字是否是 2 的幂但是有人可以解释为什么这样做吗 2 i i i 1 1 基本上如果i是 2 的幂它将有一个1在其位模式中如果从中减去 1 则该值的所有低位1有点变成
LinkedIn 验证用户身份验证令牌服务器端

经过一天的研究我以以下问题结束我正在使用 ember js 构建一个 Web 应用程序目前我正在使用 linkedin javascript sdk 实现 LinkedIn 登录我遇到的问题是在收到用户信息令牌电子邮件名字等
为什么 SSLSocketFactory 缺少 setEnabledCipherSuites？

SSLSocketFactory提供getDefaultCipherSuites 默认情况下在套接字上启用的密码和getSupportedCipherSuites 如果需要可以启用密码然而 SSLSocketFactory不提供set
迭代 MultiDict 中的键和所有值

我有一本字典 params ImmutableMultiDict dataStore tardis symbol 1 symbol 2 我希望能够迭代字典并获取所有值及其键的列表但是当我尝试这样做时它只获取第一个符号键值对并忽略另一个
选择更改事件 - Html.DropDownListFor

我有两个下拉列表从第一个值中选择的值加载另一个值当控制器中有辅助方法时我该如何做到这一点 using Html BeginForm div table width 100 cellpadding 0 cellspacing 0 tr
添加 BouncyCastle 提供程序会破坏 KeyStore.load()

我使用以下命令生成了密钥库 keytool genkeypair keystore test ks storetype pkcs12 然后我运行以下测试 base64 代表我创建的密钥库 private static final Strin
实例关闭时的 Spring Cloud Gateway 500

我有一个使用Spring Cloud Load Balancer Spring Cloud版本 Hoxton SR6 的Spring Cloud Gateway eureka客户端应用程序并且我有一个Spring Boot应用程序的实例
std::to_string 线程安全吗？

我正在寻找使用将整数类型转换为字符串std to string http en cppreference com w cpp string basic string to string 但我看到了这一段 std to string依靠std
将中文文档拆分成句子[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我必须将中文文本分成多个句子我尝试了斯坦福文档预处理器它对于英语来说效果很好但对于中文则不然请

将中文文档拆分成句子[关闭]

将中文文档拆分成句子[关闭] 的相关文章

随机推荐

热门标签