通过 NLTK 的斯坦福 NLP Tagger - tag_sents 将所有内容拆分为字符

2023-11-29

我希望有人有这方面的经验，因为除了 2015 年关于 NERtagger 的错误报告（可能是相同的）之外，我在网上找不到任何评论。

不管怎样，我正在尝试对文本进行批处理，以绕过性能不佳的基本标记器。据我了解，tag_sents 应该有所帮助。

from nltk.tag.stanford import StanfordPOSTagger
from nltk import word_tokenize
import nltk

stanford_model = 'stanford-postagger/models/english-bidirectional-distsim.tagger'
stanford_jar = 'stanford-postagger/stanford-postagger.jar'
tagger = StanfordPOSTagger(stanford_model, stanford_jar)
tagger.java_options = '-mx4096m'
text = "The quick brown fox jumps over the lazy dog."
print tagger.tag_sents(text)

除非我传递给 tag_sents 方法的内容是什么，文本都会被分割成字符而不是单词。有谁知道为什么它不能正常工作？这按预期工作...

tag(text)

我也尝试将句子分成标记，看看这是否有帮助，但同样的处理

The tag_sents函数接受一个字符串列表的列表。

tagger.tag_sents(word_tokenize("The quick brown fox jumps over the lazy dog."))

这是一个有用的习语：

 tagger.tag_sents(word_tokenize(sent) for sent in sent_tokenize(text))

where text是一个字符串。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLP

NLTK

stanfordnlp

通过 NLTK 的斯坦福 NLP Tagger - tag_sents 将所有内容拆分为字符的相关文章

如何从 Python 返回 JSON 值？

我从如下所示的 jQuery 文件发送 ajax 请求该请求需要 JSON 格式的响应 jQuery ajax url Control getImageDetails file id currentId type GET contentT
Cython 函数中的字符串

我想这样做将字符串传递给 Cython 代码 test py s Bonjour myfunc s test pyx def myfunc char mystr cdef int i for i in range len mystr err
sphinx 中的分组方法文档字符串

是否可以使用 sphinx 的 autodoc 功能将多个方法文档字符串分组以便将它们列在一起 class Test object def a self A method of group foo def b self A method
查找 python 数据框中每行的最高值

我想找到每行中的最高值并返回 python 中该值的列标题例如我想找到每行的前两个 df A B C D 5 9 8 2 4 1 2 3 我希望我的输出看起来像这样 df B C A D 您可以使用字典理解来生成largest n数据帧
[python]没有属性“TessBaseAPI”

当我编译代码时出现错误 import tessercat api tesseract TessBaseAPI 错误是 AttributeError 模块对象没有属性 TessBaseAPI 我已经安装了tesseract via pip
使用Python进行图像识别[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个想法就是我想识别图像中的字母可能是 bmp或 jpg 例如这是一个包含字母 S 的 bmp 图像我想做的是使用Pyth
使用 OpenCV 进行相机校准 - 如何调整棋盘方块大小？

我正在使用 OpenCV Python 示例开发相机校准程序来自 OpenCV 教程 http opencv python tutroals readthedocs io en latest py tutorials py calib3d
覆盖现有的 django-admin 命令

除了编写自定义 django admin 命令之外这是有详细记录的 https docs djangoproject com en 1 9 howto custom management commands 我希望能够覆盖现有命令例如ma
直接打开Spyder还是通过Pythonxy打开？

之前我一直在运行PythonSpyder 我总是开始Spyder直接双击其图标今天突然发现我还有一个东西叫Python x y 我注意到我也可以开始Spyder通过它这两种方法有什么区别吗如果不是的话有什么意义Python x y
如何在 Python 中将 EXR 文件的 float16 转换为 uint8

我正在使用 OpenEXR 读取 Python 中的 EXR 文件我有带有半数据 float16 的 R G 和 B 通道我尝试使用 Numpy 将数据从 float16 转换为 uint8 0 255 颜色但没有成功 rCh get
Python `concurrent.futures`：根据完成顺序迭代 future

我想要类似的东西executor map 除了当我迭代结果时我想根据完成的顺序迭代它们例如首先完成的工作项应该首先出现在迭代中等等这样当且仅当序列中的每个工作项尚未完成时迭代就会阻塞我知道如何使用队列自己实现这一点但我想知道
如何将列表中的每个项目转换为字符串，以便连接它们？ [复制]

这个问题在这里已经有答案了我需要加入一个项目列表列表中的许多项目都是从函数返回的整数值 IE myList append munfunc 我应该如何将返回的结果转换为字符串以便将其加入列表我是否需要对每个整数值执行以下操作 myLis
django 中的“管理器”是什么？

我已经阅读了Django官方中的定义文档 https docs djangoproject com en dev topics db managers 我仍然对什么感到困惑Manager does 文档说它们允许您操作数据库表模型但我仍
Learning_rate 不是合法参数

我正在尝试通过实现 GridSearchCV 来测试我的模型但我似乎无法在 GridSearch 中添加学习率和动量作为参数每当我尝试通过添加这些代码来执行代码时我都会收到错误这是我创建的模型 def define model op
让 TensorFlow 在 ARM Mac 上使用 GPU

我已经安装了TensorFlow在 M1 上 ARM Mac 根据这些说明 https github com apple tensorflow macos issues 153 一切正常然而模型训练正在进行CPU 如何将培训切换到GPU
Docker Build 找不到 pip

尝试关注一些 1 https aws amazon com blogs aws run docker apps locally using the elastic beanstalk eb cli 2 http docs aws amazo
如何从外语线程调用Python函数（C++）

我正在开发一个程序使用 DirectShow 来抓取音频数据媒体文件 DirectShow 使用线程将音频数据传递给回调我的程序中的函数然后我让该回调函数调用另一个函数 Python 中的函数我使用 Boost Python 来包
为什么 tesseract 无法从这个简单的图像中读取文本？

我在 pytesseract 上阅读了大量的帖子但我无法让它从一个简单的图像中读取文本它返回一个空字符串这是图像我尝试过缩放它灰度化它调整对比度阈值模糊以及其他帖子中所说的一切但我的问题是我不知道 OCR 想要更好地工作
在Python中将罗马数字转换为整数

根据 user2486 所说这是我当前的代码 def romanMap map M 1000 CM 900 D 500 CD 400 C 100 XC 90 L 50 XL 40 X 10 IX 9 V 5 V 4 I 1 return
使用Python的线程模块调用ctypes函数比使用多处理更快？

我一生都无法找出这个问题的答案我编写了一个可以执行数百次繁重计算的脚本我有一个绝妙的主意将这些计算任务编写为 C 然后使用 Python 的 ctypes 与它们交互我心想我什至可以使用并行性进一步优化它我最初的方法是使用线程

随机推荐

如何将文件从独立存储复制到下载文件夹？

我正在尝试将数据库文件从独立存储复制到下载文件夹或用户可以访问的任何文件夹目前我的数据库存储在 data user 0 com companyname appname files Databases MyDatabase db 我尝试使
无法删除 JTextPane 中 html 内容的额外行距

我无法将 Java 中的行挤在一起JTextPane如果我将内容类型设置为text html 我希望它们像内容类型一样紧密地结合在一起text plain 默认值 The line height top margin CSS 属性似乎没有帮
PHP 如何将对象数组与数组数组合并

首先抱歉冗长的解释我在 PHP 中有两个数组第一个数组是对象数组第二个数组是数组的数组基本上我想循环遍历并将对象与其匹配的数组合并然后返回合并的对象请参阅以下内容print r 对象结构数组 Array 0 gt stdCl
在 Azure Blob 存储上上传大文件时“流太长”

我尝试将大文件 4Gb 上传到 Azure Blob 存储但失败根据这篇文章 https learn microsoft com en us azure storage storage dotnet how to use blobs 这
Excel/VBA - 如果网络连接不存在则中止脚本

是否有任何 VBA 代码可以查找当前的互联网连接我有一个将在计时器上运行的代码此代码将打开本地网络共享驱动器上的文件我正在寻找某种类型的 On Error Goto ErrorMessage 代码如果它在网络未连接时尝试打开文件您
Marshal (Ruby) 管道：将序列化对象发送到子进程

我需要使用 Marshal 序列化 Ruby 中的对象并通过管道将其发送到子进程我怎样才能做到这一点我的代码如下所示我的问题在评论中 data Marshal dump data call sub process ruby r a
SQL 作业存在事务日志问题

我有一个仅执行存储过程的 SQL 作业每天早上当作业尝试运行时我都会收到以下错误当前事务无法提交并且无法支持写入日志文件的操作当我继续尝试重新启动作业时它总是给我同样的错误但是如果我只是执行存储过程而不使用作业它就可以正常
如何在 Rails 4 中格式化 db:datetime 记录中的时间和日期？

我有一个var在我看来返回日期和时间datetime数据库记录为 UTC 格式输出如下所示 2014 01 21 03 13 59 UTC 我该如何格式化它 Date parse var 会给 gt Tue 21 Jan 2014在 I
与 DrawText 函数冲突

我正在开发一个多平台应用程序在一个组件中我有一个名为 DrawText 的类方法不幸的是我收到一个链接器错误仅在 Windows 上指出此类的 DrawTextW 方法存在未解析的外部符号我之前见过以 Text 结尾的其他方法
将值从一种形式传递到另一种形式

我有两个表单我需要将值从 form1 textbox1 传递到 form2 variable Form1 string Ed En public string En1 get return En set En value public s
包裹在 HorizontalScrollView 中的 TabWidget 不随 ViewPager 滚动

我必须使用TabHost代替ActionBarTabs为了使它们可以滚动我已经包裹了我的TabWidget in a HorizontalScrollView 但是HorizontalScrollView不按照以下方式自行滚动ViewPa
Slowcheetah 已安装，但没有转换选项

我在 Visual Studio 2013 中有一个使用 MVC 5 和 EF 6 的 NET 4 5 项目我想要对 app config 进行转换 I ve installed the SlowCheetah project via N
为矩阵的每一行查找 5 个连续的数字 >= 3

我有以下矩阵 mdat lt matrix c 6 2 4 4 5 1 6 2 1 5 1 3 3 5 4 5 1 4 2 2 4 3 4 4 4 4 3 3 1 1 3 2 3 3 3 3 3 2 2 2 1 2 2 2 2 2 1 1
Chrome 开发者工具中的 Websocket

目前正在与Socket IO使用网络套接字我有几个关于如何在 chrome devtools 中解释 websockets 的问题当我们在 chrome 中得到以下输出时问题该方法仍然由HTTPget 方法动词难道是因为这个HTT
在 Altair 中生成“闪避”或“并排”条形图/柱形图？

如果之前有人问过这个问题我深表歉意但我正在寻找一种方法来创建躲避的条形图 language from ggplot2 在 python 中使用 Altair 库我知道 Altair 有这个例子 import altair as a
将逗号分隔值转换为多行

我有一个这样的表 ID NAME Dept ID 1 a 2 3 2 b 3 c 1 2 Department 是另一个以 dept id 和 dept name 作为列的表我想要的结果是 ID Name Dept ID 1 a 2 1
自包含数据库？

有没有一种方法可以将小型独立的关系数据库与 Windows 应用程序一起分发而不需要用户安装其他依赖项例如 MS Access SQL Server MySQL SQLite 等只有应用程序将访问数据库而不是用户直接访问微软
使用 google calendar api 时，Android 给出 IOException 并显示“无法创建目录：/tokens”

尝试将日历快速入门 API 实现到 Android 中但是当我声明令牌时如图所示 private final String TOKENS DIRECTORY PATH tokens 然后在构建器中使用该字符串 GoogleAuthori
Python pandas 在数据框中拆分文本和数字

我有一个数据框 df1 其列名称 Acc Number 作为第一列数据如下所示 Acc Number ASC100 1 MJT122 ASC120 4 XTY111 我需要创建一个新的数据框 df2 它有两列第一列包含文本部分第二列包
通过 NLTK 的斯坦福 NLP Tagger - tag_sents 将所有内容拆分为字符

我希望有人有这方面的经验因为除了 2015 年关于 NERtagger 的错误报告可能是相同的之外我在网上找不到任何评论不管怎样我正在尝试对文本进行批处理以绕过性能不佳的基本标记器据我了解 tag sents 应该有所帮助

通过 NLTK 的斯坦福 NLP Tagger - tag_sents 将所有内容拆分为字符

通过 NLTK 的斯坦福 NLP Tagger - tag_sents 将所有内容拆分为字符 的相关文章

随机推荐

热门标签

通过 NLTK 的斯坦福 NLP Tagger - tag_sents 将所有内容拆分为字符的相关文章