NLTK 感知器标记器的标记集是什么？

2024-04-14

NLTK 感知器标记器的标记集是什么？预训练模型使用的语料是什么？

我尝试从NLTK网站上找到官方信息。但他们没有那个。

From https://github.com/nltk/nltk/pull/1143 https://github.com/nltk/nltk/pull/1143，我们看到它是一个来自https://spacy.io/blog/part-of-speech-pos-tagger-in-python https://spacy.io/blog/part-of-speech-pos-tagger-in-python

训练后的标签集tagdict包括以下标签：

>>> from nltk.tag import PerceptronTagger
>>> tagger = PerceptronTagger()
>>> set(tagger.tagdict.values())
set(['PRP$', 'VBG', 'VBD', '``', 'VBN', "''", 'VBP', 'WDT', 'JJ', 'WP', 'VBZ', 'DT', '#', '$', 'NN', ')', '(', ',', '.', 'TO', 'PRP', 'RB', ':', 'NNS', 'NNP', 'VB', 'WRB', 'CC', 'CD', 'EX', 'IN', 'WP$', 'MD', 'JJS', 'JJR'])

完整的标签集是：

>>> sorted(tagger.classes)
['#', '$', "''", '(', ')', ',', '.', ':', 'CC', 'CD', 'DT', 'EX', 'FW', 'IN', 'JJ', 'JJR', 'JJS', 'LS', 'MD', 'NN', 'NNP', 'NNPS', 'NNS', 'PDT', 'POS', 'PRP', 'PRP$', 'RB', 'RBR', 'RBS', 'RP', 'SYM', 'TO', 'UH', 'VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ', 'WDT', 'WP', 'WP$', 'WRB', '``']

这是 Penn Treebank 标签集，来自：https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLTK

NLTK 感知器标记器的标记集是什么？的相关文章

词汇量和嵌入维度之间的首选比例是多少？

例如使用时gensim word2vec或用于训练嵌入向量的类似方法我想知道什么是好的比率或者嵌入维度与词汇量之间是否有首选比率随着更多数据的出现这种情况会如何变化由于我仍在讨论这个主题因此在训练嵌入向量时如何选择合适的窗口大小
python 中没有空格的分割句子（nltk？）

我有一组连接的单词我想将它们分成数组例如 split word acquirecustomerdata gt acquire customer data I found pyenchant 但它不适用于 64 位 Windows 然后我
使用 nltk 从德语文本中提取单词

我正在尝试从德语文档中提取单词当我使用 nltk 教程中描述的以下方法时我无法获取具有特定于语言的特殊字符的单词 ptcr nltk corpus PlaintextCorpusReader Corpus words nltk Text
从 pandas DataFrame 创建术语密度矩阵的有效方法

我正在尝试从 pandas 数据帧创建术语密度矩阵因此我可以对数据框中出现的术语进行评分我还希望能够保留数据的空间方面请参阅帖子末尾的评论以获取我的意思的示例我是 pandas 和 NLTK 的新手所以我希望我的问题可以通过一
有没有办法在python nltk中反转stem？

我有一个 NLTK python 中的词干列表并且想要获取创建该词干的可能单词有没有办法在Python中获取词干并获取词干的单词列表据我所知答案是否定的并且根据词干分析器的不同可能很难进行详尽的搜索来恢复词干规则的效果并且无论
在 NLTK 中使用斯坦福 NER Tagger 提取人员和组织列表

我正在尝试使用 Python NLTK 中的斯坦福命名实体识别器 NER 提取人员和组织的列表当我跑步时 from nltk tag stanford import NERTagger st NERTagger usr share sta
NLTK 使用语料库标记西班牙语单词

我正在尝试学习如何使用 NLTK 标记西班牙语单词来自NLTK书 http nltk org book ch05 html 使用它们的示例来标记英语单词非常容易因为我对 nltk 和所有语言处理都很陌生所以我对如何进行感到非常困惑我
将单词添加到 WordNet 的本地副本

我正在使用 WordNet 通过 Python 的 NLTK 访问来比较社交媒体中单词的同义词集其中许多单词并不包含在 NLTK 连接的 WordNet 版本中当我说我words我指的是特定领域的术语而不是缩写或表情符号我已经编制了
为什么 getoldtweets3 库提供 404 错误？

我正在使用 getoldtweets3 库来抓取电晕爆发信息我收到这个错误 error C Users Vilius anaconda3 python exe C Users Vilius PycharmProjects Sentimen
NLTK 中 Text.similar() 和 ContextIndex.similar_words() 生成的单词按频率排序？

我使用这两个函数来查找相似的单词它们返回不同的列表我想知道这些函数是否按最频繁关联到最不频繁关联排序 ContextIndex similar words word http nltk org modules nltk text htm
使用 NLTK 解析 CoNLL-U 文件

我知道有CoNLL U https universaldependencies org docs format htmlPython 中的解析器我只是想得到确认NLTK没有解析 CoNLL U 或具有依赖语法的其他 CoNLL 格式的本
nltk 无法找到 mace4

在执行下面的代码时我收到了如上所述的错误我从以下位置下载了所需的包http www cs unm edu mccune prover9 download http www cs unm edu mccune prover9 downlo
使用 tar.gz 下载在 Ubuntu 13.10 上安装 nltk 3.0

我想在 Ubuntu 13 10 上安装 nltk 3 0 我已经运行 Ubuntu 几个星期了我第一次使用 Linux 我刚刚下载了 python 3 4 0 3 3 也在 Ubuntu 上因为它是随操作系统一起安装的 Python
使用 NLTK 的块解析器匹配单词

NLTK的块解析器的正则表达式可以匹配POS标签但是它们也可以匹配特定的单词吗所以假设我想用名词后跟动词 left 来对任何结构进行分块将此模式称为 L 例如句子 the DT dog NN left VB 应被分块为 S DT
使用 nltk 中的meteor_score模块评估模型时如何实现meteor分数？

我目前有 2 个文件 reference txt 和 model txt 这两个文本文件包含原始字幕和训练后生成的字幕我可以简单地执行以下操作来获取流星分数 score nltk translate meteor score meteor
使用 nltk 进行分块

如何从给定模式的句子中获取所有块示例 NP
下载NLTK数据时出现PermissionError

我使用 Anaconda 的 Python 3 6 3 发行版它安装了 NLTK 但没有安装我项目所需的 NLTK DATA 问题是当我尝试安装时 nltk download I get PermissionError Errno 13
如何从 nltk 分类器获得精度和召回率？

import nltk from nltk corpus import movie reviews from nltk tokenize import word tokenize documents list movie reviews w
NLTK 中的无监督 HMM 训练

我只是想进行非常简单的无监督 HMM 训练nltk http www nltk org 考虑 import nltk trainer nltk tag hmm HiddenMarkovModelTrainer from nltk corpu
如何将标记化中的多单词名称保留在一起？

我想使用 TF IDF 特征对文档进行分类一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n

随机推荐

如何使用可分页Spring数据JPA选择不同的值？

我想在我的表中使用分页进行不同的选择但它声称存在此错误有谁知道如何解决它 Error org postgresql util PSQLException ERROR for SELECT DISTINCT ORDER BY expres
需要生成的 JSON 文档与 iOS 中 NSMutableDictionary 中插入的对象的顺序相同

我正在从 NSMutableDictionary 生成一个 JSON 文档该文档由指向 NSStrings 的键以及两个依次指向其他 NSMutableDictionary 的键组成我的问题是当我输出 JSON 文档时我注意到 JS
如何在iOS Objective-C中实现php的openssl_encrypt()方法？

我想实现php的openssl encrypt 中的方法iOS Objective C 因此我尝试了这段代码 import
在经典 ASP 中设置 SessionId？

在 PHP 中我可以通过使用 Session id 作为 setter 来选择使用特定的 Session Classic ASP VBScript 中有类似的功能吗我有一个 VBScript 站点根据页面的不同该站点可以直接从浏览器
批量执行R脚本

我无法从 Windows 命令行获取脚本输入以下命令 C Program Files RStudio bin rstudio exe CMD BATCH vanilla slave E myfile R 打开 Rstudio 和相关脚本
http.max_content_length 的 Amazon OpenSearch 等效项是什么？我可以增加它吗？

在非 AWS 管理的 ElasticSearch 中您可以增加以下值http max content length configuration https www elastic co guide en elasticsearch ref
获取 ASP.NET MVC 4 中视图的嵌套级别

我一直在寻找一种方法来确定视图的嵌套级别我发现确定视图嵌套级别 https stackoverflow com questions 4982588 determine view nesting level在 stackoverflo
ROUGE评价方法给出零值

我已经按照中所述设置了所有参数http kavita ganesan com rouge howto http kavita ganesan com rouge howto 但我得到的精确召回率和 f 1 值为零请帮帮我我能做什么如果
创建自定义注释作为框架注释的别名？

是否可以创建一个自定义的别名注释来代替 SuppressWarnings unused EventBus public void onEvent SomeMessage msg like EventBusListener public vo
是否应该重用 SqlConnection、SqlDataAdapter 和 SqlCommand 对象？

我正在使用一个 DAL 对象该对象的布局类似于以下代码我简化了很多代码只是为了展示设置 public class UserDatabase IDisposable private SqlDataAdapter UserDbAdapter
从字符串中删除包含特定字符的行

我正在开发一个 Java 项目来读取 java 类并将所有 DOC 注释提取到 HTML 文件中我无法清理一串我不需要的线路假设我有一个字符串例如 Bla bla bla bla bla bla CODE CODE CODE Bla
检查客户端是否可以访问资源的 RESTful 方法是什么？

我正在尝试确定 REST API 中用于确定客户端是否可以访问特定资源的最佳实践两个简单的示例场景电话簿查找服务客户端通过访问例如查找电话号码 GET http host directoryEntries numbers 12345
抛出自定义异常并显示来自自定义 AuthenticationProvider 的错误消息

这是后续这个问题 https stackoverflow com questions 6412591 hooking into pre authentication with spring security core 我有一个扩展 Abst
统计foreach循环中当前迭代次数的百分比

我正在尝试构建一个脚本来获取循环迭代的当前百分比 I have
正则表达式与 antMatcher URL 模式不匹配

我试图忽略身份验证中的 url 我尝试了多种不同的模式但 java 似乎无法识别它们我的配置如下所示 Override public void configure WebSecurity web throws Exception sup
如果可能的话，如何在 C 中定义 2 位数字？

对于我的大学过程我正在模拟一个称为随机顺序吸附的过程我必须做的一件事是随机地将正方形不能重叠放置到格子上直到没有更多空间为止重复该过程几次以找到平均干扰覆盖率基本上我正在对一个大的整数数组执行操作其中存在 3 个可能的值
Swift 相当于 @encode

是否有与 Objective C 相当的 Swift encode 例如 encode void gt v 搜索一无所获不不存在因为在底层 Swift 类不使用 Objective C 内省来完成它们的工作不需要计算这个像 Obj
使用 Response.Redirect() 时出现线程中止异常

我在更新面板下的页面中编写了以下代码 protected void myGrid RowCommand object sender GridViewCommandEventArgs e try if e CommandName EditNa
从 SQL 中的存储过程获取 RETURN 值

我有一个存储过程它以 RETURN 值 0 或 1 结尾我想在另一个存储过程的 IF 语句中使用该值如何获取前一个存储过程的返回值并将其保存在后一个存储过程的变量中我找不到任何相关的东西所有问题都与在 C 中获取 RETURN 值
NLTK 感知器标记器的标记集是什么？

NLTK 感知器标记器的标记集是什么预训练模型使用的语料是什么我尝试从NLTK网站上找到官方信息但他们没有那个 From https github com nltk nltk pull 1143 https github com nl

NLTK 感知器标记器的标记集是什么？

NLTK 感知器标记器的标记集是什么？ 的相关文章

随机推荐

热门标签

NLTK 感知器标记器的标记集是什么？的相关文章