NLTK - 获取并简化标签列表

2023-12-24

我正在使用布朗语料库。我想要某种方法来打印所有可能的标签及其名称（而不仅仅是标签缩写）。标签也不少，有没有办法“简化”标签呢？我所说的简化是指将两个极其相似的标签合并为一个，然后用另一个标签重新标记合并后的单词？

之前以某种方式讨论过：

Java Stanley NLP：语音标签的一部分？ https://stackoverflow.com/questions/1833252/java-stanford-nlp-part-of-speech-labels
使用 NLTK 简化法语 POS 标签集 https://stackoverflow.com/questions/27513185/simplifying-the-french-pos-tag-set-with-nltk
https://linguistics.stackexchange.com/questions/2249/turn-penn-treebank-into-simler-pos-tags https://linguistics.stackexchange.com/questions/2249/turn-penn-treebank-into-simpler-pos-tags

POS 标签输出nltk.pos_tag是 PennTreeBank 标签集，https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html, see NLTK 可能的 pos 标签有哪些？ https://stackoverflow.com/questions/15388831/what-are-all-possible-pos-tags-of-nltk

有几种方法但是最简单的可能是仅使用 POS 的前 2 个字符作为主要的 POS 标签集。这是因为 POS 标签中的前两个字符代表 Penn Tree Bank 标签集中 POS 的广泛类别。

例如NNS表示复数名词，并且NNP表示专有名词，并且NN标签通过表示通用名词来包含所有内容。

这是一个代码示例：

>>> from nltk.corpus import brown
>>> from collections import Counter

>>> x = defaultdict(list)
>>> for word,pos in brown.tagged_words()[1:100]:
...     x[pos].append(word)
... 
>>> x
defaultdict(<type 'list'>, {u'DTI': [u'any'], u'BEN': [u'been'], u'VBD': [u'said', u'produced', u'took', u'said'], u'NP$': [u"Atlanta's"], u'NN-TL': [u'County', u'Jury', u'City', u'Committee', u'City', u'Court', u'Judge', u'Mayor-nominate'], u'VBN': [u'conducted', u'charged', u'won'], u"''": [u"''", u"''", u"''"], u'WDT': [u'which', u'which', u'which'], u'JJ': [u'recent', u'over-all', u'possible', u'hard-fought'], u'VBZ': [u'deserves'], u'NN': [u'investigation', u'primary', u'election', u'evidence', u'place', u'jury', u'term-end', u'charge', u'election', u'praise', u'manner', u'election', u'term', u'jury', u'primary'], u',': [u',', u','], u'.': [u'.', u'.'], u'TO': [u'to'], u'NP': [u'September-October', u'Durwood', u'Pye', u'Ivan'], u'BEDZ': [u'was', u'was'], u'NR': [u'Friday'], u'NNS': [u'irregularities', u'presentments', u'thanks', u'reports', u'irregularities'], u'``': [u'``', u'``', u'``'], u'CC': [u'and'], u'RBR': [u'further'], u'AT': [u'an', u'no', u'The', u'the', u'the', u'the', u'the', u'the', u'the', u'The', u'the'], u'IN': [u'of', u'in', u'of', u'of', u'for', u'in', u'by', u'of', u'in', u'by'], u'CS': [u'that', u'that'], u'NP-TL': [u'Fulton', u'Atlanta', u'Fulton'], u'HVD': [u'had', u'had'], u'IN-TL': [u'of'], u'VB': [u'investigate'], u'JJ-TL': [u'Grand', u'Executive', u'Superior']})
>>> len(x)
29

缩短版本如下所示：

>>> x = defaultdict(list)
>>> for word,pos in brown.tagged_words()[1:100]:
...     x[pos[:2]].append(word)
... 
>>> x
defaultdict(<type 'list'>, {u'BE': [u'was', u'been', u'was'], u'VB': [u'said', u'produced', u'took', u'said', u'deserves', u'conducted', u'charged', u'investigate', u'won'], u'WD': [u'which', u'which', u'which'], u'RB': [u'further'], u'NN': [u'County', u'Jury', u'investigation', u'primary', u'election', u'evidence', u'irregularities', u'place', u'jury', u'term-end', u'presentments', u'City', u'Committee', u'charge', u'election', u'praise', u'thanks', u'City', u'manner', u'election', u'term', u'jury', u'Court', u'Judge', u'reports', u'irregularities', u'primary', u'Mayor-nominate'], u'TO': [u'to'], u'CC': [u'and'], u'HV': [u'had', u'had'], u'``': [u'``', u'``', u'``'], u',': [u',', u','], u'.': [u'.', u'.'], u"''": [u"''", u"''", u"''"], u'CS': [u'that', u'that'], u'AT': [u'an', u'no', u'The', u'the', u'the', u'the', u'the', u'the', u'the', u'The', u'the'], u'JJ': [u'Grand', u'recent', u'Executive', u'over-all', u'Superior', u'possible', u'hard-fought'], u'IN': [u'of', u'in', u'of', u'of', u'of', u'for', u'in', u'by', u'of', u'in', u'by'], u'NP': [u'Fulton', u"Atlanta's", u'Atlanta', u'September-October', u'Fulton', u'Durwood', u'Pye', u'Ivan'], u'NR': [u'Friday'], u'DT': [u'any']})
>>> len(x)
19

另一种解决方案是使用通用邮资, see http://www.nltk.org/book/ch05.html http://www.nltk.org/book/ch05.html

>>> x = defaultdict(list)
>>> for word,pos in brown.tagged_words(tagset='universal')[1:100]:
...     x[pos].append(word)
... 
>>> x
defaultdict(<type 'list'>, {u'ADV': [u'further'], u'NOUN': [u'Fulton', u'County', u'Jury', u'Friday', u'investigation', u"Atlanta's", u'primary', u'election', u'evidence', u'irregularities', u'place', u'jury', u'term-end', u'presentments', u'City', u'Committee', u'charge', u'election', u'praise', u'thanks', u'City', u'Atlanta', u'manner', u'election', u'September-October', u'term', u'jury', u'Fulton', u'Court', u'Judge', u'Durwood', u'Pye', u'reports', u'irregularities', u'primary', u'Mayor-nominate', u'Ivan'], u'ADP': [u'of', u'that', u'in', u'that', u'of', u'of', u'of', u'for', u'in', u'by', u'of', u'in', u'by'], u'DET': [u'an', u'no', u'any', u'The', u'the', u'which', u'the', u'the', u'the', u'the', u'which', u'the', u'The', u'the', u'which'], u'.': [u'``', u"''", u'.', u',', u',', u'``', u"''", u'.', u'``', u"''"], u'PRT': [u'to'], u'VERB': [u'said', u'produced', u'took', u'said', u'had', u'deserves', u'was', u'conducted', u'had', u'been', u'charged', u'investigate', u'was', u'won'], u'CONJ': [u'and'], u'ADJ': [u'Grand', u'recent', u'Executive', u'over-all', u'Superior', u'possible', u'hard-fought']})
>>> len(x)
9

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLTK - 获取并简化标签列表的相关文章

将 JSON 发布到 Python CGI

我已经安装了 Apache2 并且 Python 可以工作但我有一个问题我有两页一个是 Python 页面另一个是带有 JQuery 的 Html 页面有人可以告诉我如何让我的 ajax 帖子正常工作吗
如何在 Debian 上的 virtualenv 中安装 numpy？

注参见这另一篇文章 https stackoverflow com questions 6442754 how to install h5py numpylibhdf5 as non root on a debian linux syst
str.translate 与 str.replace - 何时使用哪一个？

何时以及为什么使用前者而不是后者反之亦然目前尚不完全清楚为什么有些人使用前者以及为什么有些人使用后者它们有不同的目的 translate只能用任意字符串替换单个字符但一次调用可以执行多次替换它的参数是一个特殊的表它将单个字符映射
如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th
Keras model.predict 函数给出输入形状错误

我已经在 Tensorflow 中实现了通用句子编码器现在我正在尝试预测句子的类概率我也将字符串转换为数组 Code if model model type universal classifier basic class probs
为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
django 模板 - 如何动态访问变量？

假设我有一个具有以下上下文的 django 模板 data1 this is data1 data2 this is data2 data name data2 现在我知道了data name 假设它是 data2 是否可以用它来访问变量d
Python - Unicode 到 ASCII 的转换

我无法在不丢失数据的情况下将以下 Unicode 转换为 ASCII u ABRA xc3O JOS xc9 I tried encode and decode他们不会这么做有人有建议吗 Unicode 字符u xce0 and u xc
设置高亮大括号的 vim 颜色主题

如何更改突出显示大括号的 vim 配色方案我希望实际编辑 vim 主题文件以使更改永久生效问候克雷格匹配括号的自动高亮颜色称为MatchParen 您可以通过执行以下操作来更改 vimrc 中的颜色 highlight MatchP
查找与另一列 Pandas 中的唯一值关联的列中的值的交集

如果我有一个像这样的数据框非常小的例子 col1 col2 0 a 1 1 a 2 2 b 1 3 b 2 4 b 4 5 c 1 6 c 2 7 c 3 我想要所有的交集col2当价值观与其独特性相关时col1值因此在这种情况下交集
Py2exe - Pmw WindowsError：[错误 3]

我正在尝试使用 Py2exe 构建独立的可执行文件我已经导入了 Pmw 类当我运行独立可执行文件时出现以下错误 Traceback most recent call last File py line 9 in
通过 Python 循环浏览网络上的目录并显示其内容（文件和其他目录）

同样的道理在Python中处理从源目录到目标目录的一组文件 https stackoverflow com questions 2593399 process a set of files from a source directory t
类型错误：此 COM 对象无法自动执行 makepy 过程 - 请为此对象手动运行 makepy

这是什么错误回溯错误 C Users DELL PycharmProjects MyNew venv Scripts python exe C Users DELL PycharmProjects MyNew agaaaaain py T
Python：在字典中查找具有唯一值的键？

我收到一个字典作为输入并且想要返回一个键列表其中字典值在该字典的范围内是唯一的我将用一个例子来澄清假设我的输入是字典 a 构造如下 a dict a cat 1 a fish 1 a dog 2 lt unique a bat 3
Django 将 JSON 数据传递给静态 getJSON/Javascript

我正在尝试从 models py 中获取数据并将其序列化为views py 中的 JSON 对象模型 py class Platform models Model platformtype models CharField max len
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
pandas.read_fwf 忽略提供的数据类型

我正在从文本文件导入数据框我想指定列的数据类型但 pandas 似乎忽略了dtype input 一个工作示例 from io import StringIO import pandas as pd string USAF WBAN S
使用 MPI 的 Allreduce 对 Python 对象求和

我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作我想让并行使用这个数组操作成为可能最重要的是我最终在每个节点上都有计数器我想使用 MPI Allreduce 或另一个不错的解决方案将其添加在一起例如使用计数
使用 pandas 单元格中列表的长度选择行[重复]

这个问题在这里已经有答案了我有一张表 df a b c 1 x y x 2 x z c d 3 x t e f g 只是想知道如何使用 c 列的长度选择行 such as df loc len df c gt 1 我知道这是不对的正确的
基于值的 matplotlib 条形图颜色

有没有一种方法可以根据条形图的值对条形图的条形进行着色例如 values below 0 5 red values between 0 5 to 0 green values between 0 to 08 blue etc 我找到了一些

随机推荐

为什么 IsNull 比合并慢两倍（相同查询）？

我们在 SQL Server 2008 SP1 10 0 2531 0 X64 Win2008 SP2 X64 上遇到了奇怪的情况这是一个繁重的查询 select t1 id t2 id from t1 t2 where t1 id t2
Linux 内核模块 (*.ko) 内核之间的兼容性

我有一个简单的内核对象用于探测内核内存如果我在 64 位 Ubuntu 3 2 机器上构建它它就可以在该机器上正常运行但它不会在我的 64 位 Ubuntu 3 9 机器上安装反之亦然如果我尝试在内核版本上运行它而不是我构建它的
跨多个 Browserify 或 Webpack 捆绑包共享通过 NPM 加载的模块的简单解决方案

把我的头发拉出来寻找simple通过 NPM 跨多个 Browserify 或 Webpack 捆绑包共享代码的解决方案思考是否存在文件桥梁这样的东西这不是由于编译时间我知道 watchify 而是由于希望将所有供应商特定的库提
如何在 Angular 2 中制作这个 jQuery 事件处理程序？

我正在 Angular 2 中创建一个 Web 应用程序在其中一个页面上我使用了一个名为的 jQuery 插件jquery 评论 https github com Viima jquery comments 启用用户评论现在如果用户
插入期间字符串未被识别为有效的日期时间

当我尝试转换为日期时间时出现以下错误字符串未被识别为有效的日期时间 cost b date DateTime Parse c date Text c date Text 12 28 2012 然后我尝试 string date strin
Java2D OpenGL 图形加速不起作用

我想将 Swing 与 Java2D OpenGL 图形加速一起使用然而它不起作用我自己回答了这个问题因为我寻找解决方案很长一段时间这是我的代码 import javax swing JFrame import javax swi
回滚 GitHub Desktop（或 Windows 版 Github）中未提交的更改

我在用着Github 桌面 https desktop github com 以前称为适用于 Windows 的 GitHub https windows github com 并且我对本地文件做了很多更改事情变得如此混乱我决定只想将本
WordPress 上的 Google Analytics 事件跟踪

我试图在单击特定菜单项时发送事件我的头脚本如下
BI 设计器多对多关系

我是 Microsoft Power BI 设计器的新手注意到了这一点文档 https support powerbi com knowledgebase articles 464155 create and manage relatio
使用霍夫变换、OpenCV 和 python 进行平行线检测

我需要有关我一直在研究的算法的帮助我试图检测阈值图像中的所有线条检测所有线条然后仅输出平行的线条阈值图像输出我感兴趣的对象然后我通过精明的边缘检测器过滤该图像然后将该边缘图像通过概率霍夫变换现在我希望该算法能够检测任何图像中
将 Java byte[] 对象插入 H2 表中，然后再次检索它

我正在尝试将 Java byte 插入 H2 数据库表中然后再次检索它但我没有取得成功根据这一页 http www h2database com html datatypes html binary type BINARY 数据类型直
无法使用 jdbcStorageHandler 创建 Hive 外部表

我正在 Amazone EMR 中运行一个小型集群以便使用 Apache Hive 2 3 5 据我了解 Apache Hive 可以从远程数据库导入数据并让集群运行查询我正在遵循 Apache Hive Web 文档中提供的示例 ht
遵循 Python/Flask Heroku 教程时出现“foreman start”错误

遵循所有指示运行的时候出现这个错误foreman start C Program Files x86 ruby 1 9 3 lib ruby gems 1 9 1 gems foreman 0 47 0 lib fo reman engi
使窗口成为桌面的一部分

我想创建一个窗口 CreateWindowEx WS EX TOOLWINDOW WS EX LAYERED wc lpszClassName 0 WS POPUP WS VISIBLE WS SYSMENU a part桌面的我知道这可
2020 年以上，Typescript 在运行时使用类型防护按类型或接口检查对象

对我来说大多数时候需要动态检查来验证获取响应我在想对于具有多个道具和附加检查的任何类型的对象可以使用用户定义的类型保护以通用方式完成此操作因此可以使用类似的方法这是一个带有示例对象的示例但我想要一个没有它的函数 https
postgresql 中的慢 OR 语句

我目前的 postgresql 查询由于 OR 语句而变慢因此它显然没有使用索引到目前为止重写此查询失败查询 EXPLAIN ANALYZE SELECT a0 id AS id0 FROM advert a0 INNER JOI
抑制 Xcode 中已弃用的警告

由于所有 SDK 都在使用因此能够方便地针对多个 SDK 和平台进行构建然而从 3 2 跳到 3 0 甚至偶尔跳到 2 x 我经常收到涉及已更改或被取代的方法的弃用警告 warning UIKeyboardBoundsUserInfo
JPA - 仅针对给定查询强制延迟加载

如何仅针对给定的 NamedQuery 实施延迟加载策略例如考虑下面的伪代码只是为了解释这种情况我有一个实体 Entity class Xyz int a int b Fetch EAGER Set
pandas 数据框 groupby 和 join

让我们假设有这样的 np random seed 123 df pd DataFrame A foo bar foo bar foo bar foo foo B one one two three two two one three C n
NLTK - 获取并简化标签列表

我正在使用布朗语料库我想要某种方法来打印所有可能的标签及其名称而不仅仅是标签缩写标签也不少有没有办法简化标签呢我所说的简化是指将两个极其相似的标签合并为一个然后用另一个标签重新标记合并后的单词之前以某种方式讨论过 Java

NLTK - 获取并简化标签列表

NLTK - 获取并简化标签列表 的相关文章

随机推荐

热门标签

NLTK - 获取并简化标签列表的相关文章