如何覆盖 nltk 的 pos_tag 分配给文本的 POS 标签？

2024-07-04

我使用 nltk 中的 pos_tag 来标记一组（未标记的）技术文档中的文本并获得良好的结果，但它总是将“authenticated”等单词标记为动词，而有时它可以用作形容词。换句话说，仅仅改变标签并不是每次都有效。

是否有一个好方法来覆盖或纠正考虑上下文的标记结果？

不幸的是，您的问题归结为“我如何改进我的标签？”。答案是，您需要构建一个更好的标记器。所有重要的标记器都会考虑上下文，因此这不仅仅是添加上下文敏感性的问题；它已经存在了，只是在某些情况下失败了。

NLTK 标记模型允许您“链接”标记器，以便每个标记器都可以占据另一个标记器留下的位置（例如，对于未知单词，ngram 标记器依靠正则表达式标记器）。它的工作原理如下：

t0 = nltk.DefaultTagger('N')
t1 = nltk.UnigramTagger(traindata, backoff=t0)
t2 = nltk.BigramTagger(traindata, backoff=t1)

traindata这里有一个list标准 NLTK 形式中已标记句子的数量：每个句子都是以下形式的元组列表(word, tag)。（如果有理由的话，您可以为每个标记器使用不同的训练语料库；您肯定会希望使用一致的标记集）。例如，这是一个两句话长的训练语料库：

traindata = [ [ ('His', 'PRO'), ('petition', 'N'), ('charged', 'VD'), 
                ('mental', 'ADJ'), ('cruelty', 'N'), ('.', '.') ],
              [ ('Two', 'NUM'), ('tax', 'N'), ('revision', 'N'), ('bills', 'N'),
                ('were', 'V'), ('passed', 'VN'), ('.', '.') ] ]

Tagger t2（您将使用的）将构建一个二元模型；如果它看到未知的输入，它将退回到t1，它使用一元模型；如果也失败了，它将推迟t0（它只是将所有内容标记为“N”）。

您可以添加一个特殊用途的重新标记器来改进默认标记，但当然您必须首先弄清楚让它做什么——这当然是您首先要求的。

如果 nltk 标注器一遍又一遍地犯同样类型的错误，您可以整理一个更正语料库，并基于此训练重新标注器。您需要多少数据取决于错误的一致性。我从未尝试过这个，但 Brill 标记器通过连续应用重新标记规则来工作，所以也许它是正确的工具。

另一种方法是尝试构建自己的特定领域标记语料库：使用 nltk 标记器标记训练集，手动或半自动纠正它，然后在其上训练标记器，并尝试在新数据上获得比使用 nltk 标记器更好的性能。默认 nltk 标记器（可能通过将两个标记器链接在一起）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLTK

如何覆盖 nltk 的 pos_tag 分配给文本的 POS 标签？的相关文章

运行 Djangocollectstatic 时如何忽略目录？

我正在使用 Django 1 3 Ubuntu 11 10 gunicorn 和 Nginx 运行一个小型测试项目所有内容都在 virtualenv 中现在我正在运行collectstatic 将静态文件放入 Nginx 提供服务的目录
Socket：Python中的2路通信

我想要在 Python 中进行双向通信我想绑定到一个客户端可以连接的套接字然后服务器和客户端可以彼此聊天我已经有了基本的监听器 import socket HOST localhost PORT 50008 s socket soc
如何在列表列表中找到元素和最大的列表？

我有一个列表列表 x 1 2 3 4 5 6 7 8 9 2 2 0 我想得到列表中元素之和最大的列表在这种情况下 7 8 9 我宁愿有一个幻想map or lambda或列表理解方法比for while if loop 此致 max提出
使用 df['Time'] = pd.to_datetime(phData['Time'], format='%H:%M:%S') 后，从 1900-01-01 开始的日期被添加到我的“时间”中

我是一名自学的程序员大约一年了所以很新这是我的数据 phData pd read excel phone call log duration xlsx called from called to Date Time Duration
使用 Keras RNN 模型使用较少时间步长（不同维度）的数据进行预测

根据RNN的性质我们可以得到每个时间戳时间展开的预测概率的输出假设我训练一个具有 5 个时间步长的 RNN 每个时间步长有 6 个特征因此我必须像这样指定第一层假设我们使用具有 20 个节点的 LSTM 层作为第一层 model
无法访问http://0.0.0.0:8000

我正在按照以下指示进行操作https fenics readthedocs io projects containers en latest introduction html https fenics readthedocs io pro
matlab的imregionalmax()和scipy.ndimage.filters.maximum_filter有什么区别

我需要找到图像的区域最大值以获得用于分水岭分割的前景标记我在 matlab 中看到使用该函数imregionalmax http www mathworks com help images ref imregionalmax html 由
使用 Matplotlib 创建箱线图

我正在使用 python 3 和 jupyter 笔记本我有一个 pandas 数据框其结构如下 location price Apr 25 ASHEVILLE 15 0 Apr 25 ASHEVILLE 45 0 Apr 25 ASH
Python下载具有特定文件名的youtube

我正在尝试下载 youtube 视频pytube这边走 from pytube import YouTube YouTube http youtube com watch v 9bZkp7q19f0 streams first downlo
ipython：如何设置终端宽度

当我使用ipython terminal并想要打印一个numpy ndarray它有很多列行会在大约 80 个字符处自动断行即行的宽度为 cca 80 个字符 z zeros 2 20 print z 据推测 ipython 预计我的终
ModuleNotFoundError：没有名为“binance.client”的模块； “binance”不是一个包

嘿我是 Stack Over Flow 和 Python 的新手但想学习并希望有人可以帮助我我正在尝试在 python 中开发一个币安交易机器人请参阅下面我的脚本 from binance client import Client
如何覆盖 nltk 的 pos_tag 分配给文本的 POS 标签？

我使用 nltk 中的 pos tag 来标记一组未标记的技术文档中的文本并获得良好的结果但它总是将 authenticated 等单词标记为动词而有时它可以用作形容词换句话说仅仅改变标签并不是每次都有效是否有一个好方法来覆盖
模板内嵌套 for 循环

模型 py class Task models Model level models ForeignKey Level on delete models CASCADE todo models ForeignKey ToDo on dele
数据集继续使用线性回归而不是决策树模型

我想在我的数据集上使用决策树模型但无论我做什么它都会继续使用线性回归数据不同但图表仍然相同基本上我编写了线性回归的代码 from sklearn linear model import LinearRegression linr
如何在 setup.py 中运行 Makefile？

我需要编译ICU http icu project org使用它自己的构建机制因此问题是我怎样才能运行一个Makefilesetup py 显然我只希望它在构建过程中运行而不是在安装时运行我通常使用的方法是覆盖有问题的命令 fro
ValueError：在 ECB 模式下数据必须与块边界对齐

我正在使用以下代码在 ECB 模式下尝试 aes 128 加密 from Crypto Cipher import AES key abcdefghijklmnop cipher AES new key encode utf8 AES MO
与 C 数组相比，带有 NumPy 数组内存视图的 Cython 性能较差

我遇到了一个非常奇怪的结果基准 http nbviewer ipython org github rasbt One Python benchmark per day blob master ipython nbs day4 python
Python：汇总和聚合 DataFrame 中的组和子组

我正在尝试构建一个表其中的组按子组划分并包含每个子组的计数和平均值例如我想转换以下数据框到一个看起来像这样的表其中interval是一个更大的组和列a thru i成为组内的子组每个单元格中具有相应子组的计数和平均值我尝试过
使用 setuptools 从私有 Gitlab 包存储库安装 Python 包

我为我的雇主创建了一个私人套餐由于我被禁止将其上传到 PyPI 它是专有的因此我将其上传到我们私人 Gitlab 中心上的项目的包索引中我可以手动安装它 pip install my package extra index url h
使用 M1 Mac 进行 Python 多处理

我有一台 Mac Mac Os 11 1 Python Ver 3 8 2 需要在多处理中工作但程序不起作用 import multiprocessing def func index int print index manager mu

随机推荐

Spring Cloud Sleuth 如何在盒子的 Webflux ouf 中传播 MDC 上下文，以便其内容可以记录在不同的线程中？

我想知道 Spring Cloud Sleuth 如何在线程之间传播 MDC 上下文使 MDC 参数可用我读过这篇文章https simonbasle github io 2018 02 contextual logging with
用于记录/生成 RESTful/HTTP RPC API 参考的最佳工具是什么？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案关于基于 REST HTTP 的 API 等已经发布并回答了许多问题但似乎没有关于以下问题的太多信息有哪些工具可用于用于记录 HT
如何在 Spring Boot 中使用 CommonsMultipartResolver

我尝试在 Boot 中使用 CommonsMultipartResolver 将我的旧应用程序 WAR 转换为 Boot 现在它得到以下代码 Configuration public class TestConfig Bean public
SharePoint Web 部件与 ASP.NET Web 部件

有人可以告诉我 SharePoint Web 部件和 ASP NET Web 部件之间的区别吗我发现描述差异的信息很少提前致谢 MSDN 在 ASP NET 2 0 Web 部件和 Windows SharePoint Services
MacOS 上的 Jenkins 发出“Docker：找不到命令”

当使用 Pipeline 语法和 Docker 代理从 Jenkinsfile 运行作业时管道失败并显示 Docker 找不到命令我理解这意味着 1 Docker 未安装 2 Jenkins 未指向正确的 Docker 安装路径我的情
如何重试基于块的 URL 请求

我正在使用 iOS7 的新 URL 请求方法获取数据如下所示 NSMutableURLRequest request NSMutableURLRequest requestWithURL NSURL URLWithString self
预期主表达式在“...”之前，C++ 编译错误

SO 上有很多类似标题的帖子但它们似乎是由各种语法错误触发的而且我还没有看到一致的模式 using namespace std class A public A int a a a int a int main A x 3 A y 0
预加载队列中的 mp3 文件，以避免播放队列中下一个文件时出现任何延迟

我正在编写一个脚本其中我正在播放多个 mp3 并且每个文件都在队列中播放下一个 mp3 文件会出现轻微延迟因为缓冲加载文件需要时间我如何缓冲队列中的下一个 mp3 文件以便所有文件顺利运行而没有任何延迟 getData 1 fu
C++：你会选择 boost::date_time 还是 icu::date/time 库？

我的应用程序需要自定义时间和日期设置功能我检查了 ICU 和 boost date time 库从完整性的角度来看两者似乎都满足我的要求我想知道两者之间是否有任何偏好依据是什么哪一个会在表现上得分如果没有有关您的特定用例和环境
如何在新窗口中获取dom元素？

JavaScript 中的一个简单任务是打开一个新窗口并在其中写入但我需要在一个dom元素中写入一个带有ID的div var novoForm window open somform html wFormx width 800 heigh
Windows 8 - 低延迟音频

我正在考虑为即将推出的 Windows 8 开发一个应用程序该应用程序需要低延迟音频录制和播放我正在尝试找出操作系统是否支持这一点而不是其他平台 http code google com p android issues detail
替换 Apache POI XWPF 中的文本

我刚刚发现 Apache POI 库对于使用 Java 编辑 Word 文件非常有用具体来说我想编辑一个DOCX使用 Apache POI 的 XWPF 类的文件我发现没有合适的方法文档可以执行此操作有人可以分步骤解释一下如何替换
上传大文件nginx + uwsgi

堆栈 flask 0 10 uwsgi 1 4 5 nginx 1 2 3 我可以通过我的应用程序上传小文件 CONTENT LENGTH 无效太大跳过 nginx 日志没有显示任何有用的内容我尝试了以下操作但没有成功 nginx配
如何在 Rust 中包装对使用 VarArgs 的 FFI 函数的调用？

mexPrintf 就像printf 接受参数的可变参数列表但我不知道用 Rust 包装它的最佳方法是什么有一个可变泛型的 RFC https github com rust lang rfcs issues 376 但是今天我们能做什
无法在单例对象中找到隐式值

我有这个代码 trait Context implicit val e Encoder trait Encoder def write Unit println Test trait AsyncEncoders this Context g
getInstance() 不适用于实时数据库中除 us-central1 之外的其他位置

我正在尝试将用户凭据保存到 Firebase 实时数据库但是当我执行该程序时数据库没有更新我已正确配置 Firebase 设置因为身份验证和存储均为 Firebase 正在运行 build gradle dependencies
如何设置 UWP 应用的默认语言？

我有2种语言 en US 和 ru Ru 当我将默认语言设置为 ru RU 时出现错误 PRI257 0xdef00522 找到语言 ru ru en us 的资源但未找到默认语言的资源 ru RU 改变默认语言或使用默认语言限定资源
如何在 .proto 文件中处理带有协议缓冲区的通用类型对象？

我花了一些时间寻找一些替代方法来处理通用对象我看到了与我类似的问题但没有我想象的那么具体协议缓冲区有多种我可以使用的标量类型但它们大多是原始的我希望我的消息是灵活的并且能够有一个作为某种列表的字段假设我的 proto 文件如下
XAML 页面中的 Bindable 值存在问题

我有一个保龄球回顾示例代码其中输入了 3 场比赛并总结在系列列中我遇到的问题是系列列没有按照我的预期进行更新显然我做错了什么但看不到我做错了什么以下是支持该应用程序的代码
如何覆盖 nltk 的 pos_tag 分配给文本的 POS 标签？

我使用 nltk 中的 pos tag 来标记一组未标记的技术文档中的文本并获得良好的结果但它总是将 authenticated 等单词标记为动词而有时它可以用作形容词换句话说仅仅改变标签并不是每次都有效是否有一个好方法来覆盖

如何覆盖 nltk 的 pos_tag 分配给文本的 POS 标签？

如何覆盖 nltk 的 pos_tag 分配给文本的 POS 标签？ 的相关文章

随机推荐

热门标签

如何覆盖 nltk 的 pos_tag 分配给文本的 POS 标签？的相关文章