使用 nltk 没有上下文的词性标记

2024-03-12

有没有一种简单的方法来确定给定单词最可能的词性标签没有上下文使用nltk。或者如果不使用任何其他工具/数据集。

我尝试使用 wordnet，但似乎 sysnet 不是按可能性排序的。

>>> wn.synsets('says')

[Synset('say.n.01'), Synset('state.v.01'), ...]

如果您想尝试在没有上下文的情况下进行标记，那么您正在寻找某种一元标记器，又名looup tagger. 一元标记器仅根据给定单词的标签的频率来标记单词。因此它避免了上下文启发法，但是对于任何标记任务，您都必须有数据。对于一元组，您需要带注释的数据来训练它。请参阅lookup tagger在 nltk 教程中http://nltk.googlecode.com/svn/trunk/doc/book/ch05.html http://nltk.googlecode.com/svn/trunk/doc/book/ch05.html.

下面是训练/测试一元标记器的另一种方法NLTK

>>> from nltk.corpus import brown
>>> from nltk import UnigramTagger as ut
>>> brown_sents = brown.tagged_sents()
# Split the data into train and test sets.
>>> train = int(len(brown_sents)*90/100) # use 90% for training
# Trains the tagger
>>> uni_tag = ut(brown_sents[:train]) # this will take some time, ~1-2 mins
# Tags a random sentence
>>> uni_tag.tag ("this is a foo bar sentence .".split())
[('this', 'DT'), ('is', 'BEZ'), ('a', 'AT'), ('foo', None), ('bar', 'NN'), ('sentence', 'NN'), ('.', '.')]
# Test the taggers accuracy.
>>> uni_tag.evaluate(brown_sents[train+1:]) # evaluate on 10%, will also take ~1-2 mins
0.8851469586629643

我不建议使用 WordNet 进行词性标记，因为太多单词在 wordnet 中仍然没有条目。但是您可以看一下在 wordnet 中使用引理频率，请参阅如何在 NLTK 中获取同义词集的词网语义频率？ https://stackoverflow.com/questions/15551195/how-to-get-the-wordnet-sense-frequency-of-a-synset-in-nltk。这些频率基于 SemCor 语料库 (http://www.cse.unt.edu/~rada/downloads.html http://www.cse.unt.edu/~rada/downloads.html)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 nltk 没有上下文的词性标记的相关文章

Tkinter：消息小部件中锚点选项的正确值是多少？

我一直在学习 tkinterTkinter 中的消息小部件 https python course eu tkinter message widget in tkinter php at Python 课程和教程 https python
Flask中使用的路由装饰器是如何工作的

我熟悉 Python 装饰器的基础知识但是我不明白这个用于 Flask 路由的特定装饰器是如何工作的以下是 Flask 网站上的代码片段 from flask import Flask escape request app Flask
ValueError：请使用“Layer”实例初始化“TimeDistributed”层

我正在尝试构建一个可以在音频和视频样本上进行训练的模型但出现此错误ValueError Please initialize TimeDistributed layer with a Layer instance You passed Te
如何为未捕获的异常处理程序编写单元测试

我有一个函数可以捕获uncaught例外情况如下有没有办法编写一个单元测试来执行uncaught exception handler 功能正常但测试正常退出 import logging def config logger logge
数据框 - 平均列

我在 pandas 中有以下数据框 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我正在创建一个数据框其中包含第 1 列和第 2 列第 3 列和第 4 列等的平均值 ColumnA
将 C++ 指针作为参数传递给 Cython 函数

cdef extern from Foo h cdef cppclass Bar pass cdef class PyClass cdef Bar bar def cinit self Bar b bar b 这总是会给我类似的东西 Can
如何获取numpy.random.choice的索引？ - Python

是否可以修改 numpy random choice 函数以使其返回所选元素的索引基本上我想创建一个列表并随机选择元素而不进行替换 import numpy as np gt gt gt a 1 4 1 3 3 2 1 4 gt gt
以类型化内存视图作为成员的结构定义

目前我正在尝试让一个具有类型化内存视图的结构能够工作例如 ctypedef struct node unsigned int inds 如果 inds 不是内存视图据我所知它可以完美地工作然而通过内存视图并使用类似的东西 def
在 Mac OS X 上安装 libxml2 时出现问题

我正在尝试在我的 Mac 操作系统 10 6 4 上安装 libxml2 我实际上正在尝试在 Python 中运行 Scrapy 脚本这需要我安装 Twisted Zope 现在还需要安装 libxml2 我已经下载了最新版本 2 7 7
PIL.Image.open和tf.image.decode_jpeg返回值的区别

我使用 PIL Image open 和 tf image decode jpeg 将图像文件解析为数组但发现PIL Image open 中的像素值与tf image decode jpeg不一样为什么会出现这种情况 Thanks 代
NumPy 相当于 Keras 函数 utils.to_categorical

我有一个使用 Keras 进行机器学习的 Python 脚本我正在构建 X 和 Y 它们分别是特征和标签标签的构建方式如下 def main depth 10 nclass 101 skip True output True video
App Engine 实体到字典

将 google app engine 实体在 python 中复制到字典对象的好方法是什么我正在使用 db Expando 对象所有属性均为扩展属性 Thanks 有一个名为foo尝试 foo dict
Flask 应用程序路由中的多个参数

烧瓶怎么写app route如果我在 URL 调用中有多个参数这是我从 AJax 调用的 URL http 0 0 0 0 8888 createcm summary VVV change Feauure 我试图写我的烧瓶app rout
将字符串中的随机字符转换为大写

我尝试随机附加文本字符串这样就不只是有像这样的输出 gt gt gt david 我最终会得到类似的东西 gt gt gt DaViD gt gt gt dAviD 我现在的代码是这样的 import random import stri
确定分割形状几何体的“左”侧和“右”侧

我的问题是我怎样才能确定哪一个Aside and Bside的侧面已经分割的旋转矩形几何体 http nbviewer jupyter org urls dl dropbox com s ll3mchnx0jwzjnf determine
寻找完美的正方形

我有这个Python代码 def sqrt x ans 0 if x gt 0 while ans ans lt x ans ans 1 if ans ans x print x is not a perfect square return
非法指令：MacOS High Sierra 上有 4 条指令

我正在尝试在 pygame 3 6 中制作一个看起来像聊天的窗口我刚刚将我的 MacBook 更新到版本 10 13 6 在我这样做之前它工作得很好但在我收到消息之后非法指令 4 Code import pygame from pyg
如何使用xlwt设置文本颜色

我无法找到有关如何设置文本颜色的文档在 xlwt 中如何完成以下操作 style xlwt XFStyle bold font xlwt Font font bold True style font font background col
Python 中的 Unix cat 函数 (cat * > merged.txt)？ [复制]

这个问题在这里已经有答案了一旦建立了目录有没有办法在Python中使用Unix中的cat函数或类似的函数我想将 files 1 3 合并到 merged txt 我通常会在 Unix 中找到该目录然后运行 cat gt merged
使用 paramiko 运行 Sudo 命令

我正在尝试执行sudo使用 python paramiko 在远程计算机上运行命令我尝试了这段代码 import paramiko ssh paramiko SSHClient ssh set missing host key polic

随机推荐

在 Leaflet 地图上选择多个重叠要素（此处为多边形）中的一个要素

我有一张地图上面渲染了多个可以相互重叠的多边形我用leafletPip pointInLayer 点层 from https github com mapbox leaflet pip https github com mapbox
如何将 std::array 转换为 std::tuple？ [复制]

这个问题在这里已经有答案了我正在开发一个辅助模块来在多态对象之间传递值并且在某些时候我有 std array
如何通过相应文档的数组获取每个组的字段最大值？

我有一个像这样的集合 id ObjectId 5738cb363bb56eb8f76c2ba8 records Name Joe Salary 70000 Department IT id ObjectId 5738cb363bb56eb8
Firefox 扩展如何以编程方式获取自己的版本号？

如何使用 Javascript 以编程方式获取我自己的 Firefox 扩展版本号我的扩展有一个 install rdf 文件其中包含类似于下面的版本号我想提取其中的内容
CMYK颜色直接转HSV颜色

如何将HSV颜色直接转换为CMYK颜色提及做到这一点的 JavaScript 库会加分我只见过将 HSV 转换为 RGB 然后将 RGB 转换为 CMYK 的解决方案我知道的唯一解决方案是转换为 RGB 作为中间层然后将其转换为您想
配置 WCF 服务以接受不合格参数

我的 WCF 服务无法识别以不合格形式发送的请求参数值而是替换为默认值例如此请求将产生您输入 21 的结果
如何重新配置 Meteor 的 Facebook 账户，或者 Meteor 的 Facebook 配置在哪里？

流星的accounts facebook包的设置非常容易为了输入 Facebook 应用程序 ID 和秘密令牌我在浏览器中加载了 Meteor Web 应用程序单击登录按钮然后单击配置 Facebook 它要求我提供应用程序 ID
C# ASP.NET 列表视图

我正在尝试创建一个包含多个产品列表的视图下面的示例展示了产品列表的外观我不确定是否应该使用表格并为每个新产品或其他内容创建一个新表格我不是一个很好的 ASP NET 开发人员我不知道如何解决这个问题基本上如果我有 10 个结果
JS中的罗马到整数为什么只转换第一个字符

我尝试解决Leedcode问题13 问题是给定一个罗马数字将其转换为整数输入保证在1到3999的范围内这是我的代码我想知道为什么它只将罗马数字中的第一个字符转换为整数 var romanToInt function s var re
使用 mod_rewrite 将所有流量重定向到 index.php

我正在尝试构建一个 url 缩短器并且我希望能够在域之后立即获取任何字符并将它们作为变量 url 传递例如 http google com asdf http google com asdf 会成为 http www google co
从数据库中选择最受欢迎的地点的算法

我们有一个包含地点数据库的网站对于每个地方我们的用户都可以执行我们记录的以下操作之一查看查看其个人资料评级按 1 5 星的等级对其进行评级审查审查它已完成标记他们已经去过那里愿望清单标记他们想去那里最喜欢的标记这
实体框架，更新前值的触发机制

EF 中是否有在更新对象值之前具有的内容例如当实体对象假设用户被保存时我想在更新用户对象值之前了解日志记录的目的 Thanks 如果您与ObjectContext edmx 您可以订阅SavingChanges http msdn
为什么我无法实例化 switch-case 块内的对象

我的代码有 3 个类 n hexa n octa n bin 代码在这里 switch choice case 1 cin gt gt n n hexa nx n break case 2 cin gt gt n n octa no n b
如何使用 gulp 在浏览器中进行刷新

我有一个应用程序在 iis 中它是一个用 angularjs 和 webapi C 2 0 制作的应用程序我想创建一个任务在保存任何 js 文件后立即更新浏览器吞咽版本 3 9 1 gulp task livereload func
尝试在本地环境中调试 LeetCode 答案时出错

我正在研究 LeetCode 问题199 二叉树右侧视图 https leetcode com problems binary tree right side view 给定二叉树的根想象自己站在它的右侧返回您可以看到从上到下排序的节点
无法使用通过 VS2010 发布在 Windows Azure 上发布网站

当我尝试通过 Visual Studio 2010 在 Windows Azure 上发布我的 Web 应用程序时我遇到了这个问题我尝试右键单击项目并选择发布并导入从 Windows Azure 平台下载的发布配置文件我收到此错误错
加入多个文件

我正在使用标准连接命令来连接两个基于column1 的排序文件命令很简单 join file1 file2 gt output file 但是如何使用相同的技术连接 3 个或更多文件呢连接 file1 file2 file3 gt 输出
在运行时根据输入从属性文件中获取值 - java Spring

我的 color properties 文件为 rose red lily white jasmine pink 我需要获取颜色值 String flower runTimeFlower Value flower String colour
Playframework 2.0.x 是否支持模板中的

不知道play 2 0 3及更高版本是否支持else if在视图中我只读到必须这样编码 if else if else 不敢相信我在第二个 if 之前使用了 if true else if true else
使用 nltk 没有上下文的词性标记

有没有一种简单的方法来确定给定单词最可能的词性标签没有上下文使用nltk 或者如果不使用任何其他工具数据集我尝试使用 wordnet 但似乎 sysnet 不是按可能性排序的 gt gt gt wn synsets says Synse

使用 nltk 没有上下文的词性标记

使用 nltk 没有上下文的词性标记 的相关文章

随机推荐

热门标签

使用 nltk 没有上下文的词性标记的相关文章