如何为 nltk 词形还原器提供（或生成）标签

2024-02-27

我有一组文档，我想将它们转换为这样的形式，这样我就可以对这些文档中的单词进行 tfidf 计数（这样每个文档都由 tfidf 数字向量表示）。

我认为调用 WordNetLemmatizer.lemmatize(word) 就足够了，然后调用 PorterStemmer - 但所有 'have'、'has'、'had' 等都不会被词形还原器转换为 'have' - 并且它适用其他词也是如此。然后我读到，我应该为词形还原器提供提示 - 代表单词类型的标签 - 无论是名词、动词、形容词等。

我的问题是 - 我如何获得这些标签？我应该对这些文档执行什么操作才能得到这个？

我正在使用 python3.4，并且一次对单个单词进行词形还原 + 词干提取。我尝试了 WordNetLemmatizer、nltk 中的 EnglishStemmer 以及 Stemming.porter2 中的 Stem()。

好吧，我用谷歌搜索了更多，找到了如何获取这些标签。第一个必须进行一些预处理，以确保该文件将被标记化（在我的例子中，它是关于删除从 pdf 转换为 txt 后留下的一些内容）。

然后这些文件必须被标记为句子，然后将每个句子标记为单词数组，并且可以通过 nltk 标记器进行标记。这样就可以完成词形还原，然后在其之上添加词干。

from nltk.tokenize import sent_tokenize, word_tokenize
# use sent_tokenize to split text into sentences, and word_tokenize to
# to split sentences into words
from nltk.tag import pos_tag
# use this to generate array of tuples (word, tag)
# it can be then translated into wordnet tag as in
# [this response][1]. 
from nltk.stem.wordnet import WordNetLemmatizer
from stemming.porter2 import stem

# code from response mentioned above
def get_wordnet_pos(treebank_tag):
    if treebank_tag.startswith('J'):
        return wordnet.ADJ
    elif treebank_tag.startswith('V'):
        return wordnet.VERB
    elif treebank_tag.startswith('N'):
        return wordnet.NOUN
    elif treebank_tag.startswith('R'):
        return wordnet.ADV
    else:
        return ''    


with open(myInput, 'r') as f:
    data = f.read()
    sentences = sent_tokenize(data)
    ignoreTypes = ['TO', 'CD', '.', 'LS', ''] # my choice
    lmtzr = WordNetLemmatizer()
    for sent in sentences:
        words = word_tokenize(sentence)
        tags = pos_tag(words)
        for (word, type) in tags:
            if type in ignoreTypes:
                continue
            tag = get_wordnet_pos(type)
            if tag == '':
                continue
            lema = lmtzr.lemmatize(word, tag)
            stemW = stem(lema)

此时我得到了词干stemW然后我可以将其写入文件，并使用它们来计算每个文档的 tfidf 向量。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何为 nltk 词形还原器提供（或生成）标签的相关文章

使用 Python Multiprocessing Pool.map() 的问题在 Python 3.7.2 中变得棘手，但在 3.6.2 中很快完成

我刚刚将Python从3 6 2 gt 3 7 2并且遇到了问题multiprocessing图书馆我在 Django 应用程序中使用它该应用程序在工作函数中使用 Django 特定的函数见下文在我的代码中我有以下内容 impor
将 JSON 发布到 Python CGI

我已经安装了 Apache2 并且 Python 可以工作但我有一个问题我有两页一个是 Python 页面另一个是带有 JQuery 的 Html 页面有人可以告诉我如何让我的 ajax 帖子正常工作吗
如何在 Debian 上的 virtualenv 中安装 numpy？

注参见这另一篇文章 https stackoverflow com questions 6442754 how to install h5py numpylibhdf5 as non root on a debian linux syst
Python 转换矩阵

我有一个如下所示的列表 2 1 3 1 2 3 1 2 2 2 我想要的是一个转换矩阵它向我显示如下序列 1 后跟 1 的频率是多少 1 后面跟着 2 的频率是多少 1 后跟 3 的频率是多少 2 后跟 1 的频率是多少 2 后跟 2 的
Flask 失败并显示“错误：导入‘X’时，引发了 ImportError”，但不显示错误。如何找到错误的根源？

当使用以下命令启动 Flask 应用程序时 flask run 我收到错误 Error While importing wsgi an ImportError was raised Usage flask OPTIONS COMMAND A
用 Python 绘制直方图

我有两个列表 x 和 y x 包含字母表 A Z Y 包含它们在文件中的频率我尝试研究如何在直方图中绘制这些值但在理解如何绘制它方面没有成功 n bins patches plt hist x 26 normed 1 facecolor
Django 多对多关系（类别）

我的目标是向我的 Post 模型添加类别我希望以后能够按不同类别有时是多个类别查询所有帖子模型 py class Category models Model categories 1 red 2 blue 3 black title
使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

我想从 python 运行一个程序并找到它的内存使用情况为此我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI
在请求中设置端口

我正在尝试利用cgminer使用 Python 的 API 我对利用requests图书馆我了解如何做基本的事情requests but cgminer想要更具体一点我想缩小 import socket import json sock
如何用正则表达式替换多个匹配/组？

通常我们会编写以下内容来替换一场比赛 namesRegex re compile r is life re I replaced namesRegex sub r butter There is no life in the void pr
Python-验证我的文档 xls 中是否存在工作表

我正在尝试在空闲时间设计一个小程序加载 xls 文件然后在要扫描的文档中选择一张纸步骤1 用户导入 xls文件导入程序后检查文件是否存在我能做到的第 2 步我要求用户提供要分析的文档表 xls 的名称这就是它停止的地方该程
使用 if 语句的网格网格和用户定义函数的真值不明确

假设我有一个函数f x y 足够光滑然而有些值仅在有限的意义上存在以sin x x的价值x 0只存在于极限 x gt 0 中在一般情况下我用一个来处理这个问题if陈述如果我在情节中使用它meshgrid我收到一条错误消息 Val
Django 将 JSON 数据传递给静态 getJSON/Javascript

我正在尝试从 models py 中获取数据并将其序列化为views py 中的 JSON 对象模型 py class Platform models Model platformtype models CharField max len
python中有没有一种方法可以将存储在列表中的正则表达式模式列表应用到单个字符串？

我有一个正则表达式模式列表存储在列表类型中我想将其应用于字符串有谁知道一个好方法将列表中的每个正则表达式模式应用于字符串和如果匹配则调用与列表中该模式关联的不同函数如果可能的话我想用 python 来做这件事提前致谢 im
Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org
两种 ODE 求解器之间的差异

我想知道两者之间有什么区别ODEINT and solve ivp用于求解微分方程它们之间有什么优点和缺点 f1 solve ivp f 0 1 y0 y0 is the initial point f2 odeint f y0 0 1
为boost python编译的.so找不到模块

我正在尝试将 C 代码包装到 python 中只需一个类即可导出两个函数我编译为map so 当我尝试时import map得到像噪音一样的错误 Traceback most recent call last File
如何使用 Python/Django 在 Facebook 中获取（和使用）扩展权限

我正在尝试编写一个简单的应用程序让用户授予我的代码写入其页面的 Facebook 流的权限据我了解它应该很简单让用户单击一个按钮启动一个弹出窗口其中包含我的 Facebook 应用程序中的页面在该页面中他们单击授予的内容流发
基于值的 matplotlib 条形图颜色

有没有一种方法可以根据条形图的值对条形图的条形进行着色例如 values below 0 5 red values between 0 5 to 0 green values between 0 to 08 blue etc 我找到了一些
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import

随机推荐

cv::warpPerspective 仅显示扭曲图像的一部分

我使用 getHomography 和 warpPerspective 将图像从前视角更改为中视角它的工作原理是图像扭曲到所需的视角但裁剪被关闭它将扭曲的图像大部分移动到图像框之外我认为原因是因为操作导致负坐标我已经手动计算了用于
Web API 令牌方案的好方法是什么？

我正在为一个 Web 应用程序开发 REST API 到目前为止我们已经在内部为几个配套应用程序开发了该 API 现在我们正在考虑向外部开发人员开放我们希望向 API 添加令牌以帮助识别谁在发出请求并总体上帮助管理其使用此时我
Jinja2 填充和对齐字符串

我想实现类似的目标 https pyformat info string pad align https pyformat info string pad align 在 Jinja2 中在 python 中如果我希望字符串始终具有一定
类型推断失败：没有足够的信息来推断参数请明确指定

我正在尝试用 Kotlin 编写 Vaadin 应用程序对于数据绑定 Vaadin 8 现在提供了类型安全数据绑定的可能性在 Kotlin 中我期望这样的工作 class LoginModel var username String
Formik 验证 isSubmitting / isValidating 未设置为 true

我有一个用户要求的表格我非常明显地表明该表格无效所以我打算弹出一个sweetalert对话框让他们知道他们需要仔细检查表格我想我可以在验证中这样做以便在提交尝试失败时提醒他们 const validate values gt con
VBScript 中的 CRLF

我是 VBScript 新手我正在尝试编写一个函数来识别打印行中是否有 CRLF 你能帮我么谢谢你可以简单地使用result Instr yourString vbCRLF 如果 CRLF 字符序列存在于中它将返回大于 0 的索引y
如何在javascript中为隐藏变量分配空值？

我有一个名为 str 的隐藏输入变量我正在为其分配 abc 值然后我尝试分配空值或者说对它的空引用但我不能 Edit 代码的一部分隐藏领域
为什么哈希的字符串键被冻结？

根据规格 http www ruby doc org core 1 9 3 Hash html method i store 用作哈希键的字符串被复制并冻结其他可变对象似乎没有这样特殊的考虑例如使用数组键可以进行以下操作 a 0 h
开玩笑，在 GitLab 上找不到命令

我想在 GITLAB 上使用 JEST 执行单元测试但它似乎不起作用它可以在我的本地计算机上运行但不能在 GitLab 上运行整个代码为 gitlab ci yml image node 16 cache paths node mo
exec sp_updatestats 的作用是什么？

有什么用sp updatestats 我可以在生产环境中运行它以提高性能吗 sp updatestats更新数据库中所有表的所有统计信息甚至单行已更改它使用默认示例来执行此操作这意味着它不会扫描表中的所有行因此它可能会生成不如替代方
如何从两个制表符分隔的文件中获取枢轴线？

给定两个文件file1 txt abc def t 123 456 jkl mno t 987 654 foo bar t 789 123 bar bar t 432 and file2 txt foo bar t hello world
更新具有空值的多行

我有一个包含 id 和 name 两列的表 Id 包含空值 name 包含一些名称值表中存在重复的行要求是将空值 id 更新为与名称值匹配的某个值查找下表 Id Name 1 abc 1 abc 1 abc 1 abc NULL ab
将表重新添加到实体模型 (edmx) 时不显示

我有一个有 5 个表的数据库一开始我添加了这些表但后来由于某些关系编译错误而决定删除一些表现在当我想将它们添加回来时我打开 edmx 文件 gt 从数据库更新模型我在添加选项卡下看不到这些表而只在刷新选项卡下看到我
Tensorflow：张量到 numpy 数组的转换，无需运行任何会话

我在张量流中创建了一个OP 对于某些处理我需要将数据从张量对象转换为numpy数组我知道我们可以使用tf eval or sess run评估任何张量对象我真正想知道的是有没有办法在不运行任何会话的情况下将张量转换为数组因此我们又
映射类型：删除私有接口

在 TypeScript 中私有属性被视为类型的形状或接口的一部分 class Person constructor private name string public age number const p Person age 4
Android Studio：在当前行显示错误的键盘快捷键？

我发现显示带下划线的代码段错误的唯一方法是将鼠标悬停在其上实现此目的的键盘快捷键是什么当光标位于错误行时在 Mac 上是 Command F1 在菜单栏中是查看 gt 错误描述我认为这就是 Windows 上的 Control F
APNS 从多个服务器发送通知

我正在编写一个 iOS 应用程序它将通过 APNS 从后端服务器发送通知我可以配置多个服务器来连接到 APNS 并发送通知吗如果是这样可以为单个应用程序发送通知的服务器数量是否有限制我在 Apple 网站上找不到有关此内容的任何详
Spring框架，启用PUT方法

我在捕获发送到服务器的 PUT 请求时遇到问题这些是我的方法 RequestMapping method RequestMethod GET public String getCity PathVariable value cid Str
Webpack 开发服务器不自动重新加载

所以我设置了 webpack 并webpack dev server but webpack dev server不自动重新加载如果我修改文件并保存它则浏览器中不会发生任何更改直到我手动刷新这是我的 webpack 配置和运行的脚本
如何为 nltk 词形还原器提供（或生成）标签

我有一组文档我想将它们转换为这样的形式这样我就可以对这些文档中的单词进行 tfidf 计数这样每个文档都由 tfidf 数字向量表示我认为调用 WordNetLemmatizer lemmatize word 就足够了然后调用 P

如何为 nltk 词形还原器提供（或生成）标签

如何为 nltk 词形还原器提供（或生成）标签 的相关文章

随机推荐

热门标签

如何为 nltk 词形还原器提供（或生成）标签的相关文章