如何在Python中取消单词的词干？

2023-12-25

我想知道是否有办法可以将它们恢复为正常形式？

问题是我有数千个不同形式的单词，例如吃，吃，吃，吃等等，我需要计算每个单词的频率。所有这些 - 吃，吃，吃，吃等等都将计入吃，因此，我使用了词干。

但问题的下一部分要求我在数据中找到相似的单词，并且我正在使用 nltk 的同义词集来计算单词之间的 Wu-Palmer 相似度。问题是 nltk 的同义词集不适用于词干词，或者至少在这段代码中它们不会。检查两个单词是否彼此相关 https://stackoverflow.com/questions/18871706/check-if-two-words-are-related-to-each-other

我该怎么做呢？有没有办法取消单词的词干？

我认为一个好的方法就像在https://stackoverflow.com/a/30670993/7127519 https://stackoverflow.com/a/30670993/7127519.

可能的实现可能是这样的：

import re
import string
import nltk
import pandas as pd
stemmer = nltk.stem.porter.PorterStemmer()

使用的词干提取器。这里有一个要使用的文本：

complete_text = ''' cats catlike catty cat 
stemmer stemming stemmed stem 
fishing fished fisher fish 
argue argued argues arguing argus argu 
argument arguments argument '''

创建一个包含不同单词的列表：

my_list = []
#for i in complete_text.decode().split():
try: 
    aux = complete_text.decode().split()
except:
    aux = complete_text.split()
for i in aux:
    if i not in my_list:
        my_list.append(i.lower())
my_list

与输出：

['cats',
 'catlike',
 'catty',
 'cat',
 'stemmer',
 'stemming',
 'stemmed',
 'stem',
 'fishing',
 'fished',
 'fisher',
 'fish',
 'argue',
 'argued',
 'argues',
 'arguing',
 'argus',
 'argu',
 'argument',
 'arguments']

现在创建字典：

aux = pd.DataFrame(my_list, columns =['word'] )
aux['word_stemmed'] = aux['word'].apply(lambda x : stemmer.stem(x))
aux = aux.groupby('word_stemmed').transform(lambda x: ', '.join(x))
aux['word_stemmed'] = aux['word'].apply(lambda x : stemmer.stem(x.split(',')[0]))
aux.index = aux['word_stemmed']
del aux['word_stemmed']
my_dict = aux.to_dict('dict')['word']
my_dict

哪个输出是：

{'argu': 'argue, argued, argues, arguing, argus, argu',
 'argument': 'argument, arguments',
 'cat': 'cats, cat',
 'catlik': 'catlike',
 'catti': 'catty',
 'fish': 'fishing, fished, fish',
 'fisher': 'fisher',
 'stem': 'stemming, stemmed, stem',
 'stemmer': 'stemmer'}

伴侣笔记本here https://github.com/rafaelvalero/different_notebooks.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在Python中取消单词的词干？的相关文章

为什么我不能导入 geopandas？

我唯一的代码行是 import geopandas 它给了我错误 OSError Could not find libspatialindex c library file 以前有人遇到过这个吗我的脚本运行得很好直到出现此错误请注意
替换字符串列表中的 \x00 的最佳方法？

我有一个来自已解析 PE 文件的值列表其中包括 x00每个部分末尾的空字节我希望能够删除 x00字符串中的字节而不删除所有字节 x 文件中的 s 我试过做 replace and re sub 但并没有取得太大成功使用Python 2
如何使用pycaffe重构caffe网络

我想要的是加载网络后我将分解一些特定的图层并保存新的网络例如原网数据 gt conv1 gt conv2 gt fc1 gt fc2 gt softmax New net 数据 gt conv1 1 gt conv1 2 gt c
如何更改充当按钮的范围的文本

我正在为自定义 Web 应用程序编写自动化测试我遇到了无法更改跨度文本的问题我尝试过使用 driver execute script 但没有运气如果我更好地了解 javascript 这确实会有帮助据我所知您无法单击跨度并且列表
Python 中 genfromtxt() 的可变列数？

我有一个 txt具有不同长度的行的文件每一行都是代表一条轨迹的一系列点由于每条轨迹都有自己的长度因此各行的长度都不同也就是说列数从一行到另一行不同据我所知 genfromtxt Python 中的模块要求列数相同 gt gt g
无法包含外部 pandas 文档 Pycharm v--2018.1.2

我无法包含外部 pandas 文档Pycharm v 2018 1 2 例如 numpy gt http docs scipy org doc numpy reference generated module name element na
Python3 查找 2 个列表中有多少个差异才能相等

假设我们有 2 个列表 always具有相同的长度和always包含字符串 list1 sot sot ts gg gg gg list2 gg gg gg gg gg sot 我们需要找到其中有多少项list2应该改变以便它等于lis
将 subprocess.Popen 的输出通过管道传输到文件

我需要启动一些长时间运行的进程subprocess Popen 并希望拥有stdout and stderr从每个自动管道到单独的日志文件每个进程将同时运行几分钟我想要两个日志文件 stdout and stderr 每个进程当进程运行
行为：如何从另一个文件导入步骤？

我刚刚开始使用behave http pythonhosted org behave 一个Pythonic BDD框架使用小黄瓜语法 http docs behat org guides 1 gherkin html 行为需要一个特征例
反加入熊猫

我有两个表我想附加它们以便仅保留表 A 中的所有数据并且仅在其键唯一时添加表 B 中的数据键值在表 A 和 B 中是唯一的但在某些情况下键将出现在表 A 和 B 中我认为执行此操作的方法将涉及某种过滤联接反联接以获取表 B
使用Python将图像转换为十六进制格式

我的下面有一个jpg文件tmp folder upload path tmp resized test jpg 我一直在使用下面的代码 Method 1 with open upload path rb as image file enco
我可以使用 dask 创建 multivariate_normal 矩阵吗？

有点相关这个帖子 https stackoverflow com questions 52337612 random multivariate normal on a dask array 我正在尝试复制multivariate norma
使用 python 将文本发送到带有逗号分隔符的列

如何使用分隔符在 Excel 中将一列分成两列并使用 python 命名标题这是我的代码 import openpyxl w openpyxl load workbook DDdata xlsx active w active a a
Python int 太大，无法放入 SQLite

我收到错误 OverflowError Python int 太大无法转换为 SQLite INTEGER 来自以下代码块该文件约25GB 因此必须分部分读取 length 6128765 Works on partitions of
负整数的Python表示

gt gt gt x 4 gt gt gt print b format x x 4 100 gt gt gt mask 0xFFFFFFFF gt gt gt print b format x mask x mask 4294967292
在 pip.conf 中指定多个可信主机

这是我尝试在我的中设置的 etc pip conf global trusted host pypi org files pythonhosted org 但是它无法正常工作参考 https pip pypa io en stable
Pandas 在特定列将数据帧拆分为两个数据帧

I have pandas我组成的 DataFrameconcat 一行由 96 个值组成我想将 DataFrame 从值 72 中分离出来这样一行的前 72 个值存储在 Dataframe1 中接下来的 24 个值存储在 Data
Google App Engine 中的自定义身份验证

有谁知道或知道我可以在哪里学习如何使用 Python 和 Google App Engine 创建自定义身份验证流程我不想使用 Google 帐户进行身份验证并且希望能够创建自己的用户如果不是专门针对 Google App Engin
从 dask 数据框中的日期时间序列获取年份和星期？

如果我有一个 Pandas 数据框和一个日期时间类型的列我可以按如下方式获取年份 df year df date dt year 对于 dask 数据框这是行不通的如果我先计算像这样 df year df date compute
具有指定置信区间的 Seaborn 条形图

我想在 Seaborn 条形图上绘制置信区间但我已经计算出置信区间如何让 Seaborn 绘制我的置信区间而不是尝试自行计算它们例如假设我有以下 pandas DataFrame x pd DataFrame Group 1 0 5

随机推荐

Android 终端中的 Wget

如何在 android 中的 Android 终端模拟器应用程序中使用 wget 命令它说 system bin sh wget 未找到这意味着需要在android中安装wget 请帮我你需要安装在你的Android系统中你可以执
是否可以在应用程序之间共享 Cuda 上下文？

我想在两个独立的 Linux 进程之间传递 Cuda 上下文使用我已经设置的 POSIX 消息队列 Using cuCtxPopCurrent and cuCtxPushCurrent 我可以获得上下文指针但是这个指针是在我调用该函数的
jQuery 应用 css 不透明度

我试图让不透明度在 IE 中工作我目前正在 IE8 中进行测试 Chrome 等工作正常但 IE8 很糟糕我的代码是 mydiv animate opacity 0 5 and mydiv css opacity 0 5 不透明度应用
org.apache.xml.serializer.ToXMLSAXHandler 无法转换为 org.apache.xml.serializer.SerializationHandler

我使用的是JBoss6 M5和jdk1 6 22 当我尝试运行服务器时出现部署错误有人知道可能出现什么问题吗谢谢由于以下原因部署 vfs mnt data programming rz server server default
zc.buildout 停止工作：ImportError：没有名为 apport.fileutils 的模块

我已经使用 buildout 有一段时间了没有任何问题事实上我昨天也没有任何问题但截至今天我所有的项目都未能成功我在两个不同的 Ubuntu 工作站上尝试过结果相同这是我得到的错误 Initializing zc buildo
DDD 存储库中的过滤器

有 Campaign Entity 为此我有 CampaignRepository 具有此功能公共 IList FindAll 公共活动 FindByCampaignNumber 字符串编号但现在我想要这个标准查找今天创建的营销活动
插件“geocoder”使用已弃用的 Android 嵌入版本

当我跑步时pub get 我面临以下错误 The plugin geocoder uses a deprecated version of the Android embedding To avoid unexpected runtime
VS Code 中的 React Native：将 iOS 设备的配置添加到 launch.json

我在 Visual Studio 代码中打开了一个 React Native 项目并且尝试在物理连接的 iOS 设备上运行该项目我直接从 Xcode 成功在设备上运行了该应用程序但从 Visual Studio Code 中我遇到了问
Dart - 按 int 值传递但对列表引用？

在 Dart 中查看下面的代码它是否对列表按引用传递对整数按值传递如果是这种情况什么类型的数据将通过引用值传递如果不是这种情况导致这种输出的问题是什么 void main var foo a b var bar foo
ES6 使用 `this` 进行解构赋值

下面的代码有效有没有更方便的方法如果可能的话甚至是单行 const nextUrl posts await postService getCommunityPosts 6 this communityPosts posts this
如何克服 IQueryable 在模拟 FromSql() 方法时未实现 IAsyncQueryProvider 的问题？

我使用下面的链接来模拟 x 单元中的 FromSql 方法我如何模拟 FromSql 方法 https stackoverflow com questions 40726638 how could i mock the fromsql me
将无形的可扩展记录传递给函数（永无止境的故事？

我继续调查可扩展记录如下所示将无形可扩展记录传递给函数续 https stackoverflow com questions 20311599 passing a shapeless extensible record to a fun
Selenium Chrome 驱动程序限制大规模网页抓取

我计划在我的项目中使用 Selenium Chrome 驱动程序该驱动程序将用于对多个公共网站例如 kayak 或 skyscanner 进行网页抓取因此将会有一个 REST GET 端点我的后端将在其中启动无头 Chrome 来
如何使用 vsinstr/vsperfmon 获得真实的代码覆盖率

我的基于微软的开发环境如下所示巨大的原生 C 代码库分为 10 个项目每个项目都有一个依赖的测试项目 GoogleTest 单元测试只需引用要测试的源我使用 vsinstr 和 vsperfmon 用于检测监视可执行文件和 dl
在 Three.js 中渲染自定义几何体

我正在尝试使用 Three js 在空间中的四个顶点之间绘制一个四边形我编写了以下代码但它不起作用 var a x 10 y 10 var b x 50 y 50 var geometry new THREE Geometry geom
枚举 NAudio 中的录音设备

如何使用 NAudio 获取计算机上所有录音设备的列表当你想要录制时你必须给它你想要使用的设备的索引但没有办法知道那是什么设备我希望能够从麦克风立体声混音等中进行选择对于 WaveIn 您可以使用静态 WaveIn GetCap
仅当设备正在充电和/或应用程序位于前台时才会发送静默推送通知

我已经实现了无声推送通知但我注意到一些奇怪的行为无声推送通知通过以下方式处理 void application UIApplication application didReceiveRemoteNotification NSDicti
如何自定义date.now格式？

ts currentDate Date now html currentDate date 我怎样才能显示时间而不是 2019 年 10 月 25 日我想要这样 2019 10 月 25 天签署了有人已经实现了自定义时间格式吗带有后缀和
在.net core 6中配置连接字符串

我正在尝试使用 SQL Server 连接到我的 ASP NET Core Web API 应用程序 Visual Studio 2022 预览版中的 NET 6 我尝试使用以下代码来配置连接字符串Startup像我以前一样上课 servi
如何在Python中取消单词的词干？

我想知道是否有办法可以将它们恢复为正常形式问题是我有数千个不同形式的单词例如吃吃吃吃等等我需要计算每个单词的频率所有这些吃吃吃吃等等都将计入吃因此我使用了词干但问题的下一部分要求我在数据中找到相似的单词并且我正

如何在Python中取消单词的词干？

如何在Python中取消单词的词干？ 的相关文章

随机推荐

热门标签

如何在Python中取消单词的词干？的相关文章