使用正则表达式标记化进行 NLP 词干提取和词形还原

2024-05-07

定义一个函数，名为performStemAndLemma，它需要一个参数。第一个参数，textcontent, 是一个字符串。编辑器中给出了函数定义代码存根。执行以下指定任务：

1.对给出的所有单词进行分词textcontent。该单词应包含字母、数字或下划线。将标记化的单词列表存储在tokenizedwords。（提示：使用 regexp_tokenize）

将所有单词转换为小写。将结果存储到变量中tokenizedwords.
从唯一的一组中删除所有停用词tokenizedwords。将结果存储到变量中filteredwords。（提示：使用停用词语料库）
对出现在的每个单词进行词干filteredwords与 PorterStemmer 一起使用，并将结果存储在列表中porterstemmedwords.
对出现在的每个单词进行词干filteredwords与 LancasterStemmer 一起使用，并将结果存储在列表中lancasterstemmedwords.
对其中出现的每个单词进行词形还原filteredwords使用 WordNetLemmatizer，并将结果存储在列表中lemmatizedwords.

Return porterstemmedwords, lancasterstemmedwords, lemmatizedwords来自函数的变量。

My code:

from nltk.corpus import stopwords
def performStemAndLemma(textcontent):
    # Write your code here
    #Step 1
    tokenizedword = nltk.tokenize.regexp_tokenize(textcontent, pattern = '\w*', gaps = False)
    #Step 2
    tokenizedwords = [x.lower() for x in tokenizedword if x != '']
    #Step 3
    unique_tokenizedwords = set(tokenizedwords)
    stop_words = set(stopwords.words('english')) 
    filteredwords = []
    for x in unique_tokenizedwords:
        if x not in stop_words:
            filteredwords.append(x)
    #Steps 4, 5 , 6
    ps = nltk.stem.PorterStemmer()
    ls = nltk.stem.LancasterStemmer()
    wnl = nltk.stem.WordNetLemmatizer()
    porterstemmedwords =[]
    lancasterstemmedwords = []
    lemmatizedwords = []
    for x in filteredwords:
        porterstemmedwords.append(ps.stem(x))
        lancasterstemmedwords.append(ls.stem(x))
        lemmatizedwords.append(wnl.lemmatize(x))
    return porterstemmedwords, lancasterstemmedwords, lemmatizedwords

该程序仍然无法正常工作。没有通过2个测试用例。突出显示上面代码中的错误并提供相同的替代解决方案。

def performStemAndLemma(textcontent):
    # Write your code here
    import re
    import nltk
    from nltk.corpus import stopwords
    from nltk import PorterStemmer, LancasterStemmer
    
    pattern =  r'\w*' 
    tokenizedwords = nltk.regexp_tokenize(textcontent, pattern, gaps=False)
    tokenizedwords = [words for words in tokenizedwords if words !='']
    
    uniquetokenizedwords = set(tokenizedwords)
    tokenizedwords = [words.lower() for words in uniquetokenizedwords if words !='']
    
    stop_words = set(stopwords.words('english'))
    filteredwords = [words for words in tokenizedwords if words not in stop_words]

    porterstemmedwords = nltk.PorterStemmer()
    porterstemmedwords =[porterstemmedwords.stem(words) for words in filteredwords]
    
    lancasterstemmedwords = nltk.LancasterStemmer()
    lancasterstemmedwords =[lancasterstemmedwords.stem(words) for words in filteredwords]
    
    wnl = nltk.WordNetLemmatizer()
    lemmatizedwords = [wnl.lemmatize(word) for word in filteredwords ]
    
    return porterstemmedwords, lancasterstemmedwords, lemmatizedwords

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

NLP

NLTK

使用正则表达式标记化进行 NLP 词干提取和词形还原的相关文章

使用 scipy.signal.spectrogram 在 pyqtgraph 中绘制 wavfile 的频谱

我有一个用于音乐和语音分析的 PyQt 加 pyqtgraph 程序我想绘制 wav 文件的频谱使用 scipy python 包计算我可以在 matplotlib 中完成但由于 matplotlib 的性能我需要切换到 pyqt
如何在仍然使用 unique = True 的同时允许 ModelForm 中的空字段？

目前在models py I have class ModelName models Model rowname models CharField max length 100 blank True unique True 就确保相同的值不
扭曲的日志记录到屏幕（标准输出）不起作用

我有这个小程序取自这里 https twistedmatrix com documents 16 3 0 core howto logger html usage for emitting applications from twisted
我应该使用 Pylons 还是 Pyramid？

我本来打算从 Django 迁移到 Pylons 但后来我遇到了 Pyramid 塔架和金字塔有什么区别我读了一些文字塔书 http pylonsbook com 目前涵盖 Pylons 0 9 7 并且想知道它是否是 Pylons 和
字符串中数字的连续相加

我是一名正在学习 python 的新程序员并且在如何完成此任务方面遇到了困难所以本质上我有一个从文件导入的数字字符串需要读取并且需要将第一个数字的总和添加到第二个数字并将其转换为正确的 ascii 字符因此例如如果我正在读取字符
如何将魔杖图像对象转换为 numpy 数组（不使用 OpenCV）？

我正在使用将 pdf 文件转换为图像Wand http docs wand py org en 0 4 4 然后我使用 ndimage 进行进一步的图像处理我想直接将 Wand 图像转换为 ndarray 我已经看到答案here htt
读取大文件并制作字典

我有一个大文件我需要读取它并从中制作字典我希望这一切能够尽可能快然而我的Python代码太慢了这是一个显示问题的最小示例首先制作一些假数据 paste lt seq 20000000 lt seq 2 20000001 gt la
代码终止后保持 matplotlib / pyplot 窗口打开

我希望 python 绘制一个图在不阻塞控制流的情况下显示它并在代码退出后使图保持打开状态这可能吗这个以及相关的主题存在于许多其他线程中见下文但我无法让情节保持开放且非阻塞例如如果我使用pyplot ion before p
使用Python批量重命名文件

下面是我的代码来批量重命名给定目录中的图片 def multi filename change i 0 files askstring Select your folder Paste your directory path where y
使用unittest时如何知道每次测试花费的时间？

Unittest 仅显示运行所有测试所花费的总时间但不单独显示每个测试所花费的时间使用unittest时如何添加每个测试的计时我想目前不可能 http bugs python org issue4080 http bugs pyth
XGBoostLibraryNotFound：在候选路径中找不到 XGBoost 库，您是否安装了编译器并在根路径中运行了 build.sh？

我在移动 XGBoost 的 python package 目录时遇到这个问题 Traceback most recent call last File setup py line 19 in LIB PATH libpath find l
使用 Django 添加额外 \\ 字符的 JSON 编码

我正在尝试创建一个函数将包含消息和 Django 模型实例的字典转换为 JSON 然后我可以将其传回客户端例如我在 models py 中定义了模型 Test from django db import models class Te
在 Django(Python) 中向用户提供 Excel(xlsx) 文件下载

我正在尝试使用 Django 创建和提供 Excel 文件我有一个 jar 文件它获取参数并根据参数生成 excel 文件并且它可以正常工作但是当我尝试获取生成的文件并将其提供给用户下载时文件损坏了它的大小为 0kb 这是我用
Django Rest框架Json解析

我想解析传入的POSTdjangoviews py 文件中的数据发布数据 number 17386372 data banana apple grapes 这是我尝试读取上述传入数据的方法request views py class Fr
如何重写一个列表列表，使值的“孤岛”彼此唯一？

假设我有一个列表列表或更概念上准确的二维数组 list 1 1 0 0 0 1 1 2 0 0 0 2 2 2 0 0 0 0 2 0 0 0 0 1 0 我想识别具有相同值的不同区域并重写列表以便每个区域都有唯一的值如下所示 lis
使用unicode在hdf5中存储字符串数据集

我试图从包含特殊字符的文件中存储变量字符串表达式例如 and 这是我的代码 import h5py as h5 file h5 File deleteme hdf5 a dt h5 special dtype vlen str dset
使用 python 将多个 JSON 文件插入 MongoDB

JSON文件如下a json b json z json 26个json文件每个文件的 json 格式如下 a cappella word a cappella wordset id 5feb6f679a meanings id 4920
Django Admin Media 前缀 URL 问题

我有以下文件夹结构 src BAT templates admin base html src BAT media base css src BAT media admin media base css 设置 py MEDIA ROOT o
DataFrame 对象没有属性“sort_values”

dataset pd read csv dataset csv fillna 100 dataset Id 0 dataset i 0 dataset j 0 entries dataset dataset Id 0 print type
子进程调用，它们是并行完成的吗？

我一直在谷歌搜索这个问题的答案但似乎没有一个答案谁能告诉我如果subprocess模块是否并行调用 Python 文档建议它可用于生成新进程但没有提及它们是否并行如果它们可以并行完成您能否给我举一个例子或将我链接到一个例子这取决

随机推荐

在 Haskell 中将字节转换为 Int64s/Floats/Doubles

我正在尝试解析 Haskell 中的二进制文件格式 Apple 的二进制属性列表格式该格式所需的内容之一是将字节序列视为 a 无符号 1 2 或 4 字节整数 b 有符号 8 字节整数 c 32 位floats d 64 位doubles
如何在ubuntu中从源代码安装postgresql的AGE扩展？ [关闭]

Closed 这个问题是与编程或软件开发无关 help closed questions 目前不接受答案由于我想尝试一下 Apache Age of postgresql 所以在阅读文档时我迷失了方向有什么简单的解决方案吗这是有关如何
如何为 Windows 和 macOS 更新 PyQT5 应用程序？

我有一个使用 PyQT5 为 Windows 和 macOS 构建的应用程序目前用户通过单击按钮检查更新当有可用的新更新时我将它们重定向到浏览器到我的服务器以下载最新的 exe Windows 或 pkg macOS 问题在于如果
应用程序未运行时处理推送通知

当我的应用程序是not运行并收到推送通知如果我单击该通知应用程序将启动但随后它不会提示用户我设置的警报视图询问他们是否要查看通知的内容它刚刚启动就坐在那里推送通知确实有效完美当应用程序is正在运行无论是作为活动应用程序还是在
Rails 5 错误消息：子模型父模型必须存在

我有两个模型父模型是财产子模型是电话当尝试使用嵌套电话数据创建新的属性记录时我收到一条错误消息 Phones 属性必须存在我研究了 Rails Guide 和许多其他文档但没有确定原因如果你想查看所有代码这里有一个公共 gi
WampServer Hosts 文件不退出

我的 wamp 服务器安装后出现问题但是我的 wamp 服务器仍然正常但我可以知道如何纠正此错误吗错误如下文件 C WINDOWS system32 drivers etc hosts 不可写文件 C WINDOWS syste
在方法中使用 IncludeMultiple

我正在使用 Ladislav Mrnka 的扩展方法 public static IQueryable
在 Rust 程序意外退出期间注册要运行的函数的最佳方法是什么？

我正在用 Rust 创建一个终端文本编辑器编辑器将终端置于原始模式禁用字符回显等然后在退出时恢复原始终端功能然而编辑器存在一些错误并且由于无符号变量下溢等问题时不时地意外崩溃发生这种情况时将终端恢复到原始状态的清理代码永远
0xp0 打印 0.0（十六进制浮点文字）

我只是想知道为什么会编译既然它确实编译了那意味着什么 System out println 0xp0 p OUTPUT 0 0 The JLS http docs oracle com javase specs jls se7 html
从 HTML IFRAME 调用 JS 函数（均为 Web 资源）

我上传了两个网络资源 a HTML and b JS 在 HTML 文档中我有一个执行脚本的部分并且它按预期工作将加载上传到我的表单上的 IFRAME 中现在由于代码的大小我觉得需要重构它并且我想将一些方法从 HTML Web
如果公司使用 C++、C# 或 Java 作为应用语言，为什么还要学习 Perl、Python、Ruby？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想知道为什么 C C Java 开发人员想要学习动态语言假设公司不会将其主要开发语言从 C C Java 切换到动态语言那么动态
W3C TTML 计时属性说明

In W3C TTML dfxp 标准 http www w3 org TR ttaf1 dfxp content vocabulary div a div元素可以包含begin end and duration属性如何解释这些时序属性的
Android 崩溃报告 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
RMarkdown：浮动目录和开头目录

我想知道是否可以在文档开头有一个浮动目录和另一个浮动目录我目前的首要任务如下 title TEST author brettljausn date January 15 2018 output html document toc true
有没有办法像我们在bunyan CLI 中显示的那样显示winston 日志文件？

In Bunyan https github com trentm node bunyanlogger 我们可以看到这样的日志文件 tail f sample log bunyan并以彩色显示日志并漂亮地显示 json 对象但我找不到类似
Oracle：PL/SQL 中查看值是否存在的最快方法：列表、VARRAY 或临时表

UPDATE如果您想查看很长的原始问题请查看编辑这是问题的更清晰的简短版本我需要看看是否GroupA 不总是GroupA 这会改变每个循环迭代存在于大约 200 个组的列表数组临时表等等中如何存储这 200 个组完全由我
2013 年初的 glmer 模型：重新运行时有关收敛的警告消息

一年多前 2013年2月我曾使用过lmer使用以下命令运行涉及二项式结果的混合效应模型 nl3 lmer lt glmer cul bi food act where intlan inter cul via m via h 1 Id d
使用 MSAL 与 Angular 进行重定向_uri_mismatch Azure AD B2C

使用时loginRedirect or acquireTokenRedirect 我收到以下错误 redirect uri mismatch AADB2C90006 3a 请求中提供的重定向 URI http 3a 2f 2flocalho
docker 容器内的 Spring Boot 实时重新加载不起作用

我们有一个在 docker 容器内运行的 Spring boot gradle 项目该容器使用 docker 卷 Spring devtools 实时重新加载功能与以下属性一起使用 spring devtools restart enab
使用正则表达式标记化进行 NLP 词干提取和词形还原

定义一个函数名为performStemAndLemma 它需要一个参数第一个参数 textcontent 是一个字符串编辑器中给出了函数定义代码存根执行以下指定任务 1 对给出的所有单词进行分词textcontent 该单词应包含字

使用正则表达式标记化进行 NLP 词干提取和词形还原

使用正则表达式标记化进行 NLP 词干提取和词形还原 的相关文章

随机推荐

热门标签

使用正则表达式标记化进行 NLP 词干提取和词形还原的相关文章