摆脱停用词和标点符号

2023-11-23

我正在与 NLTK 停用词作斗争。

这是我的代码..有人可以告诉我出了什么问题吗？

from nltk.corpus import stopwords

def removeStopwords( palabras ):
     return [ word for word in palabras if word not in stopwords.words('spanish') ]

palabras = ''' my text is here '''

您的问题是字符串的迭代器返回每个字符而不是每个单词。

例如：

>>> palabras = "Buenos dias"
>>> [c for c in palabras]
['B', 'u', 'e', 'n', 'a', 's', ' ', 'd', 'i', 'a', 's']

你需要迭代并检查每个单词，幸运的是 split 函数已经存在于 python 标准库中字符串模块。但是，您正在处理自然语言，包括标点符号，您应该看看here以获得更可靠的答案，使用re module.

一旦您有了单词列表，您应该在比较之前将它们全部小写，然后按照您已经显示的方式进行比较。

布埃纳苏尔特。

EDIT 1

好的，试试这个代码，它应该对你有用。它展示了两种方法，它们本质上是相同的，但第一种更清晰，而第二种更Pythonic。

import re
from nltk.corpus import stopwords

scentence = 'El problema del matrimonio es que se acaba todas las noches despues de hacer el amor, y hay que volver a reconstruirlo todas las mananas antes del desayuno.'

#We only want to work with lowercase for the comparisons
scentence = scentence.lower() 

#remove punctuation and split into seperate words
words = re.findall(r'\w+', scentence,flags = re.UNICODE | re.LOCALE) 

#This is the simple way to remove stop words
important_words=[]
for word in words:
    if word not in stopwords.words('spanish'):
        important_words.append(word)

print important_words

#This is the more pythonic way
important_words = filter(lambda x: x not in stopwords.words('spanish'), words)

print important_words

我希望这可以帮助你。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLTK

stopwords

摆脱停用词和标点符号的相关文章

将 JSON 发布到 Python CGI

我已经安装了 Apache2 并且 Python 可以工作但我有一个问题我有两页一个是 Python 页面另一个是带有 JQuery 的 Html 页面有人可以告诉我如何让我的 ajax 帖子正常工作吗
scipy.optimize on pandas dataframe

我试图搜索它但结果很差有人可以向我解释一下如何在 Pandas DataFrame 上执行 optimize minimize 以便最小化 DataFrame 中的类别和结果列之间的错误考虑这个例子 import pandas as
如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th
来自 pandas 数据帧的烛台图，用日期替换索引

此代码给出了带有移动平均线的烛台图但 x 轴位于索引中我需要 x 轴位于日期中需要做什么改变 import numpy as np import pandas as pd import matplotlib pyplot as plt
如何计算数据框中按另一列的列值分组的一列的连续字符串值？

我有以下数据框 Levels Labels Confidence 0 Hands 0 8 0 Leg 0 7 0 Eye 0 9 1 Ear 0 9 1 Eye 0 8 2 Hands 0 9 2 Eye 0 8 3 Eye 0 8 我想检
Matplotlib 图例，跨列添加项目而不是向下添加项目

对于下面的简单绘图有没有办法让 matplotlib 填充图例以便它从左到右填充行而不是第一列然后第二列 gt gt gt from pylab import gt gt gt x arange 2 pi 2 pi 0 1 gt gt
如何在Windows中的Python 3.9下pip安装pickle？

我需要pickle https docs python org 3 9 library pickle html module pickle包安装在我的下面Python 3 9在 Windows 10 下我尝试过的当尝试与pip inst
带有 mkdocs 的本地 mathjax

我想在无法访问互联网的计算机上使用 MathJax 和 Mkdocs 因此我不能只调用 Mathjax CDN Config mkdocs yml site name My Docs extra javascript javascripts
App Engine NDB：如何访问属性的 verbose_name

假设我有这个代码 class A ndb Model prop ndb StringProperty verbose name Something m A m prop a string value 当然现在如果我打印 m prop 它会
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
查找与另一列 Pandas 中的唯一值关联的列中的值的交集

如果我有一个像这样的数据框非常小的例子 col1 col2 0 a 1 1 a 2 2 b 1 3 b 2 4 b 4 5 c 1 6 c 2 7 c 3 我想要所有的交集col2当价值观与其独特性相关时col1值因此在这种情况下交集
在请求中设置端口

我正在尝试利用cgminer使用 Python 的 API 我对利用requests图书馆我了解如何做基本的事情requests but cgminer想要更具体一点我想缩小 import socket import json sock
高级描述熊猫

有没有像 pandas 那样更高级的功能通常我会继续这样 r pd DataFrame np random randn 1000 columns A r describe 我会得到一份很好的总结就像这样 A count 1000 000
Seaborn 中没有线性拟合的散点图

我想知道是否有办法关闭seaborn中的线性拟合lmplot或者是否有一个等效函数可以生成散点图当然我也可以使用 matplotlib 但是我发现 seaborn 中的语法和美学非常吸引人例如我想绘制以下情节 import sea
如何按 pandas 中的值对系列进行分组？

我现在有一只熊猫Series与数据类型Timestamp 我想按日期对其进行分组并且每组中有许多行具有不同的时间看似显而易见的方法类似于 grouped s groupby lambda x x date 然而熊猫的groupby按索
无法导入QUERY_TERMS

我正在运行一个网站Python and Django Django filters 2 1 installed Django 2 1 installed 当我运行时我收到以下错误 importError Could not import
如何通过 Python Requests 库使用基本 HTTP 身份验证？

我正在尝试在 Python 中使用基本的 HTTP 身份验证我正在使用Requests https docs python requests org 图书馆 auth requests post http hostname auth HT
Django 将 JSON 数据传递给静态 getJSON/Javascript

我正在尝试从 models py 中获取数据并将其序列化为views py 中的 JSON 对象模型 py class Platform models Model platformtype models CharField max len
Python：如何在不先创建整个列表的情况下计算列表的总和？

通常我们必须 1 声明一个列表 2 使用以下方法计算该列表的总和sum 但现在我希望指定一个以 1 开头间隔为 4 100 个元素的列表如下所示 1 5 9 13 17 21 25 29 33 37 我不想涉及数学公式所以 1 如何在
基于值的 matplotlib 条形图颜色

有没有一种方法可以根据条形图的值对条形图的条形进行着色例如 values below 0 5 red values between 0 5 to 0 green values between 0 to 08 blue etc 我找到了一些

随机推荐

致命错误：超出最大执行时间 300 秒

我不断收到此 PHP 错误致命错误超出最大执行时间 300 秒我尝试过设置我的max execution time and my max input timephp ini apache 和 cli 中的设置0 1 and 4000每
模式匹配“返回”值

为什么不可能链接模式匹配结构例如以下内容是合法的如果是无意义的 val a ADT 5 val b a match case ADT a if a gt 4 gt ADT a 3 case ADT a gt ADT a 1 b mat
MySQL 事务与会计应用程序

我有一个如下表 transaction id user id other user id trans type amount 该表用于维护金融类型应用程序的帐户交易它采用复式记账法因此从用户 A 到 B 的转账将在表中插入两行如下所示
地理坐标到街道名称

是任何方式与restAPI会很棒来获取与地理坐标对应的街道名称我认为这个名字是geocoding google有这个API吗我是 PHP 开发人员 Ex 因此该函数的输出是街道名称邮政编码和城市感谢您提供任何帮助和脚本示例是的
函数侦听器无法启动。 Azure函数应用程序时间触发

当我在本地环境中从 Visual Studio 运行 azure 函数时出现以下错误函数 Function1 的侦听器无法启动 Microsoft WindowsAzure Storage 错误请求这是我的代码 using Syste
Vim - 如何使您自己的映射可重复？

我的 vimrc 中有以下映射 nmap
将自定义上下文菜单项添加到 Windows 窗体标题栏

I found a threadMSDN 上展示了如何将项目添加到 Windows 窗体标题栏的上下文菜单不幸的是它没有显示如何使用自定义菜单项注册事件我一直无法弄清楚如何做到这一点下面是一个示例应用程序可以将其复制并粘贴到新的
django - 如何交叉检查 ModelAdmin 及其内联？

我有两个模型 ModelParent 和 ModelChild 在主题模型上具有相同的 m2m 字段 ModelChild 在 ModelParent 上有一个外键并且 ModelChild 在管理页面上被定义为 ModelParent
发布请求 Axios：网络错误

我使用 NodeJS 作为后端使用 ReactJS 作为前端我请求 Axios 网络时遇到问题我所有的 Get 请求都有效但是Post请求不起作用我只是遇到这个错误网络错误我创建了一个简单的网络服务来向您展示我的问题 Serv
jquery .click 函数的基本延迟

我有最基本的 jquery 函数但我无法在文档中找到一种方法来在 1500 毫秒后触发此单击函数的内容 masonryRecall click function mainContent masonry 附刚刚注意到 delay 函数 j
python 中的站点包是什么？如果您不是 root，您可以安装/使用它们吗？

我正在尝试安装lldb在 Linux 中到我系统上的主目录我没有 root 访问权限并且我在尝试创建子目录的步骤中遇到了问题 usr lib python2 6 site packages 我在 Makefile 中找到了设置此变量的行
创建一个粘在 UITableView 底部的 UIView

我有一个grouped UITableView我想在我的最底部添加一个 UIButtonUITableView 我正在使用 Storyboard 和 UITableViewController 我不太确定需要在哪里添加代码或拖放 UI 元
如何使用 json.net 设置 json 路径的值

我正在尝试在 JSON 结构中设置任意路径但我很难弄清楚如何执行简单的设置值我想要的是像 SetValue path value 这样的方法其操作类似于 SelectToken 但如果路径不存在则创建路径并设置值 public voi
Perl - 从输入字符串中获取第一个“单词”

我正在尝试编写一个 Perl 程序该程序从文本文件中读取行并且对于每一行从该行中提取第一个单词并根据返回的字符串执行不同的操作主循环如下所示 while
如何从特定版本的 Google Sheet 读取数据？

我在互联网上找到了从最新版本的Google Sheet读取数据的代码示例如下所示 SpreadsheetService service new SpreadsheetService Print Google Spreadsheet Dem
将“new-row”的 DataGridViewImageColumn 中的“red-cross”替换为自定义图像

如果您指定AllowUserToAddRows在winforms中DataGridView用户可以在网格中手动添加新行现在我想在一列中添加一个图像按钮该按钮也应该显示在新行中但我无法让它显示图像只显示红十字图像就像没有找到一样这
Spring自定义注解多字段验证

这里有一个有点贪心的问题希望这个问题也能帮助其他想了解更多注释验证的人我目前正在学习Spring 目前我计划尝试一下自定义注释验证我查了很多现在知道主要有两种验证一种是用于控制器的另一种是使用 Valid的注解方法这是我的场
PHP 在所有请求中保留变量

在某些语言 C 或 NET 中这将是静态变量但在 PHP 中每次请求后都会清除内存我希望该值在所有请求中持续存在我不想 SESSION 因为每个用户的情况都不同为了帮助解释这里有一个例子我想要一个像这样的可以计数的脚本无论哪
在 File.Create 之后关闭文件[重复]

这个问题在这里已经有答案了我检查文件是否存在 if File Exists myPath File Create myPath 但是当我去创建一个StreamReader使用这个新创建的文件我收到一条错误消息该进程无法访问文件此处
摆脱停用词和标点符号

我正在与 NLTK 停用词作斗争这是我的代码有人可以告诉我出了什么问题吗 from nltk corpus import stopwords def removeStopwords palabras return word for wo

摆脱停用词和标点符号

EDIT 1

摆脱停用词和标点符号 的相关文章

随机推荐

热门标签

摆脱停用词和标点符号的相关文章