从文本块中删除停用词

2024-01-02

我正在处理一个文本块，步骤之一是删除停用词。 Textblob 是不可变的，因此我将其转换为列表来完成这项工作：

blob = tb(tekst)
lista = [word for word in blob.words if word not in stopwords.words('english')]
tekst = ' '.join(lista)
blob = tb(tekst)

有没有更简单/更优雅的解决方案来解决这个问题？

你可以试试这个代码：

from textblob import TextBlob
from nltk.corpus import stopwords

b="Do not purchase these earphones. It will automatically disconnect and reconnect. Worst product to buy."
text=TextBlob(b)

# Tokens
tokens=set(text.words)
print("Tokens: ",tokens)
# stopwords
stop=set(stopwords.words("english"))

# Removing stop words using set difference operation
print("Filtered Tokens: ",tokens-stop)

Output: *Tokens:{'购买', '断开连接', '将', '要', '购买', '重新连接', '产品', '它', '做', '和', '最差', '耳机', '不'、'自动'、'这些'}

过滤后的令牌：{'购买', '断开连接', '购买', '重新连接', '产品', '它', '做', '最差', '耳机', '自动'}*

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

textblob

从文本块中删除停用词的相关文章

为什么从 Pandas 1.0 中删除了日期时间？

我在 pandas 中处理大量数据分析并每天使用 pandas datetime 最近我收到警告 FutureWarning pandas datetime 类已弃用并将在未来版本中从 pandas 中删除改为从 datetime 模块
元组有什么用？

我现在正在学习 Python 课程我们刚刚介绍了元组作为数据类型之一我阅读了它的维基百科页面但是我无法弄清楚这种数据类型在实践中会有什么用处我可以提供一些需要一组不可变数字的示例吗也许是在 Python 中这与列表有何不同每
在 django ORM 中查询时如何将 char 转换为整数？

最近开始使用 Django ORM 我想执行这个查询 select student id from students where student id like 97318 order by CAST student id as UNSIG
安装了 32 位的 Python，显示为 64 位

我需要运行 32 位版本的 Python 我认为这就是我在我的机器上运行的因为这是我下载的安装程序当我重新运行安装程序时它会将当前安装的 Python 版本称为 Python 3 5 32 位然而当我跑步时platform arch
Pandas/Google BigQuery：架构不匹配导致上传失败

我的谷歌表中的架构如下所示 price datetime DATETIME symbol STRING bid open FLOAT bid high FLOAT bid low FLOAT bid close FLOAT ask open
需要在python中找到print或printf的源代码[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在做一些我不能完全谈论的事情我
使用 kivy textinput 的 'input_type' 属性的问题

您好我在使用 kivy 的文本输入小部件的 input type 属性时遇到问题问题是我制作了两个自定义文本输入其中一个称为 StrText 其中设置了 input type text 然后是第二个文本输入名为 NumText 其
将 python2.7 与 Emacs 24.3 和 python-mode.el 一起使用

我是 Emacs 新手我正在尝试设置我的 python 环境到目前为止我已经了解到在 python 缓冲区中使用 python mode el C c C c将当前缓冲区的内容加载到交互式 python shell 中显然使用了什么
使用Python请求登录Google帐户

在多个登录页面上需要谷歌登录才能继续我想用requestspython 中的库以便让我自己登录通常这很容易使用requests库但是我无法让它工作我不确定这是否是由于 Google 做出的一些限制也许我需要使用他们的 API 或
YOLOv8获取预测边界框

我想将 OpenCV 与 YOLOv8 集成ultralytics 所以我想从模型预测中获取边界框坐标我该怎么做呢 from ultralytics import YOLO import cv2 model YOLO yolov8n pt
在 Sphinx 文档中*仅*显示文档字符串？

Sphinx有一个功能叫做automethod从方法的文档字符串中提取文档并将其嵌入到文档中但它不仅嵌入了文档字符串还嵌入了方法签名名称参数我如何嵌入only文档字符串不包括方法签名 ref http www sphinx do
Numpy - 根据表示一维的坐标向量的条件替换数组中的值

我有一个data多维数组最后一个是距离另一方面我有距离向量r 例如 Data np ones 20 30 100 r np linspace 10 50 100 最后我还有一个临界距离值列表称为r0 使得 r0 shape Dat
javascript 是否有等效的 __repr__ ？

我最接近Python的东西repr这是 function User name password this name name this password password User prototype toString function r
从 NumPy ndarray 中选择行

我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组例如此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
import matplotlib.pyplot 给出 AttributeError: 'NoneType' 对象没有属性 'is_interactive'

我尝试在 Pycharm 控制台中导入 matplotlib pyplt import matplotlib pyplot as plt 然后作为回报我得到 Traceback most recent call last File D Pr
如何使用原始 SQL 查询实现搜索功能

我正在创建一个由 CS50 的网络系列指导的应用程序这要求我仅使用原始 SQL 查询而不是 ORM 我正在尝试创建一个搜索功能用户可以在其中查找存储在数据库中的书籍列表我希望他们能够查询书籍表中的 ISBN 标题作者列目前它
如何断言 Unittest 上的可迭代对象不为空？

向服务提交查询后我会收到一本字典或一个列表我想确保它不为空我使用Python 2 7 我很惊讶没有任何assertEmpty方法为unittest TestCase类实例现有的替代方案看起来并不正确 self assertTrue
Python ImportError：无法导入名称 __init__.py

我收到此错误 ImportError cannot import name life table from cdc life tables C Users tony OneDrive Documents Retirement retirem
模拟pytest中的异常终止

我的多线程应用程序遇到了一个错误主线程的任何异常终止例如未捕获的异常或某些信号都会导致其他线程之一死锁并阻止进程干净退出我解决了这个问题但我想添加一个测试来防止回归但是我不知道如何在 pytest 中模拟异常终止如果我只
如何应用一个函数 n 次？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案假设我有一个函数它接受一个参数并返回相同类型的结果 def increment x return x 1 如何制作高阶函数repeat可以

随机推荐

无法使用 Gradle 6.1.1 解析 junit-jupiter-params:5.6.2 和 junit-jupiter-engine:5.6.2

我有一个 Android 项目其中包含 2 个 Android 模块和 1 个纯 Java 模块将 android 构建工具更新为 com android tools build gradle 4 0 0 并将 gradle 包装器更新
使用 OAuth2 将 JHipster 中的前端和 API 服务器分开不起作用

我使用 OAuth2 创建了一个简单的 JHipster 6 2 0 Angular 应用程序并且还单独生成了一个客户端应用程序此外我使用 keycloak yml 为 Keycloak 创建了一个 docker JHipster 附
使用 for 循环在 ggplot2 中添加图层

我想这很容易但我不明白它与 ggplots 上 for 循环的使用有关问题是为什么下面这两个代码给出不同的结果看起来好像在带有循环的代码上只考虑了第二次迭代但我不知道为什么根本问题是是否可以使用 ggplot2 对象运行此
Android 数据存储 IOException 无法重命名为

我正在尝试在我的项目中实现 Jetpack Datastore 我当时用的是apha 01版本和代码工作正常然后我在Gradle文件中看到有新版本所以我将其更新为alpha 03 启动我的应用程序后我遇到了另一个问题我发现Proto库
为什么我在 Android 上无法检测到带有 unicode 字符的 wifi SSID？

我有一个 Wi Fi AP 其 SSID 是一串 unicode 字符例如我希望 Android 设备连接到它当我的设备 Nexus One 检测到热点时 SSID 看起来像这样并且无法识别它知道如何解决这个问题吗 802 11数
Python数据结构按字母顺序排序列表[重复]

这个问题在这里已经有答案了我对 python 中的数据结构有点困惑 and 我正在尝试对一个简单的列表进行排序可能是因为我无法识别数据的类型所以无法对其进行排序我的清单很简单 Stem constitute Sedge Eflux
Scala：在路径相关上下文中重用路径相关类型产生的泛型

简而言之以下内容无法编译原因如下我怎样才能使其工作 trait Simulator type CM T def useCM v CM case class CMH S lt Simulator T cm S CM T class Si
查找不平衡的大括号和圆括号

海湾合作委员会4 6 0 GNU Emacs 23 2 1 我有一些 C 代码在某些时候我一定犯了一个打字错误现在我留下了不平衡的花括号或括号我有大约 2000 行代码我只是想知道有什么技术可以找到它们吗 Emacs 有一些很好的功
我应该使用 ON DELETE CASCADE、 :dependent => :destroy 还是两者都使用？

在 Rails 应用程序中我在 MySQL 中有外键约束我将它们全部手动设置与我的迁移分开我想弄清楚我是否应该使用 ActiveRecord dependent gt destroy选项例如在我的架构中我有表 users log
如何在 python 中检索按钮的行和列信息并使用它来更改其设置

我正在创建一个游戏并尝试用 python 和 tkinter 制作它我已经用基于单词的 python 完成了它并希望将其图形化我创建了一个用作网格的按钮网格这些按钮当前带有字母 O 以显示空白区域然而我想要的是显示海盗所在位置的
使用 DataFrame.lookup 获取列名称是字符串子集的行

假设有一个如下所示的简单数据框 data grades Feb 10 20 30 40 50 grades Jan 5 10 15 20 25 grades April 1 2 3 4 5 months Feb April Jan Feb
如何使用具有深度限制的 jQuery find() ？

我需要使用 jquery 的 find 选择器来获取所有具有 field container 类的 div 问题是我无法深入 DOM 树这是我的简化 HTML 结构 div div div class field container sp
JTable 中的多行选择

我有一个 JTable 其中一列是不可编辑的文本第二列是一个显示布尔值的复选框现在我想要的是当用户选择多行并取消选中其中任何一行时选中复选框则选择下的所有复选框都应取消选中反之亦然使用 Hovercraft 的示例和 camic
简单插入适用于 phpmyadmin 但不适用于 php

我正在尝试使用 mysql query 插入此查询 INSERT INTO um group rights um group id cms usecase id um right id VALUES 2 1 1 INSERT INTO um
MySQL / MariaDB：如何查找基于时间的数据的差距？

记录器系统每 5 秒保存一行数据秒 0 5 10 15 55 时间类似于23 00 07不可能有时记录器由于通信错误而无法保存并且表中只是缺少行我需要检测这些间隙我想读取间隙之前的最后一行和间隙之后的第一行这些是演示数据 cr
来自升序序列的连续子列表

given xs 1 2 3 4 6 7 9 10 11 我的目标是回来 1 2 3 4 6 7 9 10 11 我想我可以这样做 groupBy x y gt succ x y xs 但这会返回 1 2 3 4 6 7 9 10 11 进
哪个 .NET 版本适用于 C# 5 异步功能 [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 用户必须在计算机上安装哪个版本的 N
python属性前后带有下划线有什么区别[重复]

这个问题在这里已经有答案了我想知道Python中这些有什么区别 self var1 self var1 self var1 self var1 作为起点您可能会发现这句话很有帮助PEP 8 Python 代码风格指南 http www
在编写 Spring Resource Bundle 时是否有单一规则来处理单引号？

春天的ResourceBundleMessageSource uses MessageFormat用于替换占位符 0 内部消息 MessageFormat要求单引号使用两个单引号 see 消息格式 Javadoc http docs or
从文本块中删除停用词

我正在处理一个文本块步骤之一是删除停用词 Textblob 是不可变的因此我将其转换为列表来完成这项工作 blob tb tekst lista word for word in blob words if word not in st

从文本块中删除停用词

从文本块中删除停用词 的相关文章

随机推荐

热门标签

从文本块中删除停用词的相关文章