从列表中删除自定义单词 - Python

2024-04-03

我有一个数据框列，如下所示：

我正在考虑删除特殊字符。我希望附加标签（在列表列表中），以便我可以将列附加到现有的 df.

这是我收集了这么多，但似乎不起作用。正则表达式尤其给我带来了很大的痛苦，因为它总是返回“预期的字符串或类似字节的对象”。

df = pd.read_csv('flickr_tags_participation_inequality_omit.csv')
#df.dropna(inplace=True) and tokenise
tokens = df["tags"].astype(str).apply(nltk.word_tokenize)

filter_words = ['.',',',':',';','?','@','-','...','!','=', 'edinburgh', 'ecosse', 'écosse', 'scotland']
filtered = [i for i in tokens if i not in filter_words]
#filtered = [re.sub("[.,!?:;-=...@#_]", '', w) for w in tokens]
#the above line didn't work


tokenised_tags= []
for i in filtered:
    tokenised_tags.append(i) #this turns the single lists of tags into lists of lists
print(tokenised_tags)

上面的代码不会删除自定义的停用词。

很感谢任何形式的帮助！谢谢！

你需要使用

df['filtered'] = df['tags'].apply(lambda x: [t for t in nltk.word_tokenize(x) if t not in filter_words])

注意nltk.word_tokenize(x)输出一个字符串列表，以便您可以对其应用常规列表理解。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

list

filter

从列表中删除自定义单词 - Python 的相关文章

Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
我怎样才能更多地了解Python的内部原理？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我使用Python编程已经有半年多了我对Python内部更感兴趣而不是使用Python开发应用程序
在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
Python逻辑运算符优先级[重复]

这个问题在这里已经有答案了哪个运算符优先4 gt 5 or 3 lt 4 and 9 gt 8 这会被评估为真还是假我知道该声明3 gt 4 or 2 lt 3 and 9 gt 10 显然应该评估为 false 但我不太确定 pyth
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
无法在 osx-arm64 上安装 Python 3.7

我正在尝试使用 Conda 创建一个带有 Python 3 7 的新环境例如 conda create n qnn python 3 7 我收到以下错误 Collecting package metadata current repoda
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li

随机推荐

在 eclipse 中使用 java.io 库，以便 FileInputStream 可以读取 dat 文件

Goal Print the data from a dat file to the console using Eclipse 长期目标我可以将 dat 文件传递给可执行文件它会创建一个带有格式化数据的新 txt 文件 The da
jQuery Dragenter 或 Dragover 包含子项

我目前正在编写一个上传脚本当然它具有拖放功能 However当我将文件拖到我的元素上时我试图让它工作它添加了类拖累然而因为我的元素有孩子所以它会不断地触发因为它进入和离开元素我想知道什么我怎样才能扩展 dragenter dr
在 Visual Studio 中查看 var 的类型

有没有办法查看 a 的类型var在 Visual Studio 2013 代码编辑器中当我有一个疯狂的时候linq查询很高兴看到结果类型是什么我不想更换var关键字与实际类型我只想看看它是什么还有一个键盘快捷键会向您显示将光标放
Java GUI repaint() 问题？

我有一个 JFrame 该 JFrame 包含一个 JButton 我单击 JButton 然后创建了 10 个 JTextField 问题在通过调整窗口大小强制重新绘制之前我看不到它们只有这样我才能看到创建的 JTextField
安装补丁 19 后，Oracle Forms 6i 在启动时崩溃并显示 0xC0000005 [已关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 UPD 0xC0000005 是STATUS ACCESS VIOLATION 在 winnt h 中定义这意味着应用程序尝试访问它无法
Python super 和设置父类属性

我在 Python super 以及继承和属性方面遇到了一个非常奇怪的问题首先代码 usr bin env python3 import pyglet import pygame class Sprite pyglet sprite S
找到字符串中最长的子串

我想找到字符串中最长的重复字符序列 ex aabbccc gt ccc aabbbddccdddd gt dddd etc 在第一个示例中 ccc 是最长的序列因为 c 重复了 3 次在第二个示例中 dddd 是最长的序列因为 d 重
如何返回许多 Promise 并在执行其他操作之前等待所有 Promise

我有一个循环它调用一个异步执行操作的方法这个循环可以多次调用该方法在这个循环之后我有另一个循环仅当所有异步工作完成时才需要执行所以这说明了我想要的 for i 0 i lt 5 i doSomeAsyncStuff for i
使用函数计算 C# 中数组之间的欧几里德距离

我想计算用户输入的点之间的欧几里德距离如下所示 static void Main string args int numtest int Parse Console ReadLine int points new int 10 2 for
Angular 2 - 打开/关闭默认引导模式

我不想使用Angular2 引导程序 https github com shlomiassaf angular2 modal or ng2 bs3 模态 https github com dougludlow ng2 bs3 modal正如
获取 Autofac 中接口的所有已注册实现

我需要从IComponentContext 已注册的列表Type是实现特定接口的我不需要类型的实际实例而是想要一个列表Type其中我could获取实例我想使用此列表在消息总线上生成订阅如何在 Autofac 中获取接口的所有已注册实
单击按钮获取数据表行数据

我有一个问题this https plnkr co edit cr4VDR1AZih8WiNxmKg6 p preview项目我正在尝试创建一个 CRUD 菜单当点击编辑按钮时该行的数据将被传输到引导模式并且用户可以从那里进行编
如何访问 PHP 中多选下拉列表中选择的值？

我在用Jquery 多选小部件 http www erichynds com jquery jquery ui multiselect widget 有一个带有多选选项的下拉列表框我正在使用 MySql 数据库中的数据填充下拉列表我无法
Google 身份服务 - 如何从经过身份验证的用户获取个人资料/电子邮件信息

我正在移植一些现有的 js 代码通过谷歌云平台进行身份验证因为它们正在迁移到一组新的库迁移指南 https developers google com identity oauth2 web guides migration to g
Cloud SQL 增量到 BigQuery

我需要针对我正在研究的用例之一提供一些建议使用案例我们在 Cloud SQL 中拥有大约 5 10 个表的数据其中一些被视为查找表另一些则被视为事务性表我们需要将其发送到 BigQuery 以生成 3 4 个表扁平化嵌套或非规
如何在 JSONP 中处理 twitter 失败鲸鱼

I load http search twitter com search json callback formatTweets q somehashTag timestamp new Date getTime 我突然得到 Error il
FFMPEG 将视频叠加在另一个视频之上

我已经浏览了 stackoverflow 上的所有问题但没有一个答案对我有用我有一个屏幕录制的 mp4 视频和另一个从网络摄像头录制的 mp4 视频我想将网络摄像头视频覆盖在屏幕录制视频的左上角我想我终于找到了执行此操作的正确命令行
存储设置：XML 与 SQLite？

我目前正在编写一个 IRC 客户端并且一直在尝试找出一种存储服务器设置的好方法基本上是一个大的网络列表及其服务器就像大多数 IRC 客户端一样我决定使用 SQLite 但后来我想以 XML 格式也许是最终格式在线免费提供该列表
选择到临时表

我相信我应该能够做到select into temptable from othertable where temptable以前不存在但它不起作用假如说othertable存在并具有有效数据并且 sometemp不存在 conn l
从列表中删除自定义单词 - Python

我有一个数据框列如下所示我正在考虑删除特殊字符我希望附加标签在列表列表中以便我可以将列附加到现有的 df 这是我收集了这么多但似乎不起作用正则表达式尤其给我带来了很大的痛苦因为它总是返回预期的字符串或类似字节的对象 df

从列表中删除自定义单词 - Python

从列表中删除自定义单词 - Python 的相关文章

随机推荐

热门标签