根据大量 python 数据帧的字数删除关键字

2024-04-28

如果我有这个df具有 41,000 行的数据框包含数千个单词，例如像这样df:

column1                                                                   column2
better spotted better rights rights rights fresh fresh rights rights      2015
better rights reserved                                                    2016
better                                                                    2015
better horse                                                              2014

我得到了每个单词的频率df to df2用这个代码：

df2 = df['column1'].str.split(expand=True).stack().value_counts()

and my df2看起来像这样：

keywords counts spotted 1 better 5 fresh 2 rights 6 horse 1 reserved 1

那么如何删除所有keywords in df其中有计数低于 5 次基于df2那么那么df看起来像这样：

column1                                           column2
better better rights rights rights rights rights  2015
better rights                                     2016
better                                            2015
better                                            2014

我的初步尝试是列出关键字df2像这样：

ListKeywords = ['spotted', 'fresh', 'horse', 'reserved']

然后简单地删除里面的所有单词列出关键词 from df用这个代码：

df['column1'] = df['column1'].apply(lambda x: ' '.join([word for word in x.split() if word not in (ListKeywords)]))

然后我感到很沮丧，因为我有 15,000 个关键字，而所有行中的字数都低于 5 次。这意味着我必须将 15,000 个关键字放入列出关键词，这太疯狂了。

任何人都可以帮助我摆脱这种沮丧吗？谢谢

虽然你创造了df2与以下人员合作更容易stackvalue_counts 之前的 ed 系列。这允许您过滤它str.join仅返回您想保留的单词。

s = df['column1'].str.split(expand=True).stack()

# Keep only words with frequency above specified threshold
cutoff = 5
s = s[s.groupby(s).transform('size') >= cutoff]

# Alignment based on original Index
df['column1'] = s.groupby(level=0).agg(' '.join)

                                            column1  column2
0  better better rights rights rights rights rights     2015
1                                     better rights     2016
2                                            better     2015
3                                            better     2014

据您所知，如果与value_countsDataFrame，您可以将其子集化并生成ListKeywords仅指定截止值。然而，我们已经split the 'column1'序列来获取计数，因此在这里重新进行此计算效率相当低。

df2 = df['column1'].str.split(expand=True).stack().value_counts()

cutoff = 5
ListKeywords = df2[df2 >= cutoff].index
#Index(['rights', 'better'], dtype='object')

df['column1'].apply(lambda x: ' '.join([i for i in x.split(' ') if i in ListKeywords]))

起始数据

df = pd.DataFrame({'column1': ['better spotted better rights rights rights fresh fresh rights rights',
                               'better rights reserved', 'better', 'better horse'],
                   'column2': [2015, 2016, 2015, 2014]})

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

根据大量 python 数据帧的字数删除关键字的相关文章

二进制数据的Python字符串表示

我试图理解 Python 显示表示二进制数据的字符串的方式这是一个使用的示例乌兰多姆操作系统 http docs python org library os html os urandom In 1 random bytes os ura
如何使用 QWebView 显示 html。 Python？

如何在控制台中显示 HTML 格式的网页 import sys from PyQt4 QtGui import QApplication from PyQt4 QtCore import QUrl from PyQt4 QtWebKit i
将字段重新格式化为列，其他字段（与先前结构中成为列的字段配对）成为新列中的字段

我的任务是清理慈善机构设计的移动应用程序中的数据在一个部分中用户问答应用程序使用会话由一行表示该部分由重复的问题答案字段对组成其中一个字段代表所提出的问题然后它旁边的字段代表相应的答案每个问题字段和答案列对一起代表一个独特的问
Emacs：在缓冲区求值期间将参数传递给下级 Python shell

最近我开始使用 Emacs 作为 Python IDE 它不太直观我现在遇到的问题是当使用 C c C c 评估缓冲区时如何将命令行参数传递给下级 python shell 感谢帮助这似乎并不容易实现管理的劣质流程python el模
配置 Flask 以正确加载 Bootstrap js 和 css 文件

如何使用 Flask 中的 url for 指令来正确设置以便使用 Bootstrap 和 RGraph 的 html 页面可以正常工作假设我的 html 页面看起来像这样部分片段
python matplotlib 使用按钮事件添加和删除图形中的文本

我试图在调用button press event 时将文本添加到鼠标指针位置的图形中并在调用button release event 时将其删除我已成功添加文本但无法将其删除这是我使用的代码的一部分 def onclick even
如何在 Python for 循环中获取 GAE ndb 中当前记录的密钥？

我目前有一个网页其中显示数据存储中的记录列表以及编辑链接我想从数据库转换它至新开发银行我是 Python 和 GAE 新手当前代码 tbody for listtype in listtypes tr td listtype Li
如何列出静态链接的 python 版本中可用的所有 openssl 密码？

在python 2 7 8到2 7 9升级中 ssl模块从使用更改为 DEFAULT CIPHERS DEFAULT aNULL eNULL LOW EXPORT SSLv2 to DEFAULT CIPHERS ECDH AESGCM D
Tkinter 按钮鼠标右键和左键单击有不同的命令

我正在用 Python 制作扫雷游戏并使用 tkinter 库来创建 gui 有没有绑定到 tkinter 按钮两个命令的方法一个是右键单击按钮时的命令另一个是单击左键时的命令通常按钮仅设计用于单击但 tkinter 允许您为
创建 df 以生成给定格式的 json

我正在尝试生成一个 df 来生成下面的 json Json数据 name flare children name K1 children name Exact size 4 name synonyms size 14 name K2 chi
将 Selenium 与 PyCharm CE 结合使用

我正在尝试将 Selenium 与 PyCharm CE 一起使用我已经使用 pip install Selenium 安装了 Selenium 并且可以通过终端使用它但是当我尝试将它与 PyCharm 一起使用时出现导入错误 Imp
Python 用静态图像将 mp3 转换为 mp4

我有x文件包含一个列表mp3我想转换的文件mp3文件至mp4文件带有static png photo 似乎这里唯一的方法是使用ffmpeg但我不知道如何实现它我编写了脚本来接受输入mp3文件夹和一个 png photo 然后它将创建新文件
如何更改Python使用的SQLite版本？

我在 Debian 9 12 上安装了 Python 3 8 和 SQLite 3 16 2 并且需要升级到较新版本的 SQLite 我已经下载并编译了 SQLite 网站上提供的合并并将其放入 usr bin 所以当我这样做时 sqli
了解字典的深度

假设我们有这个字典 d a 1 b c 了解嵌套的最直接方法是什么depth of it 您需要创建一个递归函数 gt gt gt def depth d if isinstance d dict return 1 max map dept
Python：如何对数组 X 进行排序，但对 Y 进行相同的相对排序？

例如 X 5 6 2 3 1 Y 7 2 3 4 6 我对X进行排序 X 1 2 3 5 6 但我希望对 Y 应用相同的相对排序以便数字保持与以前相同的相对位置 Y 6 3 4 7 2 我希望这是有道理的通常你会做一个zip sort
将索引数组转换为 NumPy 中的 one-hot 编码数组

给定一个一维索引数组 a array 1 0 3 我想将其一次性编码为二维数组 b array 0 1 0 0 1 0 0 0 0 0 0 1 创建归零数组b有足够的列即a max 1 然后对于每一行i 设置a i 第列至1 gt
gstreamer 中的无缝视频循环

我正在尝试使用 gstreamer 循环播放视频它是 python 绑定第一次尝试是hook EOSmessage并为管道生成搜索消息 import gi gi require version Gst 1 0 from gi repos
为什么我可以使用 tsql 连接到 Azure MS SQL，但不能使用 pymssql？

我今天在哪里 TDSVER 7 3 tsql H example database windows net U me D ExampleDB p 1433 P notreallymypassword 这不会 gt gt gt import
*Python 内的 Kaggle API 文档？

我想写一个python从 Kaggle com 下载公共数据集的脚本 Kaggle API 是用 python 编写的但是我能找到的几乎所有文档和资源都是关于如何在命令行中使用该 API 的而关于如何使用kaggle图书馆内python
如何在Python中显示坐标网格线的变换？

假设我有常规的笛卡尔坐标系 x y 并且我考虑一个矩形网格区域 D 分成小方块我想看看域 D 如何在 Python 中的坐标变换 T x y gt u x y v x y 下映射我正在寻找这样的东西 See here https mat

随机推荐

Ada 的命令行参数

我正在编写一个 Ada 程序该程序应该对字母字符进行大小写转换该程序使用 1 2 或 3 个命令行参数我几乎已经把事情写下来了但我不知道如何进行论证命令行参数是单个字符指定是否要进行大写转换或小写转换应用于输入 U 或 u 表
如何用 numpy 在 Cython 中表示 inf 或 -inf ？

我正在用 cython 逐个元素构建一个数组我想存储常量np inf or 1 np inf 在某些条目中然而这将需要返回 Python 进行查找的开销inf 有没有libc math相当于这个常数或者其他一些可以轻松使用的值相当
C 语言的计算单元转换器

我正在学习 C 并且编写了一个简单的程序只是晒黑输入时您传递两个参数行和列输出时您会获得该单元格的 Calc 或 Excel 代码例如 Input 3 1 Output A3 Input 1 27 Output AA1 代码 i
UIButton 数组或 UIButton 方法（名为：“\(string)”）

是否可以制作一个数组UIButtons let buttonArray UIButton UIButton Button1 UIButton Button2 UIButton Button3 稍后参考为 buttonArray 0 setI
我可以删除 TabControl 上选项卡上的虚线焦点矩形吗？

我有一个选项卡控件需要删除所选选项卡周围的虚线焦点矩形我已将 TabControl 的 TabStop 属性设置为 false 但是如果我单击一个选项卡并按Tab键选项卡名称周围出现虚线矩形我尝试过创建自己的TabControl并
运行用户数据脚本 AWS EC2 时出现问题

是否可以通过 AWSCLI 用户数据运行 python 脚本我尝试过但它没有运行我的日志中有以下内容 boot log 2015 08 07 10 08 30 660 init py WARNING Unhandled non mu
在 silverlight 中播放视频？

如何使用 silverlight 播放视频 Visual Studio 是否内置了视频播放器组件或者我需要制作一个视频播放器通常情况下这取决于您的要求您可以使用Silverlight自带的媒体元素 msdn信息在这里 http ms
如何检测两个同时触摸？

Windows Phone 8 中的触摸检测利用了 System Windows Input Touch FrameReported 事件该事件是开发人员可用的最原始且响应速度最快的触摸事件您可以像这样使用该事件 public Main
如何保证主机应用程序和扩展程序使用的共享应用程序容器中的核心数据存储中的唯一条目？

为了有效地提出我的问题让我们首先考虑一下我面临的具体场景常规设置一个主机 iOS 8 应用程序与主机应用程序捆绑在一起的一个或多个 iOS 8 扩展 WatchKit Share 等主机应用程序和所有扩展在共享应用程序组容器中共享
通过引用调用原型函数时，类失去“this”范围

谁能向我解释为什么 b 返回未定义以及如何解决这个问题当我通过引用调用原型函数时为什么 this 范围会丢失 MyClass function test this test test MyClass prototype myfunc f
如何确定动态创建的 DOM 元素是否已添加到 DOM 中？

根据规格 http www w3 org TR REC html40 interact scripts html 只有BODY and FRAMESETelements 提供了一个要附加的 onload 事件但我想知道动态创建的 DOM
sqlalchemy：每次提交都需要回滚吗？

我正在为我的网络应用程序使用 SQLAlchemy 我见过很多这样的代码 try session commit except session rollback 我想知道是否每个人都有必要commit 手术如果是那么为什么它不属于comm
代码合约问题

你好我有一个关于 CodeContracts 的小问题我有一个类库项目它作为一个类具有方法 foo string s1 string s2 在 foo 方法中我有一个 Contract Requires s1 null 因此如果
我可以创建一个与提交按钮功能相同的 CommandLink 吗？

请理解我写作能力的不足 I am testing to make a custom credential provider I want to create a CommandLink that does the same thing wi
Rails：计划任务来预热缓存？

我使用以下内容通过 memcached 缓存加载缓慢的页面 caches action complex report expires in gt 1 day 控制器操作受 Devise 身份验证保护当前该页面在用户第一次请求时被缓存当
如何在 OpenMDAO 1.x 中使用嵌套问题？

我正在尝试在 OpenMDAO 上实现协作优化和其他多级架构我读here https stackoverflow com questions 32612456 how to setup multi level mdo formulatio
ChromeOS 上 Android 应用的侧面加载和调试机制是什么？

我已经经历了一切http www chromium org chromium os android apps http www chromium org chromium os android apps并且还观看了 IO 视频似乎没有提到
无法获取 Ripple 会话信息

我使用 Visual Studio 2015 RC 创建了一个 Ionic Apache Cordova 应用程序我在自己的解决方案文件中创建了它并且可以使用 Ripple 运行它现在我想将文件移动到与服务器应用程序相同的文件夹中因
Django：从 QueryDict 读取 JSON 对象数组

如何通过 JS 的 AJAX 调用传递复合 JSON 结构并在服务器端将其读取为 python 中的非常相似的数据结构我知道可以使用 json 格式 simplejson 等但我不知何故觉得 QueryDict 本身在我的情况下格
根据大量 python 数据帧的字数删除关键字

如果我有这个df具有 41 000 行的数据框包含数千个单词例如像这样df column1 column2 better spotted better rights rights rights fresh fresh rights rig

根据大量 python 数据帧的字数删除关键字

根据大量 python 数据帧的字数删除关键字 的相关文章

随机推荐

热门标签

根据大量 python 数据帧的字数删除关键字的相关文章