根据列表中的关键字过滤数据框中的文本

2024-06-24

我有一个列表列表，列表的每个子列表都包含用于过滤数据框中文本的关键字。

keywords = [[('tarifa',), ('mantenimiento',), ('mensual',)],  
[('tasa',), ('anual',)],    
[('seguro',), ('bancaria',)],  
[('seguro',), ('generales',)],  
[('mi salud',), ('unific',)]]

我曾经通过手动输入关键字进行过滤，如下所示：

#for sublist 1:
kw_s = kw_df[kw_df['transaction_description'].str.contains('tarifa') & kw_df['transaction_description'].str.contains('mantenimiento') & kw_df['transaction_description'].str.contains('mensual')]
#for sublist 2:
kw_s = kw_df[kw_df['transaction_description'].str.contains('seguro') & kw_df['transaction_description'].str.contains('generales')]

现在我必须根据mysql表中配置的关键字进行过滤。因此，我将关键字保存在列表列表中，但我不知道如何通过子列表提取关键字来过滤数据帧。

知道我该怎么做吗？

这是数据框的示例

user_id reg_id    date                           transaction_description          value
kw_df = [[5,  56,  Timestamp('2022-01-29 00:00:00'),  'pac c.misalud conv. unificado',  12320.0],
[5,  57,  Timestamp('2021-12-19 00:00:00'),  'cargo seguro proteccion bancaria',  31222.0], 
[5,  60,  Timestamp('2021-04-06 00:00:00'),  'pac sura cia seguros generales',  8657.0],
[5,  178,  Timestamp('2022-03-21 00:00:00'),  'cargo seguro proteccion bancaria',  31222.0], 
[5,  179,  Timestamp('2022-03-01 00:00:00'),  'pac c.misalud conv. unificado',  12320.0], 
[5,  182,  Timestamp('2022-03-15 00:00:00'),  'pac sura cia seguros generales',  8657.0],
[5,  189,  Timestamp('2022-04-21 00:00:00'),  'cargo seguro proteccion bancaria',  31222.0],
[5,  190,  Timestamp('2022-04-01 00:00:00'),  'pac c.misalud conv. unificado',  12320.0],
[5,  193,  Timestamp('2022-04-15 00:00:00'),  'pac sura cia seguros generales',  8657.0],
[5,  206,  Timestamp('2022-05-21 00:00:00'),  'cargo seguro proteccion bancaria',  31222.0],
[5,  256,  Timestamp('2022-06-17 00:00:00'),  'cargo seguro proteccion bancaria',  40222.0]]

如何通过易失的单词子集过滤 DataFrame？

虚拟数据

import numpy as np
import pandas as pd

columns = ['transaction_description', 'value']
data = [
    ['pac c.misalud conv. unificado', 12320.0],
    ['cargo seguro proteccion bancaria', 31222.0], 
    ['pac sura cia seguros generales', 8657.0],
    ['cargo seguro proteccion bancaria', 31222.0], 
    ['pac c.misalud conv. unificado', 12320.0], 
    ['pac sura cia seguros generales', 8657.0],
    ['cargo seguro proteccion bancaria', 31222.0],
    ['pac c.misalud conv. unificado', 12320.0],
    ['pac sura cia seguros generales', 8657.0],
    ['cargo seguro proteccion bancaria', 31222.0],
    ['cargo seguro proteccion bancaria', 40222.0]]

df=pd.DataFrame(data, columns=columns)

keywords = [
    [('tarifa',), ('mantenimiento',), ('mensual',)], 
    [('tasa',), ('anual',)],    
    [('seguro',), ('bancaria',)],  
    [('seguro',), ('generales',)],  
    [('mi salud',), ('unific',)]]

Solving

我将使用一种结构，其中子列表的单词按列排列，或者准确地说，每个单词都作为元组的唯一元素放置在列表中。

让我们向量化str.__contains__使str1 in str2适用于数组的代码：

contains = np.vectorize(str.__contains__)

现在，我将测试这个功能df["transaction_description"]和第四组关键字[('seguro',), ('generales',)]例如：

desc = df['transaction_description']
contains(desc, keywords[3])

在这种情况下，我们得到以下结果：

array([[False,  True,  True,  True, False,  True,  True, False,  True,  True,  True],
       [False, False,  True, False, False,  True, False, False,  True, False, False]])

现在，为了查看是否可以在描述中找到该子集的所有单词，我们应用该方法all沿着前一个矩阵的第一个索引：

df[contains(desc, keywords[3]).all(axis=0)]

我们得到这些过滤后的数据：

          transaction_description   value
2  pac sura cia seguros generales  8657.0
5  pac sura cia seguros generales  8657.0
8  pac sura cia seguros generales  8657.0

长话短说

contains = np.vectorize(str.__contains__)
desc = df['transaction_description']
contain_all = lambda words: df[contains(desc, words).all(axis=0)]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

list

DataFrame

variables

根据列表中的关键字过滤数据框中的文本的相关文章

Python TypeError：不支持的操作数类型 -：“int”和“function”

我是 Python 初学者正在做一项作业我不断得到TypeError unsupported operand type s for int and function 即使在研究了错误并应用了建议的修复之后我并不是在寻找任何人给我一个解
使用 xsl:choose 动态定义 XSLT 变量

在我的 XSLT 电子表格中我需要根据 xml 节点的值定义一个具有一个或另一个值的 xsl variable 下面的代码显示了我正在尝试做的事情我想用这种方式定义多个变量一个主要问题是为了根据每个项目的节点值选择变量值必须在 x
从 java 代码运行 Python 脚本

这是我第一次在java中尝试python 我正在尝试从我的代码执行 python 脚本如下所示 Process process Runtime getRuntime exec python C Users username Desktop
使用 cx_oracle 返回 MERGE 中受影响的行数

如何在 CX Oracle 中执行 MERGE INTO sql 命令来获取受影响的行数当我在cx oracle 上执行MERGE SQL 时我得到的cursor rowcount 为 1 有没有办法获取受合并影响的行数由于 cx o
使用 pytherejs 嵌入小部件：错误的视角和相机观察

我在用pythreejs可视化一些 3D 模型在 Jupyter 笔记本上可视化模型时一切都按预期进行但是当尝试将小部件嵌入 HTML 文档时我面临两个问题看起来相机在加载时正在查看 0 0 0 而不是预期的那样一旦您与小部件交
为什么我的字符串中出现不需要的换行符？

这应该很简单这很愚蠢但我无法让它发挥作用我有一个在读取文件时定义的标头 if gene env in line or gene HIV2gp7 in line header line 现在这个标题看起来像 gt lcl NC 0018
Python Jinja2 调用宏会导致（不需要的）换行符

我的 JINJA2 模板如下所示 macro print if john name if name John Hi John endif endmacro Hello World print if john Foo print if joh
Plotly：如何在堆叠条形图顶部显示值的总和以及各个条形值？

我正在尝试在 Python 中的 Plotly Express 中添加每个堆叠条形顶部的总计以及各个条形值 import plotly express as px df px data medals long fig px bar df x
Python父类访问子私有变量

以下代码会生成错误 class A object def say something self print self foo print self bar class B A def init self self foo hello sel
识别文本中的多个类别和相关情感

如果您有一个文本语料库如何识别所有类别来自预定义类别列表以及与之相关的情绪正面负面写作我将在 Python 中执行此操作但现阶段我不一定要寻找特定于语言的解决方案让我们用一个例子来看看这个问题试图澄清我的问题如果我有一整
过滤给定范围内的坐标

我有数百个带有地理位置的 out 文件我将把它们批量导入到 SQLite 数据库中但是为了节省时间我只会导入地理坐标在某些间隔内的线文件是这样的 value value longitude latitude value value
折叠 numpy 数组除前两个维度之外的所有维度

我有一个可变维度的 numpy 数组例如它可以具有以下形状 64 64 64 64 2 5 64 64 40 64 64 10 20 4 我想要做的是如果维数大于 3 我想将其他所有内容折叠堆叠到第三维中同时保留顺序因此在我上面
如何循环遍历列表中除最后一项之外的所有项？ [复制]

这个问题在这里已经有答案了 Using a for循环如何循环遍历列表中除最后一项之外的所有项我想遍历一个列表检查每个项目与后面的项目我可以在不使用索引的情况下做到这一点吗 for x in y 1 If y是一个生成器那么上面的
如何从Python列表中的CSV文件的单个单元格中写入单词集？

dataList cyclone twister thunderstorm supercell wind weatherradar storm waterspout tropicalcyclone hurricane typhoon sno
如何隐藏 Tkinter python Gui

有人知道如何隐藏 python GUI Tkinter 我已经创建了键盘记录器对于 GUI 我使用了 python 模块 Tkinter 我想添加名为 HIDE 的按钮因此当用户单击它时它将隐藏 GUI 当用户按下 CTRL E 之类
如何使用 opencv python 根据检测到的物体的位置生成其热图

我需要根据对象的位置生成其热图示例视频帧中检测到的绿色球如果它长时间停留在某个位置那么该位置应该是红色的并且球在短时间内经过的帧中的位置必须是蓝色的这样我就需要生成热图提前致谢那么你在这里可以做的是 1 首先定义一个热图作为
用于监视文件夹和更新数据库的 Python 守护进程

这专门用于管理 MP3 文件但它应该可以轻松地适用于任何包含大量文件的目录结构我想找到或编写一个守护程序最好用Python 来监视一个包含许多子文件夹的文件夹这些子文件夹都应该包含X个MP3文件每当添加更新或删除文件时它都应该
在 Python 中为非唯一列表创建虚拟列

目前我有下一个数据框 import pandas as pd df pd DataFrame ID 1 2 3 4 5 col2 a b c c d e f f b f a c b b a b print df ID c
VSCode IntelliSense 认为 Python 'function()' 类存在

VSCode IntelliSense 正在完成一个名为的 Python 类function 这似乎不存在例如这似乎是有效的代码 def foo value return function value foo 0 But functio
Mac 无法安装 Tensorflow

我检查了我的 pip3 和 python3 版本 tensorflow MacBook Pro de Hector 2 tensorflow hectoresteban pip3 V pip 10 0 1 from Users hector

随机推荐

在 C# 中列出类似于 C++ 中的 vector.reserve(n) 的内容

当添加很多元素时System Collections Generic List
打开本地文件时如何绕过 document.domain 限制？

我有一组 HTML 文件使用 JavaScript 生成导航工具索引目录等这些文件只能在本地打开例如 file 不能在 Web 服务器上提供从 Firefox 3 x 开始当单击将为目录生成新框架的导航按钮时我们会遇到以下错
如何使用 Logger.new 创建文件夹（如果不存在）？

我正在尝试注册一个新日志 my logger Logger new Rails root log my log 但是当我尝试生成新文件夹时将其放入其中 my logger Logger new Rails root log today t
ejs如何迭代对象

我有一个简单的对象文字其地址如下所示 address country String state String city String zip String street String 它位于我通过express js渲染函数传递的对象内部
如何在 Lift 中反序列化 DateTime

我在将 org joda time DateTime 字段从 JSON 反序列化到案例类时遇到问题 JSON val ajson parse creationDate 2013 01 02T10 48 41 000 05 00 我还设置了这
.net core nginx 托管套接字不允许 http post

我正在尝试创建一个具有 http 功能包括 http post 功能以及 Web 套接字例如 signalR 的网站我正在尝试使用 nginx 在 ubuntu 服务器上托管此网站一般来说 nginx 上的设置是这样的 serve
如何在 Android 上动态地将元素添加到 ListView 中？

任何人都可以解释或建议动态创建一个教程ListView https developer android com reference android widget ListView在安卓中这是我的要求我应该能够通过按下按钮动态添加新元素
Rails 检测用户是否是第一次访问

如果用户是第一次访问该网站我会尝试让他们填写一份调查问卷我的控制器设置如下 class MainController lt BaseController end class BaseController lt ApplicationCo
如何从多个列表项中的元素获取值

我有很多div in li元素我想从课堂上获取文本 Value and Name 我怎样才能以这种格式获取这些值 25 ok 80 good 90 no ul li div class div class div class Value
将非透明像素转换为黑色

我正在寻找一种转换图像的方法以便所有非透明像素 alpha 1 的像素转换为黑色和不受影响的透明像素或转换为白色我得到的最接近的是下面的 imagemagick 命令 convert img colorspace Gray
Jenkins 管道 - 如何在不首先调用 node() 的情况下加载 Jenkinsfile？

我有一个有点独特的设置我需要能够动态加载位于我正在构建的 src 之外的 Jenkinsfiles Jenkinsfiles 本身通常调用node 然后调用一些构建步骤这会导致多个执行器不必要地被消耗因为我需要已经调用了 node 才
Android 文本顶部居中对齐

如果这是重复的我很抱歉但我找不到任何我正在寻找的东西基本上我想将文本视图中的文本对齐到顶部中心如果可能的话我想用 XML 来做这件事所以我想结合 android gravity center and android gravi
聚合物跨元素共享样式

我需要在多个 Polymer 元素之间共享样式创建 styles html 文件然后将其导入到我的不同元素中是否可以接受或者随着应用程序的增长这会开始对性能产生影响吗我知道 0 5 有一个核心样式但如果导入也能正常工作那么它似乎
在 netbeans 中制作加载屏幕

我创建了一个带有我想要的按钮的 JFrame 类因此当您按下该按钮时它将带您进入启动屏幕而无需打开另一个 JFrame 但我该怎么做呢我希望新屏幕中间有一个图像和一个正在加载的 GIF 我喜欢做的就是使用摇摆工人 http docs
Git 子树导出和重新导入问题

我有一个更大的 git 存储库 A 它与我的另一个项目 B 共享一定量的代码为了使维护更容易我决定使用公共代码 C 创建第三个存储库然后通过git subtree 我准备了 A 中的所有内容将通用代码放在文件夹 sub 中并使用了
使用可选的 key 参数限制 firebase equalTo 查询

我有一种感觉来自 SQL 背景的我对这个特性的理解可能是错误的文档很少我找不到很好的例子或解释我正在寻求对以下内容的澄清https github com angular angularfire2 blob master docs 4
当约束失败时从路由重定向

我想在路由约束失败时重定向到不同的网址路由 rb 匹配 u gt user signin constraints gt 黑名单域黑名单域 rb class BlacklistDomain BANNED DOMAINS domain1 c
如何将 pylab 图保存到内存文件中，该文件可以读入 PIL 图像？

以下是我的第一个镜头但从未成功 import cStringIO import pylab from PIL import Image pylab figure pylab plot 1 2 pylab title test buffer
Python：动画 3D 散点图变慢

我的程序绘制了文件中每个时间步的粒子位置不幸的是尽管我使用了它但它变得越来越慢matplotlib animation 瓶颈在哪里我的两个粒子的数据文件如下所示 x y z t1 1 2 4 4 1 3 t2 4 0 4 3 2 9
根据列表中的关键字过滤数据框中的文本

我有一个列表列表列表的每个子列表都包含用于过滤数据框中文本的关键字 keywords tarifa mantenimiento mensual tasa anual seguro bancaria seguro generales mi