Pandas：如果字符串存在于几列中的任何一列中，我想对计数进行求和，并将该计数添加到具有搜索术语的另一个数据框中

2024-04-12

我有一个视频数据框，其中包含几列标签（字符串），如下所示：

import pandas as pd
videos = [(1, 'cool video','drama','horror'), (2, 'great video','sports','drama'), (3,'super video','comedy','horror')]
df = pd.DataFrame(data=videos, columns=['video_id', 'title','tag_1','tag_2'])

    video_id    title       tag_1   tag_2
0   1           cool video  drama   horror
1   2           great video sports  drama
2   3           super video comedy  horror

然后我有另一个搜索词“df_search_terms”的数据框（例如，我可以将其放入列表中）。我想看看这些搜索词是否在其中一列中至少出现一次，如果是，则在搜索词的数据帧中增加一个计数器（也就是说，好的，我们在视频中找到了这个词一次，所以 += 1 ）。为了澄清这一点，我想知道搜索词在包含 +/- 1000 个视频的数据帧中与至少一个标签匹配了多少次。

显然，我可以对匹配项进行计数，但我只想为该特定术语增加 df_search_terms 中的计数器一次。像这样的东西（这不起作用，但我希望你明白要点）：

search_count=df['tag_1'].str.contains('drama').sum()
df_search_terms.loc[(df_search_terms['search_term'] == 'drama'),'matching_videos'] +=1

df_search_terms 会是这样的：

search_terms = [('drama',0), ('horror',0), ('sports',0)]

df_search_terms = pd.DataFrame(data=search_terms, columns=['search_term', 'number_matching_videos'])

search_term     number_matching_videos
drama                            0
horror                           0
sports                           0

我想解决方案在于巧妙地使用 apply 但恐怕我无法弄清楚。

我尝试使用如下所示的“if”语句，但出现错误：

if df.loc[(df['name'] == 'drama') | (df['tag_1'] == 'drama') | (df['tag_2'] == 'drama')]:
  df_search_terms.loc[(df_search_terms['search_term'] == 'drama'),'matching_videos'] +=1

ValueError：DataFrame 的真值不明确。使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()。

尝试这个：

(df_search_terms['number_matching_videos'] = 
 df_search_terms['search_term'].map(df.set_index('video_id')
                                    .stack()
                                    .str.get_dummies()
                                    .sum()))

这是另一种方法：

df_search_terms['number_matching_videos'] = (df_search_terms['search_term']
                                             .map((df.loc[:,df.columns.str.contains('tag')]
                                                   .stack()
                                                   .str.extractall('({})'.format(df_search_terms['search_term'].str.cat(sep='|')))[0]
                                                   .str.get_dummies()
                                                   .sum())))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Pandas：如果字符串存在于几列中的任何一列中，我想对计数进行求和，并将该计数添加到具有搜索术语的另一个数据框中的相关文章

pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
Pandas 数据帧到 numpy 数组 [重复]

这个问题在这里已经有答案了我对 Python 很陌生经验也很少我已经设法通过复制粘贴和替换我拥有的数据来使一些代码正常工作但是我一直在寻找如何从数据框中选择数据但无法理解这些示例并替换我自己的数据总体目标如果有人真的可以帮助
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
使用 OLS 回归预测未来值（Python、StatsModels、Pandas）

我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
将 JSON 对象传递给带有请求的 url

所以我想利用 Kenneth 的优秀请求模块 https github com kennethreitz requests 在尝试使用时偶然发现了这个问题自由库API http wiki freebase com wiki API 基本上
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
python Soap zeep模块获取结果

我从 SOAP API 得到如下结果 client zeep Client wsdl self wsdl transport transport auth header lb E authenticate self login res cl
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1

随机推荐

PHP - 检查页面是否在移动或桌面浏览器上运行[重复]

这个问题在这里已经有答案了在我的 PHP 页面中我应该根据页面是在移动浏览器还是桌面浏览器下运行来显示两种不同的文本内容有没有办法在 PHP 中执行此控制这里有一个非常好的 PHP 库用于检测移动客户端 http mobiledet
使用jdbc连接到sql服务器

我正在尝试使用 JDBC 连接到 SQL Server 2008 我的 SQL Server 2008 有 Windows 身份验证我的代码是 public class T1 param args private static void
如何在 Excel 中将带有“下标”分数的数字转换为小数？

我有数千个数字它们以无法用于计算的格式提供给我 9 9 9 10 这就是它们在 Excel 中每行中的显示方式我想将这些转换为小数我试过了 FIXED A2 3 但这并没有达到目的问题的出现是因为分数的格式很奇怪是否有一个公式或宏
具有各种警报正文的 UILocalNotification

如何使用各种警报正文重复 UILocalNotification 例如 UILocalNotification notif UILocalNotification alloc init notif alertBody Hello notif
HTML 强制 URL 超链接被视为非相对（绝对）

我有一个我们的用户为各种客户端的网站输入的 URL 列表我正在将此列表从服务器加载到网格中以供用户查看我通过用 href HTML 包装 URL 来使它们可单击标签问题是有时用户输入不带 http 或 www 的 url 前缀因此
在wix中，使用vbscript，如何写入日志文件？

我正在自定义操作中尝试以下操作 Session Log GetOfficeBitness Session Property OfficeBitness 我收到错误错误 1720 此 Windows Installer 程序包有问题 A 无
我在 RDLC 报告中收到“尚未指定报告‘xxxx.rdlc’的报告定义”

我创建了一份 rdlc 报告我的表单上有一个reportViewer 当我尝试加载报告时我得到尚未指定报告 xxxx rdlc 的报告定义我无法弄清楚这一点我有一个数据表其中包含报告所需的数据我将这个数据表加载回我的数据库一
在 RichTextBox 的文本之间插入段落并更改添加段落的字体和颜色

我的文本在 richtextbox 中
JavaScript 箭头函数声明中括号的使用

在 ES6 ES2015 中箭头函数可以在参数周围带或不带括号的情况下声明 ie var foo 1 myVar gt return myVar 1 or var foo 2 myVar gt return myVar 2 我想知道的是
D3.js 的 Python 等效项

谁能推荐一个可以做到这一点的Python库交互的图形可视化我特别想要类似的东西d3 js https d3js org 但对于python理想情况下它也是 3D 的我看过 NetworkX https networkx readthed
如何从文件名中提取一个下划线分隔的字段？

我有一个文件名列表如下所示 REG 2016120200hourly d01 20161202 00 00 00 nc 我想提取这个名称并将其放入一个变量中 1 日期20161202 for file in path do filenam
Squid - 监听多个端口并转发到不同的代理

我想设置一个侦听多个端口的代理每个端口将请求转发到不同的代理例如 LISTEN FORWARD TO 1 2 3 4 3128 gt 5 6 7 8 3128 1 2 3 4 3129 gt 5 6 7 9 3128 1 2 3 4 3
iPhone 应用程序支持哪些字体？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我在这里找到了 iPhone 支持的字体列表 http daringfireball net misc 2007 07 iphone osx font
为什么 Java EE 具有可扩展性？

我从各种来源听说 Java EE 具有高度可扩展性但对我来说似乎永远无法将 Java EE 应用程序扩展到谷歌搜索引擎或任何其他大型网站的水平我想听听它具有如此可扩展性的技术原因 Java EE 被认为是可扩展的因为如果您考虑 EJ
在 Android 2.x 中获取 ActionBarSherlock actionBarSize

我正在使用 ActionBarSherlock 此 XML 行在 Android 2 x 中崩溃 android layout height android attr actionBarSize 有没有办法获取 ABS 的 ActionBa
Flutter Webview - 在浏览器或窗口中打开外部链接

我有一个使用 Flutter Webview 制作的 Android 应用程序当用户单击外部链接时我希望该链接在浏览器中打开我该怎么做事实上像 Instagram 那样在窗口中打开外部链接会很好有没有办法做到这一点 Edit w
具有两个参数的自定义 Liquid 标签

如何编写调用带有两个参数的自定义 Liquid 标签上下文 Jekyll 2 1 1 我有一些页面作为选项卡集呈现我的页面前部允许为某些页面定义额外的选项卡如下所示 blah blah extra tabs A page a pag
我可以使用JS序列化当前的DOM吗？

我想使用 javascript 将 DOM 树的当前状态序列化为字符串虽然我更喜欢 html 但结果格式并不重要是否有捷径可寻作为记录我想使用 PhantomJs 自动下载页面使用 js 脚本操作它并保存页面的当前状态但不是图
减去 r 中的时间

我有一个包含两个时间变量的数据集 EndVisitTime and BoxTime 我每天都会制作数据集因此这些观察结果都是在一天内进行的 Date lt 2014 8 12 EndVisitTime lt c 00 00 32 00 0
Pandas：如果字符串存在于几列中的任何一列中，我想对计数进行求和，并将该计数添加到具有搜索术语的另一个数据框中

我有一个视频数据框其中包含几列标签字符串如下所示 import pandas as pd videos 1 cool video drama horror 2 great video sports drama 3 super vide

Pandas：如果字符串存在于几列中的任何一列中，我想对计数进行求和，并将该计数添加到具有搜索术语的另一个数据框中

Pandas：如果字符串存在于几列中的任何一列中，我想对计数进行求和，并将该计数添加到具有搜索术语的另一个数据框中 的相关文章

随机推荐

热门标签

Pandas：如果字符串存在于几列中的任何一列中，我想对计数进行求和，并将该计数添加到具有搜索术语的另一个数据框中的相关文章