根据列值是否在另一列中将列添加到 PySpark DataFrame

2024-01-05

我有一个 PySpark DataFrame，其结构为

[('u1', 1, [1 ,2, 3]), ('u1', 4, [1, 2, 3])].toDF('user', 'item', 'fav_items')

我需要添加另一列 1 或 0，具体取决于“item”是否在“fav_items”中。

所以我想要

[('u1', 1, [1 ,2, 3], 1), ('u1', 4, [1, 2, 3], 0)]

我如何在第三列中查找第二列来决定值，然后如何添加它？

以下代码执行请求的任务。定义了一个用户定义的函数，该函数接收 a 的两列DataFrame作为参数。因此，对于每一行，搜索项目是否在项目列表中。如果找到该项目，则返回 1，否则返回 0。

# Imports
from pyspark.sql.types import IntegerType
from pyspark.sql.functions import udf
# First we create a RDD in order to create a dataFrame:
rdd = sc.parallelize([('u1', 1, [1 ,2, 3]), ('u1', 4, [1, 2, 3])])
df = rdd.toDF(['user', 'item', 'fav_items'])
# Print dataFrame
df.show()

# We make an user define function that receives two columns and do operation
function = udf(lambda item, items: 1 if item in items else 0, IntegerType())

df.select('user', 'item', 'fav_items', function(col('item'), col('fav_items')).alias('result')).show()

结果如下：

+----+----+---------+
|user|item|fav_items|
+----+----+---------+
|  u1|   1|[1, 2, 3]|
|  u1|   4|[1, 2, 3]|
+----+----+---------+

+----+----+---------+------+
|user|item|fav_items|result|
+----+----+---------+------+
|  u1|   1|[1, 2, 3]|     1|
|  u1|   4|[1, 2, 3]|     0|
+----+----+---------+------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

根据列值是否在另一列中将列添加到 PySpark DataFrame 的相关文章

如何使用 pyinstaller 包含文件？

我也使用 tkinter 使用 python 3 7 编写了一个程序由于我使用的是外部图片因此当我将所有内容编译为一个 exe 时我需要包含它们我试过做 add data bg png files 但我仍然收到此错误 tkinter
切片稀疏（scipy）矩阵

我将不胜感激任何帮助以理解从 scipy sparse 包中切片 lil matrix A 时的以下行为实际上我想根据行和列的任意索引列表提取子矩阵当我使用这两行代码时 x1 A list 1 x2 x1 list 2 一切都很好
PyQt：如何通过匿名代理使用网页

这真让我抓狂我想在 QWebPage 中显示一个 url 但我想通过匿名代理来实现 Code setting up the proxy proxy QNetworkProxy proxy setHostName 189 75 98 199
从Python中的字符串中提取货币金额

我正在制作一个程序从字符串中获取货币并将其转换为其他货币例如如果字符串是 the car cost me 13 250 我需要得到 and 13250 我已经有了这个正则表达式 1 确实如此但是该字符串很有可能有多个价格并且全部使
为什么我的代码不能根据字典解码加密字符串？

我有一本字典其中包含代表字母的键和值例如一个简单的 DICT CODE b g n a p o x d t y 我收到了一个加密代码并将该字符串转换为一个列表其中每个项目都是一个单词我需要根据字典中的项目来解决它代码示例是 wo
查找模块中显式定义的函数 (python)

好的我知道您可以使用 dir 方法列出模块中的所有内容但是有什么方法可以仅查看该模块中定义的函数吗例如假设我的模块如下所示 from datetime import date datetime def test return Thi
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
根据开始列和结束列扩展数据框（速度）

我有一个pandas DataFrame含有start and end列加上几个附加列我想将此数据框扩展为一个时间序列从start值并结束于end值但复制我的其他专栏到目前为止我想出了以下内容 import pandas as
numpy 使用 datetime64 进行数字化

我似乎无法让 numpy digitize 与 datetime64 一起使用 date bins np array np datetime64 datetime datetime 2014 n 1 s for n in range 1 1
使用 scipy curve_fit 拟合噪声指数的建议？

我正在尝试拟合通常按以下方式建模的数据 def fit eq x a b c d e return a 1 np exp x b c np exp x d e x np arange 0 100 0 001 y fit eq x 1 1 1
为什么我无法在 Mac OS X Terminal.app 上的 Python 解释器中显示 unicode 字符？

如果我尝试粘贴 unicode 字符例如中间的点在我的 python 解释器中它什么也不做我在 Mac OS X 上使用 Terminal app 当我只是在 bash 中时我没有遇到任何问题但在解释器中 python Pytho
与 while 循环一样，如何跳过 for 循环中的步骤？

我尝试像 while 循环一样跳过 for 循环中的几个步骤在 while 循环中步骤根据特定条件进行调整如下面的代码所示 i 0 while i lt 10 if i 3 i 5 else print i i i 1 result
django-admin.py makemessages 不起作用

我正在尝试翻译一个字符串 load i18n trans Well Hello there how are you to Hola amigo que tal 我的 settings py 文件有这样的内容 LOCALE PATHS os
乘以行并按单元格值附加到数据框

考虑以下数据框 df pd DataFrame X a b c d Y a b d e Z a b c d 1 2 1 3 df 我想在列中附加数字大于 1 的行并在该行中的数字减 1 df 最好应该然后看起来像这样或者它可能看起来
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
Python 类型安全吗？

根据维基百科 https en wikipedia org wiki Type system Type safety and memory safety 如果一种语言不允许违反类型系统规则的操作或转换计算机科学家就认为该语言是类型安全的
由于 json 字符串化 dict 键导致数据丢失

考虑下面的例子 gt gt gt import json gt gt gt d 0 potato 0 spud gt gt gt json dumps d 0 potato 0 spud gt gt gt json loads json d
对数据帧的每 2 小时数据进行 Groupby

我有一个数据框 Time T201FN1ST2010 T201FN1VT2010 1791 2017 12 26 00 00 00 854 69 0 87 1792 2017 12 26 00 20 00 855 76 0 87 1793
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame

随机推荐

如何使用 API 在 YouTube 社区选项卡上上传帖子？

我搜索了一些相关内容但找不到如何使用 YouTube API 在 YouTube 社区选项卡上上传帖子 v3 不可以吗遗憾的是我在 Google 论坛中找到了更多有关此问题的信息他们说不要发布开发人员类型的问题我也在这里寻找有关
覆盖 React Framer Motion 中的转换延迟

我创建motion div组件其中包含initial animate and whileTap特性
map.setMyLocationEnabled(true);不管用

我刚刚开始开发一个 android 项目并正在使用 Google Map API 我可以在我的应用程序上获取地图但是当我尝试使用以下命令启用当前位置时map setMyLocationEnabled true 应用程序说不幸的是应用程序已
DELETE FROM ... 报告“.”处或附近的语法错误

我试图从数据库中仅删除一项数据但是当我编写命令时我不断收到一些语法错误您能告诉我错误在哪里吗这是我尝试过的命令 DELETE FROM database userprofile WHERE user username some E
我正在尝试编写一个返回多个值的宏

这条线上出现错误 Finalrow Cells Row Count 1 End X1UP Row Error is 对象所需的运行时错误 424 下面是代码 Sub MyVlookup Dim r As Long C As Long Col
在MATLAB MEX库中使用boost，与MATLAB的版本不同

我们正在创建许多使用我们的通信库的 MATLAB MEX 文件这个通信库大量使用了Boost 现在 MATLAB 也在内部使用 boost 这意味着在标准设置中我们不能使用与 MATLAB 附带的版本不同的 boost 版本否则就会发
Excel中如何将长表格转换为宽表格？

一张图片胜过千言万语假设在一张纸中我有下表使用这些信息我想以编程方式在另一张纸中生成这样的表格有点将长表格分解为宽表格你怎样才能做到这一点使用VBA Range G1 K99 Clear For Each xx In Range
MapActivity 中的 SherlockActionBar

我在整个应用程序中广泛使用 Sherlock Action Bar 但我有一个继承自 MapActivity 的活动因此我无法使其继承自 SherlockActivity 有什么方法可以利用地图中的 Sherlock 操作栏来自定义它吗
在 SQL Server 中将标识列重置为零？

如何在 SQL Server 中将表的 Identity 列重置为零 Edit 我们如何使用 LINQ to SQL 来做到这一点 DBCC CHECKIDENT MyTable RESEED NewValue 您还可以执行截断表但是当
+= 事件运算符

public void Bar Foo foo new Foo foo MyEvent foo MyEvent foo FireEvent void foo MyEvent object sender EventArgs e Foo sen
Spring Security 5 OAuth2客户端密码授予类型

我有2个应用程序 Spring应用程序1是客户端和资源服务器 Spring应用程序2是授权服务器用户将能够登录应用程序 1 并访问其资源我想实现以下流程用户在登录表单中输入他的凭据 gt 应用程序 1 将使用用户凭据及其密码从应用程序
MFC 中的国际化

终于经过多年的推迟将我的应用程序本地化为英语以外的其他几种语言第一个挑战是设计与我的 C MFC 应用程序的集成该应用程序具有数十个对话框和无数字符串我遇到了两种可能的替代实现将本地化资源文件编译并部署为 DLL 提取所有字符串
PHPCS 未在命令行上运行？

当我输入 phpcs version 时我没有得到版本号而是得到如下内容 Applications drupal php bin phpcs line 2 php No such file or directory Applicatio
使用 PHP 解析 xml 文件的 simpleXML 替代方案

我只是想知道是否有 simpleXML 的替代方案来使用 PHP 解析 XML 数据例如如果 simpleXML 模块未加载或者即使存在比 SimpleXML 性能更好的库类显然有处理 XML 的多种不同方式 http docs
10.3 中包含 javax.servlet 的 WebLogic Jar 在哪里？

我正在尝试配置我的路径以将 javax servlet 包含在 WebLogic 中 WebLogic 已拆分出 Jar 文件那么哪一个包含 javax servlet 从 WebLogic 10 开始 BEA 外部化了 API 规范的实
查找 GZIP 文件内的文件大小

有没有办法找出java中GZIP文件内原始文件的大小例如我有一个 15 MB 的文件 a txt 它已被 GZipped 为 3MB 大小的 a gz 我想知道 a gz 中存在的 a txt 的大小而不需要解压缩 a gz 除了压缩
如何为 Django 设置 Jupyter/IPython Notebook？

我一直在使用中描述的方法这个帖子 https andrewbrookins com python using ipython notebook with django 用于设置 IPython Notebook 以与 Django 很好地配
websocket 是否仅适用于浏览器

我正在尝试使用第 3 方库编写本机 Objective C 和本机 Android 应用程序我已经选择了图书馆并且我已经在这方面取得了进展我团队中的一个人认为目前 websocket 的实现主要集中在 Web 浏览器上如果我们使用这
Java 中的格式化打印

我有这个代码 public String toString Day day String s day getDayName day toString return s 这是 Day 类的 toString 方法 public String
根据列值是否在另一列中将列添加到 PySpark DataFrame

我有一个 PySpark DataFrame 其结构为 u1 1 1 2 3 u1 4 1 2 3 toDF user item fav items 我需要添加另一列 1 或 0 具体取决于 item 是否在 fav items 中所以我

根据列值是否在另一列中将列添加到 PySpark DataFrame

根据列值是否在另一列中将列添加到 PySpark DataFrame 的相关文章

随机推荐

热门标签