Pyspark dataframes：根据另一列的值提取一列

2024-01-01

我有一个包含以下列和相应值的数据框（请原谅我的格式，但不知道如何将其放入表格格式）：

Src_ip     dst_ip     V1     V2     V3     top
"A"         "B"       xx     yy     zz     "V1"

现在我想添加一列，比如说top_value它获取与 V1 中的字符串对应的列的值。

Src_ip     dst_ip     V1     V2     V3     top   top_value
"A"         "B"       xx     yy     zz     "V1"     xx

所以基本上，获取与“top”列中的值相对应的值，并创建一个名为“top_value”的新列

我尝试过创建 UDF 以及使用字符串作为别名，但无法这样做。任何人都可以帮忙吗？

您可以收集V1, V2 and V3列为struct并传递给udf函数与top列并将值提取为

scala

import org.apache.spark.sql.functions._
def findValueUdf = udf((strct: Row, top: String) => strct.getAs[String](top))

df.withColumn("top_value", findValueUdf(struct("V1", "V2", "V3"), col("top")))

这应该给你

+------+------+---+---+---+---+---------+
|Src_ip|dst_ip|V1 |V2 |V3 |top|top_value|
+------+------+---+---+---+---+---------+
|A     |B     |xx |yy |zz |V1 |xx       |
+------+------+---+---+---+---+---------+

pyspark

pyspark 中的等效代码是

from pyspark.sql import functions as f
from pyspark.sql import types as t
def findValueUdf(strct, top):
    return strct[top]

FVUdf = f.udf(findValueUdf, t.StringType())

df.withColumn("top_value", FVUdf(f.struct("V1", "V2", "V3"), f.col("top")))

此外，您可以在列表中定义要使用的列名称struct函数，这样您就不必对它们进行硬编码。

我希望答案有帮助

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

Pyspark dataframes：根据另一列的值提取一列的相关文章

pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
为什么 Spark-ml ALS 模型返回 NaN 和负数预测？

实际上我正在尝试使用ALS from spark ml具有隐性评级我注意到我训练的模型给出的一些预测是negative or NaN 为什么 Apache Spark 提供了一个强制选项非负约束关于肌萎缩侧索硬化症因此要删除这些负值
如何获取使用 concat_ws 生成的结果的大小？

我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat ws 我怎样才能获得该列表中的值的计数这是我的代码 Dataset
Spark Shuffle 写入超慢

为什么对于 1 6MB shuffle 写入和 2 4MB 输入 spark shuffle 阶段如此缓慢为什么 shuffle 写入仅发生在一个执行器上我正在运行一个 3 节点集群每个集群有 8 个核心火花用户界面 Code Ja
为什么流式数据集会失败并显示“当流式数据帧/数据集上存在流式聚合时不支持完整输出模式...”？

我使用 Spark 2 2 0 在 Windows 上使用 Spark 结构化流时出现以下错误有时不支持完整输出模式streaming aggregations on streaming DataFrames DataSets没有wate
向数据框添加新列的问题 - Spark/scala

我是 Spark scala 的新手我正在尝试将一些数据从配置单元表读取到 Spark 数据帧然后根据某些条件添加一列这是我的代码 val DF hiveContext sql select from select from test
如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口

我有一个如下所示的 Spark DataFrame group id event time XXXX 2017 10 25 14 47 02 717013 XXXX 2017 10 25 14 47 25 444979 XXXX 2017
为什么在 Spark-Shell 中导入 SparkSession 会失败并显示“对象 SparkSession 不是包 org.apache.spark.sql 的成员”？

我在我的 VM Cloudera 机器上使用 Spark 1 6 0 我正在尝试从 Spark shell 将一些数据输入到 Hive 表中为此我尝试使用 SparkSession 但以下导入不起作用 scala gt import o
如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
为什么我的代码在 Spark Pregel 中执行需要很长时间？

我在 Spark 中使用 Pregel 编写了处理图形的代码但对于小数据集来说它的执行速度非常非常慢我以前用pregel写过程序但是这段代码运行速度确实很慢我的集群由 2 个工作人员组成每个都有核心 i5 CPU 和 6 GB
Spark shell (spark 3.0.0) 添加包 confluence kafka 5.5.1 javax.ws.rs-api 问题

我本地的win10 WSL回到ubuntu 在ubuntu上我安装了spark3 0 0 confluence平台5 5 1 手动下载当我尝试运行spark shell或spark submit时下面是shell示例 spark sh
无法使用 Spark 结构化流在 Parquet 文件中写入数据

我有一个 Spark 结构化流 val df spark readStream format kafka option kafka bootstrap servers localhost 9092 option startingOffset
嵌套 json 中的结构化流式传输不同模式

您好我有一个场景传入的消息是一个 Json 其标题为表名数据部分包含表列数据现在我想将其写入镶木地板到单独的文件夹 emp and dept 我可以通过根据表名聚合行来在常规流式传输中实现此目的但在结构化流媒体中我无法分割它我怎
如何使用 Spark-submit 命令获取提交到 Spark 集群的作业的应用程序 ID/作业 ID？

我正在使用 Spark submit 命令提交 Apache Spark 作业我想检索使用 Spark submit 命令提交的作业的应用程序 ID 或作业 ID 推荐的方式应该是什么可以解析 Spark submit 命令的输出以获取
Spark 中的 RDD 和 Dataframe 有什么区别？ [复制]

这个问题在这里已经有答案了嗨我对 apache Spark 比较陌生我想了解 RDD 数据帧和数据集之间的区别例如我正在从 s3 存储桶中提取数据 df spark read parquet s3 output unattribu
无法启动 Spark-Shell

我使用的是 Spark 1 4 1 我可以毫无问题地使用spark submit 但当我跑的时候 spark bin spark shell 我收到以下错误我已经配置了SPARK HOME and JAVA HOME 不过 Spark 1
Spark如何选择节点来运行执行器？（spark on YARN）

Spark如何选择节点来运行执行器 spark on YARN 我们使用 Spark on Yarn 模式集群有 120 个节点昨天一个 Spark 作业创建了 200 个执行程序而节点 1 上有 11 个执行程序 Node2上有1
Scala Sparkcollect_list() 与 array()

有什么区别collect list and array 在 Spark 中使用 scala 我看到到处都有使用情况但我不清楚用例来确定差异尽管两者array https spark apache org docs latest api
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
如何在cassandra中保存spark流数据

构建 sbt以下是build sbt文件中包含的内容 val sparkVersion 1 6 3 scalaVersion 2 10 5 resolvers Spark Packages Repo at https dl bintray

随机推荐

CKEditor只读

自从我使用 CKEditor 以来我遇到了一个问题 http ckeditor com http ckeditor com 问题是我找不到使编辑器只读的方法而且我不能只使用文本区域因为我想保持一致性我已经在 StackOwerflow
制作 Flash 游戏的可下载版本的最佳方法是什么？

我已经用 Flash 制作了一款游戏我想为那些宁愿离线玩的人提供一个简单的下载事实是我使用文件夹整体结构来动态加载每个级别的内容文件夹结构看起来像这样但这并不重要游戏文件夹 animations 动画1 swf 动画2 swf
使用 Apache POI 从 java 中的 excel 工作表读取数据

我需要在 java 中读取 Excel 工作表中的数据我能够读取普通字符串但是当我尝试读取包含日期和时间的单元格 28 5 2018 10 00 时我只得到日期为 2018 年 5 月 28 日这是Excel单元格此代码读取日期
NReco PDFGenerator 问题

我已经使用这个工具大约一周了现在今天它停止工作了我已将其余代码恢复到之前的状态但仍然出现相同的错误我从抛出的异常中得到的所有信息是 NReco PdfGenerator dll 中发生 System Exception 类型的异
在 Draft.js 中获取插入符位置（行号）

如何获得 Draft js 中的插入符号位置我想你可以从选择状态中获取块然后获取块数组并查看块数组位于哪个位置但我不确定这是一种可靠的方法甚至是最好的方法不确定这是否是您的意思但您可以像这样获取当前块的索引 const curr
为什么从命令提示符运行 JAR 文件时出现异常？

您好我使用 eclipse 上的导出选项制作了一个可运行的 JAR 文件但是当我通过命令提示符运行文件时我得到以下信息 Exception in thread main java lang NoSuchMethodError at
Golang 歧义错误重新定义

为什么可以redefine the err多变的 err ipdf Open source if err nil panic Couldn t open pdf payload err ioutil ReadFile other if er
将大量数据从 iPad 转换/上传到 Dropbox

我正在通过 Instruments 运行我的应用程序并使用大量数据对其进行压力来完成它仪器测试进展顺利但压力测试是我遇到问题的地方在不涉及太多细节的情况下我为我的应用程序提供了越来越多的Core Data它需要推断数据制作图表并在
Angular 中的加密和 C# (.NET) 中的解密

我有 Angular 中的数据加密代码但我不知道如何在服务器端解密它角码 public static getEncryptedInfo dataString string let password environment encrypt
如何将 system.serviceModel 放入 ServiceConfiguration.cscfg (Windows Azure)

我有以下代码用于微软翻译
在 Surfaceview 的画布上显示位图

我正在尝试开发一个 Android 应用程序来显示可缩放可平移的地图这只是一个位图图像它还允许用户单击地图上的某些点我正在努力寻找实现此类应用程序的最有效方法在尝试了许多其他方法包括 Webviews OpenLayers 之后
LDAP：错误代码 49 - 简单绑定失败：NT_STATUS_LOGON_FAILURE

我正在尝试对用户进行身份验证但它抛出Exception 可能是配置有问题 public class LdapApplication private static final String INITIAL CONTEXT FACTORY c
通过布尔属性使用“track by”过滤 Angular 1.2 ng-repeat

我试图根据布尔属性的值过滤一些列表项但无论我做什么整个列表都会显示我尝试过的一些东西已经损坏没有任何显示但这既不在这里也不在那里我无法让我的过滤按预期工作 scope attendees firstname Steve last
如何在 Scala 中向枚举添加方法？

在 Java 中你可以 public enum Enum ONE public String method return 1 TWO public String method return 2 THREE public String met
REST 如何在 URI 中传递空路径参数？

我正在开发一个安静的网络应用程序在此我采用的参数是 userid 和 orderid The userid can be null URI 是 Path api user userid order orderid 我的方法是 void a
最好的 GWT 小部件库？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何阻止 Meteor/Cordova 应用程序连接到 10.0.2.2？（为什么应用程序会连接到那里？）

我有一个 Meteor 应用程序它在本地服务器上运行以进行开发 http 10 0 2 10 3000 http 10 0 2 10 3000 The ROOT URL设置正确所以 meteor runtime config ROOT
检查列表中是否包含 Ansible 中的项目

我正在尝试检查提供的版本是否是有效的受支持版本我已在变量中设置了可接受版本的列表如果提供的版本不在列表中我希望任务失败但是我不确定如何做到这一点 role vars main yml acceptable versions 2 3
比较两个分数（< 和朋友）

我有两个我喜欢比较的分数它们的存储方式如下 struct fraction int64 t numerator int64 t denominator 目前我这样比较它们 bool fraction le struct fraction
Pyspark dataframes：根据另一列的值提取一列

我有一个包含以下列和相应值的数据框请原谅我的格式但不知道如何将其放入表格格式 Src ip dst ip V1 V2 V3 top A B xx yy zz V1 现在我想添加一列比如说top value它获取与 V1 中的字符串对应

Pyspark dataframes：根据另一列的值提取一列

scala

pyspark

Pyspark dataframes：根据另一列的值提取一列 的相关文章

随机推荐

热门标签

Pyspark dataframes：根据另一列的值提取一列的相关文章