Spark 数据帧：根据另一列的值提取一列

2024-06-19

我有一个包含带有连接价目表的交易的数据框：

+----------+----------+------+-------+-------+
|   paid   | currency | EUR  |  USD  |  GBP  |
+----------+----------+------+-------+-------+
|   49.5   |   EUR    | 99   |  79   |  69   |
+----------+----------+------+-------+-------+

客户已支付 49.5 欧元，如“货币”列中所示。我现在想将支付的价格与价目表中的价格进行比较。

因此，我需要根据“货币”的值访问正确的列，如下所示：

df.withColumn("saved", df.col(df.col($"currency")) - df.col("paid"))

我希望会成为

df.withColumn("saved", df.col("EUR") - df.col("paid"))

然而，这失败了。我尝试了所有我能想到的方法，包括 UDF，但一无所获。

我想有一些优雅的解决方案吗？有人可以帮忙吗？

假设列名与中的值匹配currency column:

import org.apache.spark.sql.functions.{lit, col, coalesce}
import org.apache.spark.sql.Column 

// Dummy data
val df = sc.parallelize(Seq(
  (49.5, "EUR", 99, 79, 69), (100.0, "GBP", 80, 120, 50)
)).toDF("paid", "currency", "EUR", "USD", "GBP")

// A list of available currencies 
val currencies: List[String] = List("EUR", "USD", "GBP")

// Select listed value
val listedPrice: Column = coalesce(
  currencies.map(c => when($"currency" === c, col(c)).otherwise(lit(null))): _*)

df.select($"*", (listedPrice - $"paid").alias("difference")).show

// +-----+--------+---+---+---+----------+
// | paid|currency|EUR|USD|GBP|difference|
// +-----+--------+---+---+---+----------+
// | 49.5|     EUR| 99| 79| 69|      49.5|
// |100.0|     GBP| 80|120| 50|     -50.0|
// +-----+--------+---+---+---+----------+

SQL 等价于listedPrice表达式是这样的：

COALESCE(
  CASE WHEN (currency = 'EUR') THEN EUR ELSE null,
  CASE WHEN (currency = 'USD') THEN USD ELSE null,
  CASE WHEN (currency = 'GBP') THEN GBP ELSE null
)

替代使用foldLeft:

import org.apache.spark.sql.functions.when

val listedPriceViaFold = currencies.foldLeft(
  lit(null))((acc, c) => when($"currency" === c, col(c)).otherwise(acc))

df.select($"*", (listedPriceViaFold - $"paid").alias("difference")).show

// +-----+--------+---+---+---+----------+
// | paid|currency|EUR|USD|GBP|difference|
// +-----+--------+---+---+---+----------+
// | 49.5|     EUR| 99| 79| 69|      49.5|
// |100.0|     GBP| 80|120| 50|     -50.0|
// +-----+--------+---+---+---+----------+

where listedPriceViaFold翻译成下面的 SQL：

CASE
  WHEN (currency = 'GBP') THEN GBP
  ELSE CASE
    WHEN (currency = 'USD') THEN USD
    ELSE CASE
      WHEN (currency = 'EUR') THEN EUR
      ELSE null

不幸的是，我不知道有任何内置函数可以像这样直接表达 SQL

CASE currency
    WHEN 'EUR' THEN EUR
    WHEN 'USD' THEN USD
    WHEN 'GBP' THEN GBP
    ELSE null
END

但您可以在原始 SQL 中使用此构造。

如果我的假设不正确，您可以简单地在列名和值之间添加映射currency column.

Edit:

如果源支持谓词下推和高效列修剪，另一个选项可能会很有效，那就是按货币和并集进行子集化：

currencies.map(
  // for each currency filter and add difference
  c => df.where($"currency" === c).withColumn("difference", $"paid" - col(c))
).reduce((df1, df2) => df1.unionAll(df2)) // Union

它相当于这样的 SQL：

SELECT *,  EUR - paid AS difference FROM df WHERE currency = 'EUR'
UNION ALL
SELECT *,  USD - paid AS difference FROM df WHERE currency = 'USD'
UNION ALL
SELECT *,  GBP - paid AS difference FROM df WHERE currency = 'GBP'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

DataFrame

apachesparksql

Spark 数据帧：根据另一列的值提取一列的相关文章

如何在 Lift 中反序列化 DateTime

我在将 org joda time DateTime 字段从 JSON 反序列化到案例类时遇到问题 JSON val ajson parse creationDate 2013 01 02T10 48 41 000 05 00 我还设置了这
在 pandas 数据框中搜索字符串列表并将每个搜索字符串添加到新列

我有一个带有文本列描述的数据框我有一个搜索字符串列表 search FR 001 FR 002 FR 003 FR 004 我想使用搜索列表中的字符串搜索数据框我用了 df loc df Description str contai
scala 元组拆包

我知道这个问题已经以不同的方式出现过很多次但我仍然不清楚有没有办法达到以下目的 def foo a Int b Int foo a b right way to invoke foo foo getParams is there a w
根据列值使用 MultiIndex 对 pandas DataFrame 进行排序

在控制台中打印后我有一个带有 MultiIndex 的 DataFrame 如下所示 value indA indB scenarioId group 2015 04 13 1 A 54 0 1 0 1 0 B 160 0 1 0 1 0
在 Scala 中定义具有多个隐式参数的函数

如何定义具有多个隐式参数的函数 def myfun arg String implicit p1 String implicit p2 Int doesn t work 它们必须全部放入一个参数列表中并且该列表必须是最后一个 def my
为什么 `pandas.read_csv` 不是 `pandas.DataFrame.to_csv` 的倒数？

我觉得很奇怪pandas read csv不是直接倒数函数df to csv 在此图中请注意在使用所有默认设置时原始 DataFrame 和最终 DataFrame 之间的未命名列有何不同 In 1 import pandas as
根据连续行值差异拆分数据框

我有一个这样的数据框 df col1 col2 col3 1 2 3 2 5 6 7 8 9 10 11 12 11 12 13 13 14 15 14 15 16 现在我想当两个连续行的 col1 差异大于 1 时从上面创建多个数据框所
dplyr 中 select() 的 contains() 和 matches() 之间的区别

我决定花一些时间彻底学习dplyr 我刚刚遇到select 函数以及它附带的一些辅助函数通过只是玩弄我没能发现两者之间的任何区别contains and matches辅助功能有人可以提供一个例子来说明如何将它们用于不同的目的吗谢谢
为什么 Apache Spark 会读取嵌套结构中不必要的 Parquet 列？

我的团队正在构建一个 ETL 流程以使用 Spark 将原始分隔文本文件加载到基于 Parquet 的数据湖中 Parquet 列存储的承诺之一是查询将仅读取必要的列条带但我们看到意外的列被读取以获取嵌套模式结构为了进行演示下
Spark：连接两个相同分区的数据帧时防止洗牌/交换

我有两个数据框df1 and df2我想在一个名为的高基数字段上多次加入这些表visitor id 我只想执行一次初始洗牌并让所有连接发生而无需在 Spark 执行器之间洗牌交换数据为此我创建了另一个名为visitor parti
删除数据框值的后缀

我有一个这样完成的数据框 a b c 1 2011 mal ID9 2 2012 yesterday ID10 3 2010 misch ID10 4 1995 ship ID9 5 2008 se ID9 6 1998 falling I
zip 样式 @repeat 嵌套形式

repeat非常有用然而我遇到了嵌套表单的障碍我需要制作一个比赛日程表它有 2 个属性日程数据比赛日期时间地点对手和提交球队备注例如由于冬季风暴 1 月 7 日的比赛已移至1 月 9 日在夏威夷表单映射基于 ca
Spark sql 每组前 n 个

我怎样才能获得每组的前n名比如说前10名或前3名 spark sql http www xaprb com blog 2006 12 07 how to select the firstleastmax row per group in
如何区分spark中的操作是转换还是动作？

最近在学习spark 对transformation和action操作很困惑我阅读了spark文档和一些关于spark的书籍我知道action会导致spark作业在集群中执行而transformation则不会但是spark的api
如果 Spark 中的数据帧是不可变的，为什么我们能够使用 withColumn() 等操作来修改它？

这可能是一个愚蠢的问题源于我的无知我已经在 PySpark 上工作了几个星期并没有太多的编程经验我的理解是在 Spark 中 RDD 数据帧和数据集都是不可变的我再次理解这意味着您无法更改数据如果是这样为什么我们能够使用编
Scala Eclipse 自动完成功能损坏？

我正在尝试让自动完成功能在 Eclipse 中用于 Scala 开发我试图从 Scala 类引用 java 类但自动完成功能从未找到它例如以这个 scala 类为例 object Main def main args Array S
scala 中“迭代 Seq 或如果为空”的更好版本？

是否有更短更好的方法来执行以下操作 mySeq map elmt gt do stuff if mySeq isEmpty some other stuff Ps 我正在使用 PlayFramework 这意味着在模板中使用所以如果我错
我需要比较两个数据帧以进行类型验证并发送非零值作为输出

我正在比较两个数据帧基本上这些是两个不同数据源的模式一个来自 hive 另一个来自 SAS9 2 我需要验证两个数据源的结构因此我将模式转换为两个数据帧它们是 SAS 架构将采用以下格式 scala gt metadata sho
如何在 Scala 中跳过可选参数？

给定以下带有可选参数的函数 def foo a Int 1 b Int 2 c Int 3 我想保留默认值a但将新值传递给b and c仅通过位置赋值而不是通过命名赋值即以下任何语法都可以 foo 5 7 foo 5 7 Scala 可
Zeppelin：如何在 zeppelin 中重新启动 SparkContext

我正在使用 zeppelins Spark 解释器的隔离模式在这种模式下它将为 Spark 集群中的每个笔记本启动一项新工作我想在笔记本执行完成后通过 zeppelin 终止该作业为此我做了sc stop这停止了 sparkCont

随机推荐

无法在 phantomjs 中延迟加载

我正在尝试从链接中抓取一些信息 http www myntra com women sarees nav id 606 http www myntra com women sarees nav id 606 涉及延迟加载下面是我的代码片段
点击当前选项卡刷新页面时的 Xamarin.Forms TabbedPage 事件

我正在使用 Xamarin Forms 构建 iOS Android 应用程序并有一个 TabbedPage 如果用户已经在选项卡 2 上并且单击了选项卡 2 并且我希望刷新选项卡 2 或者运行我自己的函数以便我可以自己刷新它有没有
在种子项目上构建时如何组织 git 存储库

我正在基于从 github 克隆的种子项目 MEAN io 构建一个网站如何将这些文件与我自己的文件分开由于该种子提供了广泛的文件框架因此我自己的文件分布在整个项目中我希望能够从种子中提取更新但不能将其与我添加的文件混合我知道我
根据标点符号列表替换数据框中的标点符号[重复]

这个问题在这里已经有答案了使用 Canopy 和 Pandas 我有数据框 a 其定义如下 a pd read csv text txt df pd DataFrame a df columns test test txt 是一个单列文件
在生产服务器上使用 Subversion 使文件生效的最佳方法是什么？

目前我已经设置了 subversion 这样当我在 Eclipse PDT 中进行更改时我可以提交更改它们将保存在 home administrator 中项目文件该文件具有 subversion 推荐的 branches tags
在Java中多次读取System.in会导致IOException？

我正在尝试创建一个小命令行游戏来强化我在过去几个月中在 Java 中学到的一些东西我正在尝试创建一个名为 readInput 的方法它返回一个我可以一次又一次调用的字符串第一次它工作正常但第二次它会导致 IO Exception 如
array_merge 更改键

我得到以下数组 arr array 6 gt Somedata 7 gt Somedata1 8 gt Somedata2 问题是当我使用array merge array Select the data arr 它确实将数组键更改为 A
无法在渲染器进程中使用 Node.js API

无法在 Electron 中使用任何与 Electron 或节点相关的操作未定义获取错误过程我检查了他们指导添加节点支持的各个地方但这已经完成了所以卡在这里我的主要应用程序代码是 const electron require el
Webview 电子邮件链接 (mailto)

我有一个视图并查看该网站有用于发送电子邮件的 malito 代码当我打开链接时会出现错误我希望当我打开链接时打开 Gmail 应用程序或其他电子邮件应用程序感谢所有帮助者 public class teacher extends A
将 Django 中的所有视图限制为经过身份验证的用户

我是 Django 新手我正在开发一个项目该项目有一个登录页面作为其索引和一个注册页面其余页面都必须仅限于登录用户如果未经身份验证的用户尝试访问这些页面则必须将他她重定向到登录页面我看到 login required装饰器会将
在 jQuery AJAX 成功中从 MySql 获取特定响应

好吧我有这个 ajax 代码它将在 Success 块中返回 MySql 的结果 ajax type POST url index php success function data alert data My Query sql SE
如何使用云打印打印Android活动显示

我正在尝试将 Google 云打印实现到应用程序中遵循集成指南 https developers google com cloud print docs android 我试图通过打印 google com 来保持基本单击我创建的打印按
Flink任务管理器内存不足和内存配置

我们使用 Flink 流在单个集群上运行一些作业我们的工作是使用rocksDB 来保存状态该集群配置为在 3 个独立的 VM 上使用单个 Jobmanager 和 3 个 Taskmanager 运行每个 TM 均配置为运行 14GB
带动画的 ScrollTo(0,250) Android ScrollView

当我滚动到 0 250 时我想在滚动动作中包含一个动画我做了这段代码但它没有根据动画滚动 scrollMe 是滚动小部件 id ObjectAnimator anim ObjectAnimator ofInt scrollMe tra
如何在kotlin中使用Coroutine每秒调用一个函数

我刚刚创建了一个应用程序其中我的函数 getdata 每秒调用一次以从服务器获取新数据而 updateui 函数将更新 UI 中的视图我在我的应用程序中不使用任何异步任务或协程我想这样做请告诉我我怎样才能做到这一点这是我的代码
获取url，给定的url重定向到

我从 rss 链接中挖掘数据并获得一堆网址例如 http feedproxy google com r electricpig 3 qoF8XbocUbE http feedproxy google com r electricpig 3
gcloud 应用程序部署 - 更新服务默认值失败，代码为 13 超出实例配额限制，并且 401 未授权

创建了一个新项目在第一次部署时我得到这个 Updating service default this may take several minutes failed ERROR gcloud app deploy Error Respon
我们可以使用 for-each 循环来迭代 Iterator 类型的对象吗？ [复制]

这个问题在这里已经有答案了如果我们执行以下操作我们会收到错误 class FGH public static Iterator reverse List list Collections reverse list return list
如何使用百分比进行android布局？

我们如何使用百分比android视图元素的值像这样的东西
Spark 数据帧：根据另一列的值提取一列

我有一个包含带有连接价目表的交易的数据框 paid currency EUR USD GBP 49 5 EUR 99 79 69 客户已支付 49 5 欧元如货币列中所示我现在想将支付的价格与价目表中的价格进行比较因此我需要根据

Spark 数据帧：根据另一列的值提取一列

Spark 数据帧：根据另一列的值提取一列 的相关文章

随机推荐

热门标签

Spark 数据帧：根据另一列的值提取一列的相关文章