Apache Spark 案例在不同列上具有多个 when 子句

2023-11-23

鉴于以下结构：

val df = Seq("Color", "Shape", "Range","Size").map(Tuple1.apply).toDF("color")

val df1 = df.withColumn("Success", when($"color"<=> "white", "Diamond").otherwise(0))

我想在上面的 where size > 10 和 Shape 列中再写一个 WHEN 条件值是菱形，那么“钻石”值应该插入到其他 0 列中。我尝试如下，但失败了

val df1 = df.withColumn("Success", when($"color" <=> "white", "Diamond").otherwise(0)).when($"size">10)

请建议我仅使用 scala 的数据帧选项。 Spark-SQL 与 sqlContext 对我来说没有帮助。

Thanks !

你可以链接when类似于中的示例https://spark.apache.org/docs/latest/api/java/org/apache/spark/sql/Column.html#when-org.apache.spark.sql.Column-java.lang.Object-自 (1.4.0) 起可用

// Scala:
people.select(when(people("gender") === "male", 0)
 .when(people("gender") === "female", 1)
 .otherwise(2))

你的例子：

val df1 = df.withColumn("Success",
  when($"color" <=> "white", "Diamond")
  .when($"size" > 10 && $"shape" === "Rhombus", "Diamond")
  .otherwise(0))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Hadoop

apachesparksql

Apache Spark 案例在不同列上具有多个 when 子句的相关文章

过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
非 hdfs 文件系统上的 hadoop/yarn 和任务并行化

我已经实例化了 Hadoop 2 4 1 集群并且发现运行 MapReduce 应用程序的并行化方式会有所不同具体取决于输入数据所在的文件系统类型使用 HDFS MapReduce 作业将生成足够的容器以最大限度地利用所有可用内存
使用 scalapb 在 Spark Streaming 中解码 Proto Buf 消息时出错

这是一个 Spark Streaming 应用程序它使用编码的 Kafka 消息Proto Buf Using scalapb图书馆我收到以下错误请帮忙 gt com google protobuf InvalidProtocolBu
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
HDFS 中的文件数量与块数量

我正在运行单节点 hadoop 环境当我跑的时候 hadoop fsck user root mydatadir block 我真的对它给出的输出感到困惑 Status HEALTHY Total size 998562090 B Tot

随机推荐

KeyError 中错误消息的新行 - Python 3.3

我通过 IDLE 使用 Python 3 3 运行如下代码时 raise KeyError This is a n Line break 它输出 Traceback most recent call last File test py li
LNK1117：选项“VERSION：1.0.0”中的语法错误[重复]

这个问题在这里已经有答案了当我尝试构建时我有一个非常好奇的问题Visual Studio 2013 有人可以帮助我吗我做错了什么原始消息德语 1 gt Erstellen gestartet Projekt npworpg Kon
Scala 类型：A 类不等于 T，其中 T 为：类型 T = A

我正在阅读 Scala 编程一书的第 20 7 节我想知道为什么这段代码编译时 class Food class Fish extends Food class Grass extends Food abstract class Ani
Logback - 启动时不创建空日志文件

我有一个项目其中有很多工具类它们有自己的日志记录这些日志文件是在应用程序启动时创建的但在使用之前保持为空是否可以告诉 logback 在启动时不应创建空文件但只有当它们被使用时不知何故我找不到有关此主题的信息谢谢 Lo
Xamarin.Forms - 将 CollectionView 的高度调整为适合儿童的最小尺寸

I have a CollectionView with a few items in it I m trying to adjust the size of the CollectionView to be just big enough
如何使用Python读取MS-Word文件中表格的内容？

如何读取和处理 DOCX 文件中表格的每个单元格的内容我在 Windows 7 和 PyWin32 上使用 Python 3 2 来访问 MS Word 文档我是初学者所以我不知道到达表格单元格的正确方法到目前为止我刚刚这样做了 i
如何在Android中检查特定设备是否支持4G网络？

我想检查一下是否特定设备具有对 4G 网络的硬件支持我将详细说明这个问题在应用程序中我们有一个设置页面用户可以在其中进行选择并允许应用程序仅在选定的网络中运行例如用户可以选择该应用程序仅在 WiFi 网络或仅在 3G 网络等中运
webapi2 返回不带引号的简单字符串

简单场景 public IHttpActionResult Get return Ok
ClosureCleaner.clean的目的

Before sc runJob调用dagScheduler runJob 对 rdd 执行的 func 被清理为ClosureCleaner clean 为什么 Spark 必须这样做目的是什么 Ankur Dave 一位 Spar
docker-compose + django + redis - 连接到 127.0.0.1:6379 时出现错误 111。连接被拒绝

我已经看过了这个答案并且不知道如何将其应用于我的问题所以如果答案存在我们将不胜感激我也是 docker 和 docker compose 的菜鸟我有一个简单的 docker compose yml version 3 service
Php 从 C# .NET RIJNDAEL 解密字符串 256

修复 data base64 decode str replace GET data 无论出于何种原因 Php 将 GET 变量中的转换为空格我正在尝试解密正在 C NET 中解密的字符串代码的结果各不相同有几次最终字符串的某些部分
为什么我们使用system.out.flush()？ [复制]

这个问题在这里已经有答案了有人可以解释一下我们为什么要使用system out flush 以更简单的方式如果有可能丢失数据请给我提供一个例子如果您在下面的代码中注释它则不会发生任何变化 class ReverseApp publ
自动实现 Rust 新类型（具有一个字段的元组结构）的封闭类型的特征

在 Rust 中可以创建只有一个字段的元组结构如下所示 struct Centimeters i32 我想做基本算术Centimeters无需每次通过模式匹配提取它们的内部值也无需实现Add Sub 特征和重载运算符我想做的是
拦截 WPF 应用程序的每次鼠标点击

我希望拦截 WPF 应用程序中的每次鼠标单击似乎使用命令路由机制这应该很容易但抱歉我没有找到任何东西我的应用程序实现了多个安全级别并且如果在 x 分钟内没有人与应用程序交互单击则需要自动恢复到最严格的级别我的计划是添加一个计时
检测设备是用密码锁还是人脸锁的指纹锁保护的？

我的应用程序包含登录的用户身份验证包括 pin 图案指纹解锁这取决于设备安全性我正在使用生物识别管理器来检测设备是否支持指纹生物识别管理器并检查设备是否安全使用isDeviceSecure 我需要检测移动设备在哪种模式下受到保护无
Python 3.2 中的暴力破解脚本

我是编写代码的初学者我从 Python 开始因为它看起来最简洁最容易上手我目前使用的是 Python 3 2 现在我读了一些关于Python编码的在线书籍等等我制作了一些小程序仅此而已但后来我想制作一个程序可以暴力破解随机密
获取 UIStackView 子视图的框架

我在 IB 中创建了一个 UIStackView 其分布设置为 Fill Equally 我希望获取每个子视图的框架但以下代码始终返回 0 0 0 0 class ViewController UIViewController IBOut
每个浏览器的媒体查询

我想根据浏览器调整输入字段的大小我可以为每个浏览器编写媒体查询以便在单独的浏览器上为输入字段设置单独的宽度就像对于 mozilla 来说它在 chrome 上将具有单独的宽度而 Opera 则将具有单独的宽度媒体查询 are m
如何使用 kotlin android 更新我的 Recyclerview？

我有一个显示数据的 Recyclerview 活动现在我想更新我的RecyclerView一旦获得新数据现在每次我关闭并重新打开我的应用程序时都会显示新数据但我希望它没有关闭更新我的观点我试过这个但什么都行不通 fun setu
Apache Spark 案例在不同列上具有多个 when 子句

鉴于以下结构 val df Seq Color Shape Range Size map Tuple1 apply toDF color val df1 df withColumn Success when color lt gt whit

Apache Spark 案例在不同列上具有多个 when 子句

Apache Spark 案例在不同列上具有多个 when 子句 的相关文章

随机推荐

热门标签

Apache Spark 案例在不同列上具有多个 when 子句的相关文章