根据 Spark 结构化流中的多个条件更新其他列的列值

2024-03-10

我想根据多个条件使用另外两列更新一列中的值。例如 - 流就像：

    +---+---+----+---+
    | A | B | C  | D |
    +---+---+----+---+
    | a | T | 10 | 0 |
    | a | T | 100| 0 |
    | a | L | 0  | 0 |
    | a | L | 1  | 0 |
    +---+---+----+---+

我所拥有的是多个条件，例如 -

（B =“T”&& C > 20）或（B =“L”&& C = 0）

价值"T", 20, "L" and 0是动态的。AND/OR运算符也在运行时提供。我要实现D = 1只要条件成立，否则它应该保留D = 0。条件的数量也是动态的。

我尝试将它与UPDATE命令输入spark-sql i.e. UPDATE df SET D = '1' WHERE CONDITIONS。但它说还不支持更新。生成的数据框应该是 -

+---+---+----+---+
| A | B | C  | D |
+---+---+----+---+
| a | T | 10 | 0 |
| a | T | 100| 1 |
| a | L | 0  | 1 |
| a | L | 1  | 0 |
+---+---+----+---+

有什么办法可以实现这个目标吗？

我希望你正在使用Python。也会为 Scala 发布同样的内容！使用udf

PYTHON

>>> df.show()
+---+---+---+---+
|  A|  B|  C|  D|
+---+---+---+---+
|  a|  T| 10|  0|
|  a|  T|100|  0|
|  a|  L|  0|  0|
|  a|  L|  1|  0|
+---+---+---+---+

>>> def get_column(B, C):
...     return int((B == "T" and C > 20) or (B == "L" and C == 0))
...
>>> fun = udf(get_column)
>>> res = df.withColumn("D", fun(df['B'], df['C']))>>> res.show()
+---+---+---+---+
|  A|  B|  C|  D|
+---+---+---+---+
|  a|  T| 10|  0|
|  a|  T|100|  1|
|  a|  L|  0|  1|
|  a|  L|  1|  0|
+---+---+---+---+

SCALA

scala> import org.apache.spark.sql.functions._
import org.apache.spark.sql.functions._

scala> df.show()
+---+---+---+---+
|  A|  B|  C|  D|
+---+---+---+---+
|  a|  T| 10|  0|
|  a|  T|100|  0|
|  a|  L|  0|  0|
|  a|  L|  1|  0|
+---+---+---+---+


scala> def get_column(B : String, C : Int) : Int = {     
     |     if((B == "T" && C > 20) || (B == "L" && C == 0))
     |         1     
     |     else
     |         0
     | }
get_column: (B: String, C: Int)Int

scala> val fun = udf(get_column _)
fun: org.apache.spark.sql.expressions.UserDefinedFunction = UserDefinedFunction(<function2>,IntegerType,Some(List(StringType, IntegerType)
))

scala> val res = df.withColumn("D", fun(df("B"), df("C")))
res: org.apache.spark.sql.DataFrame = [A: string, B: string ... 2 more fields]

scala> res.show()
+---+---+---+---+
|  A|  B|  C|  D|
+---+---+---+---+
|  a|  T| 10|  0|
|  a|  T|100|  1|
|  a|  L|  0|  1|
|  a|  L|  1|  0|
+---+---+---+---+

您还可以使用case when and otherwise像这样：

PYTHON

>>> df.show()
+---+---+---+---+
|  A|  B|  C|  D|
+---+---+---+---+
|  a|  T| 10|  0|
|  a|  T|100|  0|
|  a|  L|  0|  0|
|  a|  L|  1|  0|
+---+---+---+---+

>>> new_column = when(
        (col("B") == "T") & (col("C") > 20), 1
    ).when((col("B") == "L") & (col("C") == 0), 1).otherwise(0)

>>> res = df.withColumn("D", new_column)
>>> res.show()
+---+---+---+---+
|  A|  B|  C|  D|
+---+---+---+---+
|  a|  T| 10|  0|
|  a|  T|100|  1|
|  a|  L|  0|  1|
|  a|  L|  1|  0|
+---+---+---+---+

SCALA

scala> df.show()
+---+---+---+---+
|  A|  B|  C|  D|
+---+---+---+---+
|  a|  T| 10|  0|
|  a|  T|100|  0|
|  a|  L|  0|  0|
|  a|  L|  1|  0|
+---+---+---+---+

scala> val new_column = when(
     |     col("B") === "T" && col("C") > 20, 1
     | ).when(col("B") === "L" && col("C") === 0, 1 ).otherwise(0)

new_column: org.apache.spark.sql.Column = CASE WHEN ((B = T) AND (C > 20)) THEN 1 WHEN ((B = L) AND (C = 0)) THEN 1 ELSE 0 END

scala> df.withColumn("D", new_column).show()
+---+---+---+---+
|  A|  B|  C|  D|
+---+---+---+---+
|  a|  T| 10|  0|
|  a|  T|100|  1|
|  a|  L|  0|  1|
|  a|  L|  1|  0|
+---+---+---+---+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachesparksql

SparkStreaming

multipleconditions

根据 Spark 结构化流中的多个条件更新其他列的列值的相关文章

如何将数据帧转换为 JSON 并使用密钥写入 kafka 主题

我正在尝试以 JSON 格式向 kafka 写入一个数据帧并在 Scala 中向该数据帧添加一个键我目前正在使用 kafka spark 中的这个示例 df selectExpr CAST key AS STRING CAST valu
函数式 Scala 中的选择排序

我正在学习 Scala 编程并编写了选择排序算法的快速实现然而由于我对函数式编程还不太了解所以在转换为更 Scala 风格时遇到了困难对于 Scala 程序员来说如何使用 Lists 和 vals 来做到这一点而不是回到我的命
如何使用 zio-test 测试异常情况

我有以下功能我想测试 def people id Int RIO R People 如果有 People 则此函数返回 Peopleid 分别如果没有则失败例如 IO fail ServiceException s No People
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
对于 Scala，“无全局类型推断”是什么意思？

我读过 Scala 的类型推断不是全局的因此人们必须在方法上放置类型注释这会是本地类型推断吗我只知道一点点原因是它面向对象的本质但我不清楚是否有全局类型推断的解释以及为什么 Scala 不能让初学者可以理解 The pr
如何获取使用 concat_ws 生成的结果的大小？

我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat ws 我怎样才能获得该列表中的值的计数这是我的代码 Dataset
Scala 如何使用我的所有核心？

object PrefixScan sealed abstract class Tree A case class Leaf A a A extends Tree A case class Node A l Tree A r Tree A
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
在 Scala 中设计方便的默认值映射

我发现自己使用了很多嵌套映射例如 Map Int Map String Set String 并且我希望在访问新密钥时自动创建新的 Map Set 等例如像下面这样 val m m 1992 foo bar 请注意如果不需要我不想
collect_list() 是否保持行的相对顺序？

想象一下我有以下 DataFrame df id featureName featureValue id1 a 3 id1 b 4 id2 a 2 id2 c 5 id3 d 9 想象一下我运行 df groupBy id agg coll
由于 UTFDataFormatException 导致 Spark 中的任务无法序列化：编码字符串太长

我在 Yarn 上运行 Spark 应用程序时遇到一些问题我有非常广泛的集成测试运行时没有任何问题但是当我在 YARN 上运行应用程序时它将抛出以下错误 17 01 06 11 22 23 ERROR yarn Applicatio
为什么流式数据集会失败并显示“当流式数据帧/数据集上存在流式聚合时不支持完整输出模式...”？

我使用 Spark 2 2 0 在 Windows 上使用 Spark 结构化流时出现以下错误有时不支持完整输出模式streaming aggregations on streaming DataFrames DataSets没有wate
Scala 除以零会产生不同的结果

我对 Scala 如何处理除以零感到困惑这是 REPL 代码片段 scala gt 1 0 java lang ArithmeticException by zero 33 elided scala gt 1 toDouble 0 toD
Scala 中的超时未来

假设我有一个函数它调用一个阻塞可中断的手术我想在超时的情况下异步运行它也就是说我想在超时到期时中断该功能所以我正在尝试做这样的事情 import scala util Try import scala concurrent Fut
四舍五入数据框中的所有列 - 两位小数 pyspark

我使用此命令将数据框中的所有列四舍五入到小数点后两位 data data withColumn columnName1 func round data columnName1 2 我不知道如何通过一个命令对所有数据框进行四舍五入不是每一列
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
如何编写 sbt 插件来通过代理启动应用程序

我想在开源之前为我的项目创建一个 sbt 插件该项目在应用程序运行开始时附加一个 Java 代理以对其进行各种类型的分析代理写出文本文件以供以后处理我希望能够编写一个 sbt 插件有一个替代方案run called runWith
无法使用 Spark 结构化流在 Parquet 文件中写入数据

我有一个 Spark 结构化流 val df spark readStream format kafka option kafka bootstrap servers localhost 9092 option startingOffset
嵌套 json 中的结构化流式传输不同模式

您好我有一个场景传入的消息是一个 Json 其标题为表名数据部分包含表列数据现在我想将其写入镶木地板到单独的文件夹 emp and dept 我可以通过根据表名聚合行来在常规流式传输中实现此目的但在结构化流媒体中我无法分割它我怎
自动将通配符导入重构为 IntelliJ 中的显式导入（适用于 Scala/Java）

考虑下面的代码是否可以让 IntelliJ 自动将每个通配符导入重构为显式导入无论范围内使用什么例如import scalatags JsDom all into import scalatags JsDom all ol li di

随机推荐

Xamarin Forms 图像大小不匹配

我正在使用 Xamarin Forms 实现一个跨平台应用程序但我遇到了一个奇怪的错误我正在尝试创建一个带有文本的按钮为了实现它我正在使用AbsoluteLayout 我已为每种 iOS 分辨率类型 png 2x png 3x pn
System.InvalidCastException：对象无法从 DBNull 转换为其他类型

我的代码中有一个例外我已经尝试将 int64 更改为 int32 但这并没有改变它在数据库中表示 column ID 的单元格的数据类型为 NUMBER 问题出在这段代码的第 7 行 private void dataGridView
如何将 numpy.array 作为新列添加到 pyspark.SQL DataFrame 中？

这是创建 pyspark sql DataFrame 的代码 import numpy as np import pandas as pd from pyspark import SparkContext from pyspark sql
如何使 geom_line 和 geom_point 抖动相同的幅度？

我有一个ggplot2具有显着重叠的两条线的折线图我正在尝试使用position jitterdodge 这样它们就更明显了但我无法以相同的方式让线条和点都抖动我试图仅水平抖动点和线因为我不想建议 y 轴上的任何更改这是一个 MW
JQuery 选择框和循环帮助

谢谢阅读我对 jQuery 有点陌生我正在尝试制作一个可以包含在我所有网站中的脚本来解决一个总是让我发疯的问题问题带有长选项的选择框在 Internet Explorer 中会被截断例如这些选择框 http discoverfi
glReadPixels 总是在 glClearColor 中返回相同的值

我一直在努力理解 glReadPixels 的输出它在理论上似乎很简单但实际上产生了令人费解的结果至少对我来说假设我有一个简单的片段着色器它绘制一个颜色值为 vec4 0 2 0 0 0 的三角形而背景颜色设置为 0 3 1 0
如何在 Vim 中根据光标下的字符在函数中执行某些操作？

我正在编写一个在 LaTeX 中编辑特定环境的函数环境基本上是这样的 begin quicktikz some stuff end quicktikz 或者像这样 begin quicktikz some stuff end quickt
Py3k 和 IPython

我正在升级到 Python 3 但似乎找不到它的 IPython 版本主要的IPython发布页面 http ipython scipy org moin Download没有列出任何合适的内容任何让 IPython 为 Py3k 工作
如何编写单元测试？

我有一个Java课程我怎么能够单元测试 http en wikipedia org wiki Unit testing it 就我而言我让类进行二进制求和需要两个byte 数组对它们求和然后返回一个新的二进制数组我为两者提供这篇
在实体框架迁移期间读取数据库（选择查询）

我知道我可以使用Sql方法在迁移期间更新数据对于可以用纯 SQL 表达的简单事物非常有用我也知道我可以使用Seed方法但这感觉就像一个黑客我想编写的代码必须在执行迁移时执行一次在我当前的情况下我需要从列中删除 HTML 标签并
学习 Java：如何为 System.out.println() 创建短别名

我想为其创建别名或扩展版本System out println 用于打印我的各种类型的变量如何将未知类型类的参数传递给方法 public static void p VariableType args System out printl
React Router - 在新选项卡上打开链接并重定向到主页

使用 React Router 4 2 我的尝试是open单击导航链接后会出现一个新选项卡同时重定向到网站主页即导航栏单击策略即使下面的代码的行为符合上述要求这是明智的方法吗旨在学习 Routes js 上的最佳实践 Rou
插入百分比 Charts.js 甜甜圈

我正在使用 Charts js 库想知道如何在圆环图的孔中添加一些标记比如百分比 My js jQuery document ready function var data value 5 color A1638C highlight
从 [NSDate date] 获取当前日期，但将时间设置为上午 10:00

如何重置从 NSDate date 检索到的当前日期然后将时间更改为早上 10 00 与所有日期操作一样您必须使用NSDate组件 https developer apple com documentation foundation n
用宏定义数组的长度是“优秀实践”吗？

我正在读一本叫做C 编程现代方法 https rads stackoverflow com amzn click com 0393979504在讨论数组的第一部分中作者指出使用宏定义数组的长度是很好的做法然后使用简短的例子 defi
艰苦学习Python练习18帮助

我了解除第一个之外的所有功能 args 是什么意思 thanks def print twice args arg1 arg2 args print arg1 r arg2 r arg1 arg2 def print twice again
反转 LinearLayout 的方向

如何反转线性布局的方向例如如果我的布局是 view1 view2 view3 我想创建 view3 view2 view1 我的目标是从一个 XML 布局中扩充左手实例和右手实例一般来说我会说你不能使用标准 SDK 来做到这一点但
列表框 SelectionChanged 无法在其 ItemTemplate 中使用 Button

当我在列表框中选择项目时下面的代码不起作用您知道为什么吗
如果向量为空，std::vector::data() 应该返回什么？

根据标准草案 23 3 6 4 矢量数据 http www open std org jtc1 sc22 wg21 docs papers 2012 n3337 pdf data 指向底层数组并且 data data size 必须是有效范
根据 Spark 结构化流中的多个条件更新其他列的列值

我想根据多个条件使用另外两列更新一列中的值例如流就像 A B C D a T 10 0 a T 100 0 a L 0 0 a L 1 0 我所拥有的是多个条件例如 B T C gt 20 或 B L C 0 价值 T 20 L an

根据 Spark 结构化流中的多个条件更新其他列的列值

根据 Spark 结构化流中的多个条件更新其他列的列值 的相关文章

随机推荐

热门标签

根据 Spark 结构化流中的多个条件更新其他列的列值的相关文章