Spark 2.0 DataSets groupByKey 和除法操作以及类型安全

2024-01-16

我对 Spark 2.0 DataSets 非常满意，因为它的编译时类型安全。但这里有几个我无法解决的问题，我也没有找到很好的文档。

问题#1 - 对聚合列进行除法运算 -考虑下面的代码 - 我有一个 DataSet[MyCaseClass]，我想对 c1、c2、c3 和 sum(c4) / 8 进行 groupByKey。如果我只计算总和，下面的代码效果很好，但它给出了 diverge(8) 的编译时错误。我想知道我怎样才能实现以下目标。

final case class MyClass (c1: String,
                          c2: String,
                          c3: String,
                          c4: Double)

    val myCaseClass: DataSet[MyCaseClass] = ??? // assume it's being loaded

    import sparkSession.implicits._
    import org.apache.spark.sql.expressions.scalalang.typed.{sum => typedSum}

     myCaseClass.
       groupByKey(myCaseClass =>
          (myCaseClass.c1, myCaseClass.c2, myCaseClass.c3)).
          agg(typedSum[MyCaseClass](_.c4).name("sum(c4)").
          divide(8)). //this is breaking with exception
       show()

如果我删除 .divide(8) 操作并运行上面的命令，它会给出以下输出。

+-----------+-------------+
|        key|sum(c4)      |
+-----------+-------------+
| [A1,F2,S1]|         80.0|
| [A1,F1,S1]|         40.0|  
+-----------+-------------+

问题 #2 - 将 groupedByKey 结果转换为另一个类型化 DataFrame -现在我的问题的第二部分是我想再次输出一个类型化的数据集。为此，我有另一个案例类（不确定是否需要），但我不确定如何映射分组结果 -

final case class AnotherClass(c1: String,
                          c2: String,
                          c3: String,
                          average: Double) 

 myCaseClass.
           groupByKey(myCaseClass =>
              (myCaseClass.c1, myCaseClass.c2, myCaseClass.c3)).
              agg(typedSum[MyCaseClass](_.c4).name("sum(c4)")).
as[AnotherClass] //this is breaking with exception

但这再次失败，并出现异常，因为按键结果分组未直接与 AnotherClass 映射。

PS：非常欢迎任何其他实现上述目标的解决方案。

第一个问题可以通过一直使用类型化列来解决（KeyValueGroupedDataset.agg期望TypedColumn(-s)）您可以将聚合结果定义为：

val eight = lit(8.0)
  .as[Double]  // Not necessary

val sumByEight = typedSum[MyClass](_.c4)
  .divide(eight)
  .as[Double]  // Required
  .name("div(sum(c4), 8)")

并将其插入以下代码：

val myCaseClass = Seq(
  MyClass("a", "b", "c", 2.0),
  MyClass("a", "b", "c", 3.0)
).toDS

myCaseClass
  .groupByKey(myCaseClass => (myCaseClass.c1, myCaseClass.c2, myCaseClass.c3))
  .agg(sumByEight)

to get

+-------+---------------+
|    key|div(sum(c4), 8)|
+-------+---------------+
|[a,b,c]|          0.625|
+-------+---------------+

第二个问题是由于使用了不符合数据形状的类而导致的。正确的表示可能是：

case class AnotherClass(key: (String, String, String), sum: Double)

与上面定义的数据一起使用：

 myCaseClass
   .groupByKey(myCaseClass => (myCaseClass.c1, myCaseClass.c2, myCaseClass.c3))
   .agg(typedSum[MyClass](_.c4).name("sum"))
   .as[AnotherClass]

会给出：

+-------+---+
|    key|sum|
+-------+---+
|[a,b,c]|5.0|
+-------+---+

but .as[AnotherClass]如果这里没有必要Dataset[((String, String, String), Double)]是可以接受的。

你当然可以跳过所有这些，然后mapGroups（尽管并非没有性能损失）：

import shapeless.syntax.std.tuple._   // A little bit of shapeless

val tuples = myCaseClass
 .groupByKey(myCaseClass => (myCaseClass.c1, myCaseClass.c2, myCaseClass.c3))
 .mapGroups((group, iter) => group :+ iter.map(_.c4).sum)

有结果

+---+---+---+---+   
| _1| _2| _3| _4|
+---+---+---+---+
|  a|  b|  c|5.0|
+---+---+---+---+

reduceGroups可能是一个更好的选择：

myCaseClass
  .groupByKey(myCaseClass => (myCaseClass.c1, myCaseClass.c2, myCaseClass.c3))
  .reduceGroups((x, y) => x.copy(c4=x.c4 + y.c4))

由此产生的Dataset:

+-------+-----------+    
|     _1|         _2|
+-------+-----------+
|[a,b,c]|[a,b,c,5.0]|
+-------+-----------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 2.0 DataSets groupByKey 和除法操作以及类型安全的相关文章

用 HashMap[Int, Vector[Int]] (Scala) 表示图（邻接列表）？

我想知道如何如果可能的话我可以通过以下方式制作可变图的邻接列表表示HashMap Int Vector Int HashMap当然是可变的目前我将其设置为HashMap Int ArrayBuffer Int 但我可以更改 Arr
Spark 与 Webhdfs/httpfs

我想通过 httpfs 或 Webhdfs 将文件从 HDFS 读入 Spark 类似的东西 sc textFile webhdfs myhost 14000 webhdfs v1 path to file txt 或者理想情况下 sc
createOrReplaceTempView 在 Spark 中如何工作？

我是 Spark 和 Spark SQL 的新手如何createOrReplaceTempView在 Spark 工作如果我们注册一个RDD对象作为表 Spark 会将所有数据保留在内存中吗 createOrReplaceTempVie
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
akka-http：找不到参数解组的隐式值

我的 Spray json 支持看起来像这样 object MarshallingSupport extends SprayJsonSupport implicit def json4sFormats Formats DefaultForm
如何在Scala中表达这个类型？存在类型类（即隐式）限制吗？

我正在使用 Play 框架的 JSON 库它使用类型类来实现Json toJson功能 http www playframework org documentation api 2 0 4 scala index html play ap
Scala 功能设计模式目录

一周以来我一直在阅读 Scala 编程作者一步一步地介绍了该语言的元素但我仍然很困惑何时使用演员闭包柯里化等功能性的东西我正在寻找功能结构的典型用例或最佳实践的目录我并不是说在 Scala 中重新实现像 GoF 这样的众所周知的
从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
创建自定义 scala 集合，其中映射默认返回自定义集合？

特质TraversableLike A Repr 允许人们在其中进行收藏some函数将返回一个Repr 而其他人则继续返回类型参数That在功能上有没有办法定义一个CustomCollection A 其中函数如map 其他的默认That
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
理解 scala 的 _ 与 Any/Nothing

如果一个类具有协变类型参数例如Iterable A http www scala lang org archives downloads distrib files nightly docs 2 10 1 library index ht
Build.scala中%和%%符号含义

我是新来玩的 Framework 2 1 java版本并且没有scala经验我不明白什么是以及什么是 and 在 Build scala 中表示我用谷歌搜索了它们但找不到它们的含义在我的 Build scala 文件中我有 org
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
使用 pyspark awsglue 时显示 DataFrame

如何使用 awsglue 的 job etl 显示 DataFrame 我尝试了下面的代码但没有显示任何内容 df show code datasource0 glueContext create dynamic frame from c
xsbt 插件 1.0.0-M7 和 scalatra

我尝试在我的 scalatra 项目中将 xsbt 插件升级到 1 0 0 M7 但 scalatra 似乎与此版本不兼容当我尝试重新加载项目时出现以下错误我尝试过 scalatra 2 3 0 版本问候德斯 java lang
承诺的反面是什么？

承诺代表将来可能可用或无法实现的值我正在寻找的是一种数据类型它表示将来可能变得不可用的可用值可能是由于错误 Promise a b TransitionFromTo
需要澄清令人困惑的 Http4s 消息类型 `Response[F]` / `Request[F]`

我很难理解为什么Request and Response参数化为F 类似的东西是猫效应数据类型资源从文档中 https typelevel org cats effect docs std resource https typelevel
来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

我正在构建一个使用 Spark 进行基于随机森林分类的应用程序当尝试运行该程序时我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label

随机推荐

R - 将向上对角线转换为行

我得到一个矩阵数据框或数据表我想创建一个矩阵其中向上反向对角线作为行其余单元格作为 NA 我能够做到这一点但我认为应该有一个更容易更简单的解决方案因此任何解决方案都值得赞赏作为一个例子假设我得到以下 data tab
Grails 服务类交叉引用

我意识到 Grails 服务类是 Spring 管理的单例我还知道您可以通过像这样的驼峰式大小写形式使用 serviceClassName 声明本地定义来引用另一个服务类令我惊讶的是我似乎无法像这样交叉引用服务类 class Fir
jsTree：如何从jstree中获取所有叶节点？

我想从 jsTree 获取所有叶节点节点的 ID 和文本我没有使用复选框 ui jsTree Root A A1 A1 1 A2 A2 1 B B2 C C1 C1 1 我想要 jsTree 的叶节点列表预期输出 A1 1 A2 1
Google Drive API 如何支持下载请求的内容范围？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案 Google Drive API 如何支持获取内容范围请求 App Engine 获取请求大小有限制请支持范围请求以便可以读取大文件您可以提供
__unicode__() 不返回字符串

我在 python 中有以下课程 class myTest def init self str self str str def unicode self return self str 并在其他一些文件中实例化 myTest 来尝试 un
Excel 单元格中的 OpenXml 和日期格式

我正在尝试使用 OpenXML 创建 xlsx 格式的 Excel 文件因为我需要在 Web 服务器上使用它我在表格中填写数值没有任何问题但是我正在努力在单元格中设置经典的日期格式下面使用快速测试DocumentFormat Ope
类型错误：预期序列或类似数组，得到估计器

我正在开发一个对产品有用户评论的项目除了我手动提取的一些其他特征之外我正在使用 TfidfVectorizer 从数据集中提取特征 df pd read csv reviews csv header 0 FEATURES feature
根据屏幕尺寸缩放字体大小？

我正在使用 AngularJS 1 x 和 Angular Material 开发一个 Web 应用程序我正在尝试创建一个带有大标题的登陆页面md display 4 它看起来是这样的正如您所看到的标题很好地填充了页面并且适合一行然
如何在 iOS 地图上叠加一个圆圈

我有一个半径和一个位置这就是我试图获取圆的边界矩形的方法 MKMapRect boundingMapRect CLLocationCoordinate2D tmp MKCoordinateSpan radiusSpan MKCoordin
Laravel 5.4 - 如何对同一自定义验证规则使用多个错误消息

为了重用代码我在名为的文件中创建了自己的验证器规则验证服务提供者 class ValidatorServiceProvider extends ServiceProvider public function boot Validator
SPRING：在 Spring 中由工厂实例化创建的 bean 中使用自动装配

您好我无法在另一个使用工厂方法实例化的 bean 中自动装配我的 bean class A private String name getters and setters for name class B Autowired privat
Lightgbm 提前停止无法正常工作

我正在使用 lightgbm 来执行机器学习任务我想使用早期停止来找到给定多个超参数的最佳树数然而 lgbm 停止种植树木同时仍在改进我的评估指标下面我附上了我的规格 params max bin 128 num leaves 8
在 AWS SES 上实施把手助手，以便在 HTML 电子邮件程序中条件性地呈现标记

我们正在创建一个 HTML 电子邮件模板该模板需要根据 JSON 数据中的属性之一的值有条件地呈现标记我们发现在以下示例中您可以创建自定义 Handlebar Helpers 来完成此操作但在使用这些助手时 AWS SES 拒绝发送
将 MATLAB 文件转换为 Octave

我有一系列为 MATLAB 编写的实验但最近我们尝试通过 Octave 来运行它们我意识到它们大多是兼容的但我遇到了一些问题而且我发现的在线常见问题解答或说明都没有解决这些问题这有点复杂因为有多个 m 文件相互作用不过现在我
在 asp.net 中上传文件之前如何检查文件类型？

我们如何在不使用文件扩展名的情况下检查文件类型例如jpg等格式上传它们使用 asp net 和 c 我正在使用 vs 2008 asp net c TELERIK 控件 RadUpload 想象一下有人将文本文件扩展名更改为 jpg 并
Haskell 中类型表达式的 Lambda？

Haskell 或特定的编译器是否有类似类型级 lambda 的东西如果这甚至是一个术语详细说明一下假设我有一个参数化类型Foo a b并想要Foo b成为 Functor 的一个实例有没有什么机制可以让我做类似的事情 instan
如何在安装了 goclipse 的 eclipse 中运行 GO 项目

我已经在 eclipse 中安装了 goclipse 并创建了一个新的 go 项目现在这就是我所拥有的我的 hello go 看起来像这样 package main import fmt func main fmt Println He
何时在 Makefile 中使用空格或制表符？

我正在创建一个使用条件 if 和 ifneq 的 makefile 我注意到如果我使用 if 下一行应该用空格缩进 if d d then
如何在 gdb 中使用带有 FS 或 GS 基址的逻辑地址？

gdb 提供了读取或写入特定的功能线性地址例如 gdb x 1wx 0x080483e4 0x80483e4
Spark 2.0 DataSets groupByKey 和除法操作以及类型安全

我对 Spark 2 0 DataSets 非常满意因为它的编译时类型安全但这里有几个我无法解决的问题我也没有找到很好的文档问题 1 对聚合列进行除法运算考虑下面的代码我有一个 DataSet MyCaseClass 我想对 c

Spark 2.0 DataSets groupByKey 和 除法操作以及类型安全

Spark 2.0 DataSets groupByKey 和 除法操作以及类型安全 的相关文章

随机推荐

热门标签

Spark 2.0 DataSets groupByKey 和除法操作以及类型安全

Spark 2.0 DataSets groupByKey 和除法操作以及类型安全的相关文章