如何使用我的相等比较器对 Spark DataFrame 进行 GroupBy？

2024-03-21

我想在 DataFrame 上使用 GroupBy 运算符和我自己的相等比较器。

假设我想执行类似的操作：

df.groupBy("Year","Month").sum("Counter")

在此数据框中：

Year    | Month      | Counter  
---------------------------
2012    | Jan        | 100          
12      | January    | 200       
12      | Janu       | 300       
2012    | Feb        | 400       
13      | Febr       | 500

我必须实现两个比较器：

1) 对于“年份”栏：p.e. “2012”==“12”

2) 对于月份列：p.e. “一月”==“一月”==“一月”

假设我已经实现了这两个比较器。我怎样才能调用它们？如在this https://stackoverflow.com/questions/55128213/how-to-sort-dataframe-with-my-comparator-using-scala例如，我已经知道我必须将 DataFrame 转换为 RDD 才能使用我的比较器。

我想过使用RDD分组依据 https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD@groupBy%5BK%5D(f:T=%3EK,p:org.apache.spark.Partitioner)(implicitkt:scala.reflect.ClassTag%5BK%5D,implicitord:Ordering%5BK%5D):org.apache.spark.rdd.RDD%5B(K,Iterable%5BT%5D)%5D.

注意我真的需要使用比较器来做到这一点。我无法使用 UDF、更改数据或创建新列。未来的想法是拥有密文列，其中我有函数可以让我比较两个密文是否相同。我想在我的比较器中使用它们。

Edit:

此时此刻，我尝试仅用一列来完成此操作，例如：

df.groupBy("Year").sum("Counter")

我有一个包装类：

class ExampleWrapperYear (val year: Any) extends Serializable {
      // override hashCode and Equals methods
}

然后，我正在这样做：

val rdd = df.rdd.keyBy(a => new ExampleWrapperYear(a(0))).groupByKey()

我的问题是如何进行“求和”，以及如何将 keyBy 与多个列一起使用以使用 ExampleWrapperYear 和 ExampleWrapperMonth。

这个解决方案应该可行。这里是实现 hashCode 和 equals 的案例类（我们可以将它们称为比较器）。

可以根据不同的密文修改/更新hashCode和equals

  case class Year(var year:Int){

    override def hashCode(): Int = {
      this.year = this.year match {
        case 2012 => 2012
        case 12 => 2012
        case 13 => 2013
        case _ => this.year
      }
      this.year.hashCode()
    }

    override def equals(that: Any): Boolean ={
      val year1 = 2000 + that.asInstanceOf[Year].year % 100
      val year2 = 2000 + this.year % 100
      if (year1 == year2)
        true
      else
        false
    }
  }

  case class Month(var month:String){

    override def hashCode(): Int = {
      this.month = this.month match {
        case "January" => "Jan"
        case "Janu" => "Jan"
        case "February" => "Feb"
        case "Febr" => "Feb"
        case _ => this.month
      }
      this.month.hashCode
    }

    override def equals(that: Any): Boolean ={
      val month1 = this.month match {
        case "January" => "Jan"
        case "Janu" => "Jan"
        case "February" => "Feb"
        case "Febr" => "Feb"
        case _ => this.month
      }
      val month2 = that.asInstanceOf[Month].month match {
        case "January" => "Jan"
        case "Janu" => "Jan"
        case "February" => "Feb"
        case "Febr" => "Feb"
        case _ => that.asInstanceOf[Month].month
      }
      if (month1.equals(month2))
        true
      else
        false
    }
  }

这是分组键的重要比较器，它仅使用单独的 col 比较器

  case class Key(var year:Year, var month:Month){

    override def hashCode(): Int ={
      this.year.hashCode() + this.month.hashCode()
    }

    override def equals(that: Any): Boolean ={
      if ( this.year.equals(that.asInstanceOf[Key].year) && this.month.equals(that.asInstanceOf[Key].month))
        true
      else
        false
    }
  }

  case class Record(year:Int,month:String,counter:Int)

  val df = spark.read.format("com.databricks.spark.csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("data.csv").as[Record]

  df.rdd.groupBy[Key](
      (record:Record)=>Key(Year(record.year), Month(record.month)))
      .map(x=> Record(x._1.year.year, x._1.month.month, x._2.toList.map(_.counter).sum))
      .toDS().show()

这使

+----+-----+-------+
|year|month|counter|
+----+-----+-------+
|2012|  Feb|    800|
|2013|  Feb|    500|
|2012|  Jan|    700|
+----+-----+-------+

for this input in data.csv

Year,Month,Counter
2012,February,400
2012,Jan,100
12,January,200
12,Janu,300
2012,Feb,400
13,Febr,500
2012,Jan,100

请注意，对于案例类“年”和“月”，还将值更新为标准值（否则无法预测它选择哪个值）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用我的相等比较器对 Spark DataFrame 进行 GroupBy？的相关文章

scala 中 'Array[Int]' 隐式转换为 'Int => Int' 的地方在哪里？

这是一个问题this https stackoverflow com questions 70000384 why val arr int int array1 2 3 is allowed in scala 现在我们已经证明了Array
对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时
Scala - Java = ? （或者 Clojure - Java = ？）

开发人员可以在不懂 Java 的情况下使用 Scala 吗开发人员可以在不懂 Java 的情况下使用 Clojure 吗注意例如我是一名 C 开发人员我在不了解任何 VB 的情况下使用 NET 当然 WF 4 0 使用 VB 进行
如何按值降序对哈希进行排序并在 ruby 中输出哈希？

output sort by k v v reverse 和钥匙 h a gt 1 c gt 3 b gt 2 d gt 4 gt a gt 1 c gt 3 b gt 2 d gt 4 Hash h sort 现在我有这两个但我试图按值
.java 和 .scala 类之间是否可能存在循环依赖？

假设我在 java 文件中定义了类 A 在 scala 文件中定义了类 B A 类使用 B 类 B 类使用 A 类如果我使用 java 编译器则会出现编译错误因为 B 类尚未编译如果我使用scala编译器A类将找不到有没有可以同时
Scala repl 抛出错误

当我打字时scala在终端上启动 repl 它会抛出此错误 scala gt init error error while loading AnnotatedElement class file usr lib jvm java 8 ora
Joda Time 类没有任何构造函数...为什么？我做错了什么？

显然 Eclipse 上的 Scala 试图让我相信DateTime Period DateMidnightJoda Time 中的许多其他类没有任何构造函数考虑到它们的文档显示了构造函数和许多方法这很奇怪我唯一可以访问的是静态方法
cordova 使用什么 js“引擎”？

Cordova 使用什么 JS 引擎它是特定于平台的还是跨所有平台的一个标准意味着 iOS 的 safari 和 Android 的 chrome 以及 Windows 可能的 IE 标准或者跨所有平台的 Cordova JS 引擎
无法在 SBT 中运行 Apache Spark 相关单元测试 - NoClassDefFoundError

我有一个简单的单元测试使用SparkContext 我可以在 IntelliJ Idea 中运行单元测试没有任何问题但是当尝试从 SBT shell 运行相同的测试时我收到以下错误 java lang NoClassDefFoun
字符串到数组，按第三个字/列排序

我有一个包含数字单词和换行符的字符串我将其拆分为一个数组如果我跑Array Sort lines 它将按第 1 列对数组进行数字排序 Number 我怎样才能按第 3 列的字母顺序对数组进行排序 Color 注意它们不是真正的列只
';'预期但发现“导入” - Scala 和 Spark

我正在尝试使用 Spark 和 Scala 来编译一个独立的应用程序我不知道为什么会收到此错误 topicModel scala 2 expected but import found error import org apache sp
Python：如何对数组 X 进行排序，但对 Y 进行相同的相对排序？

例如 X 5 6 2 3 1 Y 7 2 3 4 6 我对X进行排序 X 1 2 3 5 6 但我希望对 Y 应用相同的相对排序以便数字保持与以前相同的相对位置 Y 6 3 4 7 2 我希望这是有道理的通常你会做一个zip sort
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
以编程方式启动 Scala REPL？

我想从命令行启动 Scala Swing 应用程序然后在应用程序启动后放入 Scala REPL 中以用作控制界面理想情况下我还想预先绑定一些变量名称更好的是使用 REPL 的 Java2D 终端模拟器但我找不到任何合适的东西
在 Akka/Scala 中使用带有 future 的 mapTo

我最近开始使用 Akka Scala 编码遇到了以下问题通过范围内的隐式转换例如 implicit def convertTypeAtoTypeX a TypeA TypeX TypeX just some kinda convers
如何将 scala 列表转换为 javascript 数组？

有更简单的方法吗 document ready function var jsArray if scalaList null for id lt scalaList jsArray push id 很简单如下所示 import play
Spark日期格式问题

我在火花日期格式中观察到奇怪的行为实际上我需要转换日期yy to yyyy 日期转换后日期应为 20yy 我尝试过如下 2040年后失败 import org apache spark sql functions val df Seq
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
多个 scala 库导致 intellij 出错？

我正在使用 intellij 14 和 scala 2 11 6 使用 homebrew 安装并使用符号链接 ln s usr local Cellar scala 2 11 6 libexec src usr local Cellar s

随机推荐

RadGrid 底部的水平滚动空白

我正在使用 RadGrid 从数据库检索数据我的 RadGrid 中有更多列因此我需要显示 RadGrid 水平滚动以防止页面扩展但禁用垂直滚动因此网格的高度应扩展以始终显示网格中的所有行我得到了结果但 RadGrid 底部有空
使用 Chosen 链接选择

我正在尝试将选择与Chosen https github com harvesthq chosen and Chained http www appelsiini net projects chained但我不确定我是否正确实现了 chos
文件观察器创建事件

我正在使用 net 文件监视程序监视文件夹中的某些类型的文件 mbxml 我正在使用 filewatcher 创建的事件一旦创建的事件触发我必须将此文件移动到另一个文件夹这种方法的问题在于一旦文件复制开始就会触发创建的事件因此
存储用户时区的最佳实践 - TSQL/.Net

我需要跟踪用户的时区以便在他们指定的特定时间在他们自己的时区处理他们的信息或不处理显而易见的答案是将时区及其个人资料信息存储在用户数据库中有点棘手的是夏令时从下图中请注意大多数北部和南部地区使用夏令时偏移因此存储时区偏移
防止 PHP 脚本在运行时耗尽所有资源？

我有一个每日 cron 作业运行大约需要 5 分钟它会收集一些数据然后更新各种数据库它工作正常但问题是在这 5 分钟内该站点完全没有响应任何请求无论是 HTTP 还是其他请求看起来 cron 作业脚本在运行时会占用所有资源
使用基数排序实现 std::sort 重载是否合法？

对于适用的数据类型良好的基数排序可以大幅击败比较排序但是std sort通常作为 introsort 实现有没有理由不使用基数排序来实现std sort 基数排序不足以实现std sort因为std sort仅要求类型具有可比性但对
Flutter：固定高度容器内的可滚动列子项

我有一些容器里面一个ListView这将导致可滚动内容在一个页面内每个容器都有一个 Column 作为子容器在列中我有一个标题和一个分隔线然后是实际内容我希望其中一个容器是这样的 Title divider Scrollable c
Windows8：设备标识符

我目前正在尝试检索唯一的设备标识符这是我的代码 var token Windows System Profile HardwareIdentification getPackageSpecificToken null var reader
如何在新页面上显示 AJAX 响应

我正在phonegap中开发移动应用程序并使用intel xdk 我想在新的html页面上显示ajax响应我在google上搜索并找到了这个解决方案window open 但这种方法对我不起作用并显示空白白屏我想显示我的数据search
pyqt中GUI的模型视图实现错误

当我关闭应用程序时以下示例代码因此错误而崩溃 QBasicTimer start QBasicTimer can only be used with threads started with QThread 这是我的代码 import s
如何使用 Modelform 和 jquery 在 django 中获取相互依赖的下拉菜单？

我是 django 和 jquery 的新手我正在开发一个基于 django 的应用程序其中表单中有 3 个下拉列表 1 校园 2 学校 3 中心层次结构是校园有学校学校有中心我想将这些下拉菜单相互链接例如我有 3 个校区即
不同分区中的 COM+ 对象激活

我创建了一个 COM 域分区然后将其映射到 Windows 2008 服务器计算机并将 COM 应用程序导入其中我尝试使用以下 C 代码远程激活服务器上特定分区中的对象 partition guid Guid guidMyPartit
Spring Data JPA - 多对多查询

我有两个实体人物和电影 Entity public class Person some fields ManyToMany fetch FetchType LAZY mappedBy actors OrderBy id private
React Jest/Enzyme 测试：useHistory Hook 破坏测试

我对 React 还很陌生所以请原谅我的无知我有一个组件 const Login FunctionComponent gt const history useHistory extra logic that probably not n
Pandas groupby 自定义组

假设我有一个像这样的数据框 df pd DataFrame A 1 2 3 4 5 6 B a a b b c c print df A B 0 1 a 1 2 a 2 3 b 3 4 b 4 5 c 5 6 c 如何按列分组B使得这些组是
未使用 c# 在 Windows 中设置环境。我哪里出错了？

string path System Environment GetEnvironmentVariable Path Console WriteLine path if path Contains C ccstg if path EndsW
通过配置管理器从 AppSettings 中获取 StringCollection

我正在像这样访问程序集的配置 ExeConfigurationFileMap map new ExeConfigurationFileMap map ExeConfigFilename Assembly GetExecutingAssemb
带有自定义函数的 window.opener 在 Safari 中不起作用

我在使用 Safari 时遇到问题特别是没有从父窗口中找到 window opener 函数我调用的函数在 Chrome 和 Firefox 中运行良好有人有什么建议吗窗口 1 父窗口打开窗口 2 其中包含以下内容 window
pod install [!] 错误：由于解析错误，解析无法继续：

当尝试安装 pod 时显示此错误 pod install ERROR Parsing unable to continue due to parsing error contained in the file located at Use
如何使用我的相等比较器对 Spark DataFrame 进行 GroupBy？

我想在 DataFrame 上使用 GroupBy 运算符和我自己的相等比较器假设我想执行类似的操作 df groupBy Year Month sum Counter 在此数据框中 Year Month Counter 2012 Jan

如何使用我的相等比较器对 Spark DataFrame 进行 GroupBy？

如何使用我的相等比较器对 Spark DataFrame 进行 GroupBy？ 的相关文章

随机推荐

热门标签

如何使用我的相等比较器对 Spark DataFrame 进行 GroupBy？的相关文章