使用Scala对象作为key的reduceByKey

2023-12-28

我正在将 Spark 与 scala 一起使用，并且我有一个充满 tuple2 的 RDD，其中包含一个复杂对象作为键和一个 double 。目的是如果对象相同，则加倍（频率）。

为此，我将我的对象定义如下：

    case class SimpleCoocurrence(word:String, word_pos:String, cooc:String, cooc_pos:String, distance:Double) extends Ordered[SimpleCoocurrence]{
      def compare(that: SimpleCoocurrence) = {
        if(this.word.equals(that.word)&&this.word_pos.equals(that.word_pos)
           &&this.cooc.equals(that.cooc)&&this.cooc_pos.equals(that.cooc_pos))
          0
        else
          this.toString.compareTo(that.toString)
      }
    }

现在我尝试像这样使用reduceBykey：

val coocRDD = sc.parallelize(coocList)
println(coocRDD.count)
coocRDD.map(tup=>tup).reduceByKey(_+_)
println(coocRDD.count)

但是，结果表明，处理reducebykey之前和之后的RDD包含完全相同数量的元素。

如何使用 tuple2[SimpleCoocurrence,Double] 执行 reduceByKey ？实现 Ordered 特征是告诉 Spark 如何比较我的对象的好方法吗？我应该只使用 tuple2[String,Double] 吗？

thx,

reduceByKey不使用排序，但是hashCode and equals确定哪些键是相同的。特别是，hashPartitioner将按哈希对键进行分组，以便具有相同 hashCode 的键落在同一分区上，从而可以在每个分区上进一步减少。

案例类有一个默认实现equals and hashCode。可能使用的测试数据具有不同的字段值distance:Double使每个实例成为唯一的对象。使用它作为键将导致仅相同的对象被减少为一个。

解决这个问题的一种方法是为您的case class以及对象的添加方法，如下所示：

case class SimpleCoocurrence(word:String, word_pos:String, cooc:String, cooc_pos:String, distance:Double) extends Serializable {
   val key = word + word_pos + cooc + cooc_pos
}
object SimpleCoocurrence {
   val add: (SimpleCoocurrence, SimpleCoocurrence) => SimpleCoocurrence = ???
}

val coocList:List[SimpleCoocurrence] = ???
val coocRDD = sc.parallelize(coocList)
val coocByKey = coocRDD.keyBy(_.key)
val addedCooc = coocByKey.reduceByKey(SimpleCoocurrence.add)

(*) 作为指导示例提供的代码 - 未编译或测试。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用Scala对象作为key的reduceByKey 的相关文章

pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
Play框架：单属性案例类的JSON读取

我正在尝试为包含单个属性的案例类创建隐式 JSON Reads 但收到错误 Reads Nothing 不符合预期类型这是代码 import play api libs functional syntax import play api
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
andThen 类型不匹配的 Scala 链接函数

我有一堆函数可以清理文本并将它们分成单词最小的例子 val txt Mary had a little nlamb val stopwords Seq a def clean text String String text replace
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
Java 8 Stream，获取头部和尾部

Java 8 引入了Stream http download java net jdk8 docs api java util stream Stream html类似于 Scala 的类Stream http www scala lang
解决“Show”类型类实例的隐式问题

我正在努力使Gender实施Show类型类 scala gt trait Gender extends Show Gender defined trait Gender scala gt case object Male extends G
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
Akka-Streams 收集数据（Source -> Flow -> Flow (collect) -> Sink）

我对 Scala 和 Akka 完全陌生我有一个简单的 RunnableFlow Source gt Flow do some transformation gt Sink runForeach 现在我想要这样的东西 Source gt
应对失败的“未来”

给出以下两种方法 def f Future Int Future 10 def g Future Int Future 5 我想把它们写成 scala gt import scala concurrent Future import sca
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别
如何在 scala repl 和 sbt 控制台中关闭/打开 typer 阶段

是否可以在不退出当前会话的情况下切换阶段我尝试进入 power 模式但它仍然不打印类型在SBT中只需添加以下设置 set scalacOptions in Compile console Xprint typer 在 REPL 中你可
如何通过 javascript 和 ajax 调用 Scala 中的方法？

我不知道我的标题是否有点误导但这是我真正需要帮助的我正在获取这个网址 get fb login fbEmail function data console log data 这是我的路线 GET fb login email prese
Scala 使用的 Redis 客户端库建议

我正在计划使用 Scala 中的 Redis 实例进行一些工作并正在寻找有关使用哪些客户端库的建议理想情况下如果存在一个好的库我希望有一个为 Scala 而不是 Java 设计的库但如果现在这是更好的方法那么仅使用 Java 客
Akka-Http 2.4.9 抛出 java.lang.NoClassDefFoundError: akka/actor/ActorRefFactory 异常

我正在尝试使用 Akka http 构建一个简单的 Web 服务我遵循了这个指南 http doc akka io docs akka 2 4 9 scala http low level server side api html htt
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
Kafka 分区键无法正常工作

我正在努力解决如何正确使用分区键机制的问题我的逻辑是设置分区号为3 然后创建三个分区键为 0 1 2 然后使用分区键创建三个KeyedMessage 例如 KeyedMessage 主题 0 消息 KeyedMessage 主题 1 消息
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst

随机推荐

检测 iFrame 中的重定向

我可能在这里问了错误的问题所以我将提供一些关于我想要完成的任务的细节我使用第三方网络应用程序来跟踪支持票证他们提供了我的用户填写的表单的代码并将其提交到他们的域我想在两个不同的域上使用此表单但不幸的是第三方使用单个硬编码的重定向
如何解决 rmarkdown 中的此错误消息？

我刚刚开始探索rmarkdown包裹我不使用Rstudio 我使用默认的 R 环境我所做的如下我创建了一个新的 R 文档开始输入几行rmarkdown格式保存文件Rmd扩大我将文件保存在工作目录中我安装了pandoc使用 pk
我需要在单击后退按钮时最小化 Android 应用程序

我需要在按下后退按钮时最小化应用程序我使用以下代码来捕获硬件后退按钮单击事件帮助我最小化按后退键的代码 Override public boolean onKeyDown int keyCode keyEvent event switc
数据实体 > 领域对象 > ViewModel，每个都有截然不同的数据结构

这是关于数据实体域对象和 ViewModel 之间映射的一般问题我可能问得不对但希望我能理解它下面是一个简化的问题假设我有一个实体框架模型它 1 1 映射到我的数据库表但我的域对象可能不相同并且我的 ViewModel 又完
与“LPCWSTR”类型的参数不兼容

include stdafx h include
在程序的某些部分显式禁用 MySQL 查询缓存

在 Django 项目中一些 cronjob 程序主要用于管理或分析目的例如生成网站使用统计数据轮换用户活动日志等我们可能不希望MySQL在这些程序中缓存查询以节省内存使用并提高查询缓存效率是否可以在这些程序中显式关闭 MySQL
为什么我的 HTML 文本框在移动设备和桌面上的显示效果不一样？

由于某种原因我的 HTML 文本框没有居中当我在桌面和移动设备上查看它们时它们的显示方式有所不同一个被拉伸而另一个未居中我可以让我的 HTML 代码在中显示相同吗两种情况 div div h1 style text align
onload 和 Jquery read()。它们适用于任何 DOM 吗？比如table或者div？

我需要使用 javascript 脚本将动态内容放在 div 上该 div 位于页面顶部因此它会先加载然后再加载其下方的其他内容而且下面真的有很多东西因此当我将脚本放在ready 或onload上时 div将空2 3秒同时显示
使用 jQuery 删除表格行

以下是我的代码 Script document ready function click click function table append tr td nbsp td tr remove click function table re
在同一个 Docker Hub 存储库中进行链式自动构建

由于构建时间限制 https stackoverflow com a 34588866 865719在 Docker Hub 上我决定拆分Dockerfile将耗时的自动构建分为三个文件每一个子构建都会在 Docker Hub 的时
为什么 sem_open 与 fork() 一起使用而不使用共享内存？

即使信号量不在共享内存中该程序也可以工作我测试过请注意我如何在 fork 之前创建一次变量另一方面用创建的信号量sem init 需要在共享内存中才能工作但这仍然是一个sem t结构那么为什么它不需要共享内存呢的内容是sem
如何删除字符串中除点和逗号之外的所有特殊字符

我有一个包含许多特殊字符和文本的句子我想删除除点和逗号之外的所有特殊字符例如这就是 u HI Jhon how are you 我正在尝试生成以下字符串 HI Jhon how are you 我试过这个 u HI Jhon how
Swagger/OpenAPI 多重安全要求和副作用？

我正在为 Swagger OpenAPI 实现一个代码生成器但是我在实现安全要求时遇到了问题这些要求被定义为对象列表列表成员是替代或对象成员是与例如 a b c d 这应该导致 a b 光盘然而在实现这一点时我遇到了实际
.Net 中是否有与 java.util.concurrent.Executor 等效的程序？

拥有一组长期运行的离散任务从文本文件中解析数十数千行合并为对象操作和持久化如果我在 Java 中实现这一点我想我可能会为文件中的每一行或每 X 行即块的任务添加一个新任务到执行器对于我正在使用的 Net 我不太确定我怀疑
Xcode iOS 框架图标含义

当使用 Xcode 7 3 将 iOS 框架添加到 iOS 项目时常规 gt 链接的框架和库 Xcode 使用两个不同的图标来表示 iOS 框架一个看起来像一个白色立方体另一个看起来像一个工具箱这些图标分别代表什么意思工具箱图标代
信号 fft 的幅度错误

我正在尝试计算使用 Python 进行快速傅立叶变换我正在使用函数 fft fft 并将其应用于简单的正弦信号这是我的代码 import numpy as np import matplotlib pyplot as plt frame
在分块矩阵中查找一个值

我写了一个稀疏矩阵类基于Block压缩存储我写了几乎所有的方法但我不知道如何写方法findValue i j 给出原始矩阵的 2 个索引存储由四个向量组成 ba 按从上到下左右顺序存储矩阵的非零块几乎有一个元素不为零的矩形块 an
如何让 mod_rewrite 只匹配一次规则

我有以下网址 http localhost http mygarble com foundationsofwebprogramming 86 http localhost http mygarble com foundationsofweb
Excel公式最小值的位置

编辑可能是一个简单的问题基本上我有三个值比如说不同单元格中的 9 4 和 7 不在表中我想找到订单中的最小值然后返回其相对位置例如 9 4 7 将返回 2 因为 4 是最小值并且位于第二位正确的Excel公式是什么谢谢解决
使用Scala对象作为key的reduceByKey

我正在将 Spark 与 scala 一起使用并且我有一个充满 tuple2 的 RDD 其中包含一个复杂对象作为键和一个 double 目的是如果对象相同则加倍频率为此我将我的对象定义如下 case class SimpleCo

使用Scala对象作为key的reduceByKey

使用Scala对象作为key的reduceByKey 的相关文章

随机推荐

热门标签