以字节数组为键的ReduceByKey

2023-12-08

我想使用 RDD 对Tuple2<byte[], obj>, but byte[]相同内容的内容由于参考值不同而被视为不同的值。

我没有看到任何可以传递自定义比较器的内容。我可以转换byte[] into a String具有明确的字符集，但我想知道是否有更有效的方法。

自定义比较器是不够的，因为 Spark 使用hashCode用于组织分区中的键的对象的数量。（至少 HashPartitioner 会做到这一点，您可以提供一个可以处理数组的自定义分区器）

包装数组以提供正确的equals and hashCode应该解决这个问题。一个轻量级的包装器应该可以解决这个问题：

class SerByteArr(val bytes: Array[Byte]) extends Serializable {
    override val hashCode = bytes.deep.hashCode
    override def equals(obj:Any) = obj.isInstanceOf[SerByteArr] && obj.asInstanceOf[SerByteArr].bytes.deep == this.bytes.deep
}

快速测试：

import scala.util.Random
val data = (1 to 100000).map(_ => Random.nextInt(100).toString.getBytes("UTF-8"))
val rdd = sparkContext.parallelize(data)
val byKey = rdd.keyBy(identity)
// this won't work b/c the partitioner does not support arrays as keys
val grouped = byKey.groupByKey
// org.apache.spark.SparkException: Default partitioner cannot partition array keys.

// let's use the wrapper instead   

val keyable = rdd.map(elem =>  new SerByteArr(elem))
val bySerKey = keyable.keyBy(identity)
val grouped = bySerKey.groupByKey
grouped.count
// res14: Long = 100

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

RDD

以字节数组为键的ReduceByKey 的相关文章

使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
如何使用 SparkR 1.6.0 写入 JDBC 源？

使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user
Spark 1.3.1 上的 Apache Phoenix（4.3.1 和 4.4.0-HBase-0.98）ClassNotFoundException

我正在尝试通过 Spark 连接到 Phoenix 并且在通过 JDBC 驱动程序打开连接时不断收到以下异常为简洁起见下面是完整的堆栈跟踪 Caused by java lang ClassNotFoundException org a
在 IntelliJ 中运行 Spark 字数统计

我花了几个小时浏览 You Tube 视频和教程试图了解如何在 Scala 中运行 Spark 字数统计程序并将其转换为 jar 文件我现在完全糊涂了我运行了 Hello World 并且了解了如何在 Apache spark sp
行类型 Spark 数据集的编码器

我想写一个编码器Row https spark apache org docs 2 0 0 api java index html org apache spark sql Row html输入 DataSet 用于我正在执行的地图操作本
Spark 执行器登录 YARN

我正在 Cloudera 集群上以 YARN 客户端模式启动分布式 Spark 应用程序一段时间后我在 Cloudera Manager 上看到一些错误一些执行者会断开连接并且这种情况会系统性地发生我想调试该问题但 YARN 未
Spark中如何获取map任务的ID？

Spark中有没有办法获取map任务的ID 例如如果每个映射任务都调用用户定义的函数我可以从该用户定义的函数中获取该映射任务的 ID 吗我不确定您所说的地图任务 ID 是什么意思但您可以使用以下方式访问任务信息TaskContext
如何在SparkR中进行map和reduce

如何使用 SparkR 进行映射和归约操作我能找到的只是有关 SQL 查询的内容有没有办法使用 SQL 进行映射和减少 See 写入从 SparkR map 返回的 R 数据帧 https stackoverflow com quest
Spark-submit，客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS]；

我使用 kerberos 设置了 hadoop 集群但是当我运行 Spark Submit 时它抛出异常 17 10 19 08 46 53 WARN scheduler TaskSetManager Lost task 0 0 in
使用空/空字段值创建新的数据框

我正在从现有数据帧创建一个新数据帧但需要在这个新 DF 中添加新列下面代码中的 field1 我该怎么做工作示例代码示例将不胜感激 val edwDf omniDataFrame withColumn field1 callUDF v
如何使用 PySpark 有效地将这么多 csv 文件（大约 130,000 个）合并到一个大型数据集中？

我之前发布了这个问题并得到了一些使用 PySpark 的建议如何有效地将这一大数据集合并到一个大数据框中 https stackoverflow com questions 60259271 how can i merge this la
为什么我必须明确告诉 Spark 要缓存什么？

在 Spark 中每次我们对 RDD 执行任何操作时都会重新计算 RDD 因此如果我们知道 RDD 将被重用我们应该显式地缓存 RDD 比方说 Spark 决定延迟缓存所有 RDD 并使用 LRU 自动将最相关的 RDD 保留在内存
R和spark：比较不同地理点之间的距离

我正在处理纽约市出租车数据集该数据集的列包括日期时间接送纬度经度下车纬度经度等现在我想对纬度经度进行反向地理编码以找到行政区社区我有两个数据框 1 第一个数据框包含我想要用最近的纽约社区名称进行分类的所有点 2 第二个数据
如何抑制 EMR 上运行的 Spark-sql 的 INFO 消息？

我正在 EMR 上运行 Spark 如中所述在 Amazon Elastic MapReduce 上运行 Spark 和 Spark SQL https aws amazon com articles 4926593393724923 本教
用于在 pyspark 中处理大数的数据类型

我将 Spark 与 python 一起使用上传 csv 文件后我需要解析 csv 文件中的一列其中包含 22 位数字长的数字为了解析我使用的列长类型我使用 map 函数来定义列以下是我在 pyspark 中的命令 gt gt
为什么 Apache Spark 会读取嵌套结构中不必要的 Parquet 列？

我的团队正在构建一个 ETL 流程以使用 Spark 将原始分隔文本文件加载到基于 Parquet 的数据湖中 Parquet 列存储的承诺之一是查询将仅读取必要的列条带但我们看到意外的列被读取以获取嵌套模式结构为了进行演示下
如何区分spark中的操作是转换还是动作？

最近在学习spark 对transformation和action操作很困惑我阅读了spark文档和一些关于spark的书籍我知道action会导致spark作业在集群中执行而transformation则不会但是spark的api
我需要比较两个数据帧以进行类型验证并发送非零值作为输出

我正在比较两个数据帧基本上这些是两个不同数据源的模式一个来自 hive 另一个来自 SAS9 2 我需要验证两个数据源的结构因此我将模式转换为两个数据帧它们是 SAS 架构将采用以下格式 scala gt metadata sho
Spark错误：无效的日志目录/app/spark/spark-1.6.1-bin-hadoop2.6/work/app-20161018015113-0000/3/

我的 Spark 应用程序因上述错误而失败实际上我的 Spark 程序正在将日志写入该目录 stderr 和 stdout 都被写入所有工作人员我的程序以前运行良好但昨天我将 fodler 更改为指向 SPARK WORKER DIR
Java Spark DataFrameReader java.lang.NegativeArraySizeException

学习 Spark for java 并尝试阅读 csv文件为DataFrame使用DataFrameReader 甚至不能得到一个超级简单的 csv文件工作因为我不断收到异常java lang NegativeArraySizeExcep

随机推荐

应用程序上下文变量的值因应用程序错误而丢失

我注意到当我的应用程序遇到错误时应用程序上下文变量的值也会重新初始化为其原始值而不是更新后的值根据我的理解发生这种情况是因为应用程序被重新创建了当应用程序发生错误时如何保存和恢复应用程序上下文变量的值如果您能更详细地解释我的
D3：如何通过更改数据文件源来动态刷新图表？

如何通过更改文件 d3 访问来按需更新数据例如只需单击一下它就会从新的数据文件中读取数据并像 AJAX 一样向图表添加更多节点我使用 d3 tsv 读取 data tsv 这是许多相同格式的文件之一我做了一个简单的图表来说明我的
Matlab中无放回加权采样

我有人口p向量中的索引和相应权重w 我想要得到k该人群的样本无需更换其中选择与随机权重成比例我知道randsample可以用于通过替换进行选择 J randsample p k true w 但是当我用参数调用它时false代替true
优化 JavaFX 中的内存泄漏

我写了一段代码让字母在我写的时候出现并飞翔问题是它消耗大量内存我已经对其进行了一些优化分享path对象并在侦听器中更新其参数每次打印新字母时调用 gc 但它仍然使用大量内存那么关于如何减少其内存利用率有什么想法吗提前致谢 pa
Web浏览器控制文件下载对话框绕过

实际上我想使用 Webbrowser Control 从网站下载文件但由于文件下载对话框我无法自动执行下载过程对于绕过它我想使用 Web 客户端并且需要将所有会话和 Cookie 从 Web 浏览器控件传输到 Web 客户端或者
获取“队列对象只能通过继承在进程之间共享”，但我没有使用队列

我正在尝试使用 ProcessPoolExecutor 但收到错误队列对象只能通过继承在进程之间共享但我没有使用队列至少没有明确使用我找不到任何东西可以解释我做错了什么这是一些演示该问题的代码不是我的实际代码 from conc
无法使用 Maven 执行 Junit5 测试 [重复]

这个问题在这里已经有答案了 Maven执行 mvn clean test 我正在尝试使用junit5对于我的一个 Maven 项目但无法在test阶段使用
不规则间隔的热图

我想根据下面的矩阵和边界创建一个热图然后绘制数据 x1 x2 以查看属于各个类别的点我能做的最好的事情就是使用seaborn 但是由于两个轴上的类间隔不均匀因此很难读取两个轴上对应于点的值有没有办法使用seaborn或任何其他库
从两个或多个现有表创建新表 (MySQL)

问题是否可以在 mySQL 中从两个或多个现有表创建一个表 Details 我可以创建一个像这样的表吗 CREATE TABLE IF NOT EXISTS USERNAME AGE INT NOT NULL CREATE TABLE I
在 C# 中编译邮件的 HTML 正文

我使用以下代码供用户向我的电子邮件发送报价 using System Net Mail MailMessage mail new MailMessage mail From new MailAddress Email Text mail T
在无头模式下使用 Firefox 68.9.0esr 以及 GeckoDriver Selenium 和 Python 时出现 504 网关超时错误

我用硒制作了一个容器图像我用了一个ubi image来自 RedHat 作为基础镜像我安装了以下版本的 geckodriver 和 Mozilla Firefox 壁虎驱动程序 0 26 0 e9783a644016 2019 10 1
在 Windows 8.1 中安装 virtualenvwrapper-powershell，导入模块失败

我正在尝试遵循指南here 我被困在Import Module virtualenvwrapper PowerShell 不断给我错误 import module 指定的模块 virtualenvwrapper 不是已加载因为在任何模块
未找到 AWS ec2 winreg

我正在尝试从亚马逊 EC2 大型实例运行 python 应用程序然而它在 scipy 中抱怨因为它找不到名为 winreg 的东西我不知道如何重新配置它所以它不再是问题 python2 app py Running on htt
Chrome 扩展如何在页面底部添加浮动栏？

我正在创建一个需要注入浮动元素的 chrome 扩展即position fixed 在页面底部我的要求是我需要从内容脚本访问其中的元素这是因为我将事件附加到按钮以便用户可以从浮动栏在当前选项卡上执行操作我希望它的样式保持独立于当
显示斯坦福 NER 置信度分数

我使用斯坦福 NER CRFClassifier 从新闻文章中提取命名实体为了实现主动学习我想知道每个标记实体的类的置信度分数是多少显示示例地点 0 20 人员 0 10 组织 0 60 其他 0 10 这是我从文本中提取命名实体的
启动 ASP.NET 表单身份验证

我开始学习 ASP NET 表单身份验证并且正在寻找一篇好文章来帮助我入门我之前听说 ASP NET 表单身份验证使用大量数据库表前面带有aspnet 但是我发现的任何例子都没有显示这一点例如我认为有一个aspnet users t
创建数据框时如何解决 scala.MatchError

我有一个具有复杂结构行的文本文件我正在使用客户转换器它将给定的字符串行转换为 Pojo 类 countryInfo 转换后我正在构建 DF POJO 类有一个字段它是自定义类型列表 GlobalizedPlayTimeWindo
调用unique_ptr子类继承的模板构造函数

这不是关于模板构造函数甚至调用继承的模板构造函数的问题的重复它具体是关于在 unique ptr 模板的类实例的子类中调用继承的构造函数问题为了使代码更容易理解我使用using在这个例子中 using B std unique p
使用XSLT输出多个文件

我正在尝试获取一个我发现的使用 XSLT 2 0 输出多个文件的示例将 Saxon B 9 7 0 1 与 Java 1 6 一起使用时出现以下错误 C Documents and Settings Administrator Desk
以字节数组为键的ReduceByKey

我想使用 RDD 对Tuple2

以字节数组为键的ReduceByKey

以字节数组为键的ReduceByKey 的相关文章

随机推荐

热门标签