按分区“内”键进行高效分组

2024-05-03

我正在尝试调整一个流程来激发火花。基本上，该过程分析来自 JDBC 数据源的批量数据每条记录都有一个batchId，还有一个更高级别的groupId。

批次数量较大（提前未知）。
组数约为 100。
RAM 中可以容纳每个批次的记录数。

实际的分析代码并不重要，但它不适合reduceByKey或combineByKey的更具体的模型

我的想法是：

使用jdbcRdd读取数据，使用“group id”进行分区
使用group by batchId来准备数据
使用映射来应用业务逻辑。

瓶颈似乎是 groupByKey，根据我的理解，它将强制进行洗牌（将数据写入磁盘） - 即使每个批次都包含在单个分区中。

另一种可能的方法是使用batchId进行分区，但这会创建非常大量的分区 - 因此会产生大量的查询

有没有办法在分区内按键执行分组？还有其他可能的方法吗？

是的，您需要使用mapPartitions。您可以访问分区中所有记录的迭代器。您只需从那里编写 Scala 代码，就可以做您喜欢做的事情，包括构建批次 ID 到记录的映射。请注意，这必须适合内存，但如果重要的话，您可以随时减小分区大小。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

JDBC

apachespark

按分区“内”键进行高效分组的相关文章

HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
JDBC 时间戳和日期 GMT 问题

我有一个 JDBC 日期列如果我使用 getDate 则会得到 date 仅部分2009 年 10 月 2 日但如果我使用 getTimestamp 我会得到完整的 date 2009 年 10 月 2 日 13 56 78 890 这正
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
java -postgresql 最后插入的 id 插入时未获取

我有一个插入功能postgresql如下 CREATE OR REPLACE FUNCTION insert orderhead order id integer order dt text customer id integer rout
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current

随机推荐

为什么我无法更改 AU 多通道混音器输入范围中的元件/总线数量？

UPDATE 我正在更改我的代码以更简化的方式说明问题我还有一个小错误虽然没有阻止问题的发生但确实增加了一些混乱我正在 iOS 中实例化多通道混音器 AU kAudioUnitSubType MultiChannelMixer 并执
更新 SQL MS Access 2010

这已经让我绞尽脑汁了 4 个小时了我有一个名为 BreakSked 的表我使用此按钮来使用此 sql 更新表的休息结束时间 strSQL1 UPDATE BreakSked SET BreakSked EndTime Me Text41
ORA-01438: 值大于此列允许的指定精度

有时我们会从合作伙伴的数据库中收到以下错误 i ORA 01438 value larger than specified precision allows for this column i 完整响应如下所示
是的/Formik 异步验证与去抖

如何将去抖应用于下面的异步验证代码来自 Yup 的 github https github com jquense yup mixedtestname string message string function test functio
使用 Composer 安装 PHPUNIT

我有一个关于 Symfony 2 的项目我想在 Windows 7 上使用 PHPUNIT On githut phpunit is Composer Simply add a dependency on phpunit phpunit
如何去掉 LATEX 报告文档类中节编号中的零？

所以我正在使用 Latex 编写报告我使用的文档类是报告 documentclass a4paper 报告但由于某种原因节编号的编写方式是在其前面加上 0 例如它看起来像 0 1 Introduction 0 2 Theory 0
这个对象的内存会是什么样子？

我想知道这个类它的对象的内存布局是什么样的 class MyClass string myString int myInt public MyClass string str int i myString str myInt i MyC
std::atomic 是否会阻止非原子变量对原子变量进行重新排序

问题很简单问如果我有 settings N STNGS used by many threads std atomic
浮动的垂直对齐方式：左div的

我有大约 10 个宽度相等但高度不同的 div 我希望它们尽可能紧密地组合在一起当设置为向左浮动时它们不会垂直彼此对齐而是与上面行的底部对齐我在下面模拟了一个小例子想要去掉空白你有什么建议吗我仅限于使用这种格式因为内容是
Win7 runas命令：如何捕获运行命令的输出？

我正在尝试在 Windows 7 下使用 runas 命令停止然后重新启动服务 Win7 需要管理员权限才能执行此操作因此需要使用 runas 停止该服务工作正常但启动它却不行这是我用来停止服务的命令 runas user myD
C++ 中的静态虚函数

我有一个基类和一个派生类我想更改基函数同时保持它们静态因为它们应该作为静态传递给其他函数我怎样才能做到这一点 ATL 框架通过将基类设为模板然后让派生类将其类类型作为模板参数传递从而绕过了无虚拟静态的限制然后基类可以在需要时
对 Big O 表示法仍然有点困惑

所以我一直在尽力理解 Big O 表示法但仍然有一些事情我感到困惑所以我一直读到如果某件事是 O n 那么它usually指的是算法的最坏情况但它不一定要指最坏的情况这就是为什么我们可以说插入排序的最佳情况是 O n 但是我无法真
如何存储生成的格式化 C 字符串

这是一个新手问题为了创建格式化的 C 字符串我使用printf like int n 10 printf My number is i 10 但是怎么样 int n 10 char msg My number is i 10 prin
JPA 的 commit() 方法是否使实体分离？

我现在一直在搜索JPA实体生命周期但现在关于实体生命周期存在一些缺失的点我在 stackoverflow 的一篇帖子中找到了下图请记住该图已被投票根据此图当我们持久化实体时它就变成了托管实体好的没问题当我们提交时数据会
包装 C++ Qt 小部件以便在 Python 中与 PySide 一起使用

在 Python 中使用自定义 Qt 显示小部件包装自定义 C 库以便在基于 PySide 的 QApplication 中使用的最佳方法是什么 C 库是否需要特殊处理才能使用 SWIG 进行包装封装的 Qt 小部件能否与 PySide
nginx - 记录 SSL 握手失败

我正在运行启用了 SSL 的 nginx 服务器我的协议密码设置相当安全我已经在 ssllabs com 上检查过它们但是因为这是一个由我无法控制的 http 客户端调用的 Web 服务所以我担心兼容性重点是有没有办法在我的
将 size_t 变量添加到指针

我想向指针添加 size t 类型有些像这样 void function size t sizeA size t sizeB void pointer pointer malloc sizeA pointer pointer sizeB
Javascript 仅在 Chrome 中打开开发者工具后才起作用

我和这里有同样的问题为什么JavaScript只有在IE中打开开发者工具一次后才能工作 https stackoverflow com questions 7742781 why javascript only works after o
从 Git 中的分支父级中提取更改

如何从 Git 中的分支的父级中提取更改特别是在 github 配置的项目中例如假设我分叉了http github com originaluser originalproject http github com originalus
按分区“内”键进行高效分组

我正在尝试调整一个流程来激发火花基本上该过程分析来自 JDBC 数据源的批量数据每条记录都有一个batchId 还有一个更高级别的groupId 批次数量较大提前未知组数约为 100 RAM 中可以容纳每个批次的记录数实际的分析

按分区“内”键进行高效分组

按分区“内”键进行高效分组 的相关文章

随机推荐

热门标签

按分区“内”键进行高效分组的相关文章