Spark 连接速度呈指数级缓慢

2024-02-20

我正在尝试连接两个 Spark RDD。我有一个链接到类别的事务日志。我已将交易 RDD 格式化为以类别 id 作为键。

transactions_cat.take(3)
[(u'707', [u'86246', u'205', u'7', u'707', u'1078778070', u'12564', u'2012-03-02 00:00:00', u'12', u'OZ', u'1', u'7.59']), 
(u'6319', [u'86246', u'205', u'63', u'6319', u'107654575', u'17876', u'2012-03-02 00:00:00', u'64', u'OZ', u'1', u'1.59']), 
(u'9753', [u'86246', u'205', u'97', u'9753', u'1022027929', u'0', u'2012-03-02 00:00:00', u'1', u'CT', u'1', u'5.99'])]

categories.take(3)
[(u'2202', 0), (u'3203', 0), (u'1726', 0)]

事务日志约为 20 GB（3.5 亿行）。类别列表小于1KB。

当我跑步时

transactions_cat.join(categories).count()

Spark 开始变得非常慢。我有一个有 643 个任务的阶段。前 10 个任务大约需要 1 分钟。然后每个任务的速度越来越慢（第 60 个任务大约需要 15 分钟）。我不确定出了什么问题。

Please check theses screenshots to get a better idea. enter image description here

我正在使用 python shell 运行 Spark 1.1.0，有 4 个工作线程，总内存为 50 GB。仅统计 RDD 的交易相当快（30 分钟）

问题可能在于 Spark 没有注意到您有一个简单的连接问题。当两者之一RDD你加入的公司太小了，所以最好不要成为一个RDD。然后你可以推出你自己的实现散列连接 http://en.wikipedia.org/wiki/Hash_join，这实际上比听起来简单得多。基本上，您需要：

将您的类别列表从RDD using collect()——由此产生的沟通将很容易收回成本（或者，如果可能的话，不要让它成为一个RDD首先）
将其转换为一个哈希表，其中一个条目包含一个键的所有值（假设您的键不是唯一的）
对于您的大号中的每一对RDD，在哈希表中查找键并为列表中的每个值生成一对（如果未找到，则该特定对不会生成任何结果）

我有一个Scala 中的实现 https://github.com/spirom/LearningSpark/blob/master/src/main/scala/special/HashJoin.scala——随意询问有关翻译的问题，但这应该很容易。

另一个有趣的可能性是尝试使用星火SQL https://spark.apache.org/sql/。我很确定该项目的长期目标将包括自动为您执行此操作，但我不知道他们是否已经实现了这一目标。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 连接速度呈指数级缓慢的相关文章

on_delete=models.PROTECT 和 on_delete=models.CASCADE 在 Django 模型上有什么作用？

我对 Django 很熟悉但最近注意到有一个on delete models CASCADE and on delete models PROTECT模型的选项 on delete models CASCADE and on delete
Map 和 Set 的实际类（不是抽象类，也不是特征类）是什么？

在 Scala 中映射和集合文字可以通过以下方式创建 val m Map 1 gt a 以及引用的类型m字面意思都是Map Int String 然而 scala文档表明Map实际上是一个特征具有需要实现才能实例化的抽象成员 scala
错误：permission_manager_qt.cpp(82) 不支持的权限类型：13

我正在开发具有内置浏览器功能的 python 代码 PyQt 5 13 import sys from PyQt5 QtCore import from PyQt5 QtGui import from PyQt5 QtWidgets imp
matplotlib matshow 标签

我一个月前开始使用 matplotlib 所以我仍在学习我正在尝试用 matshow 制作热图我的代码如下 data numpy array a reshape 4 4 cax ax matshow data interpolation
更改 pandas 中多个日期时间列的时区信息

有没有一种简单的方法可以将数据帧中的所有时间戳列转换为本地任何时区不是逐列进行吗您可以有选择地将转换应用于所有日期时间列首先选择它们select dtypes https pandas pydata org pandas docs
获取列表中倒数第二个元素[重复]

这个问题在这里已经有答案了我可以通过以下方式获取列表的倒数第二个元素 gt gt gt lst a b c d e f gt gt gt print lst len lst 2 e 有没有比使用更好的方法print lst len lst
如何在Python和Selenium中通过标签名称或id获取元素[重复]

这个问题在这里已经有答案了我正在尝试使用 Python 和 Selenium 获取输入但它向我显示错误我该如何解决这个错误 inputElement send keys getStock getStocklFunc 0 Error i
在可编辑的QSqlQueryModel中实现setEditStrategy

这是后续这个问题 https stackoverflow com questions 49752388 editable qtableview of complex sql query 在那里我们创建了 QSqlQueryModel 的可
将 Pandas 列中的列表拆分为单独的列

这是我在 pandas 数据框中的特征列 Feature Cricket 82379 Kabaddi 255 Reality 4751 Cricket 15640 Wildlife 730 LiveTV 13 Football 4129
select() 可以在 Windows 下使用 Python 中的文件吗？

我正在尝试在 Windows 下运行以下 python 服务器 An echo server that uses select to handle multiple clients at a time Entering any line o
为什么实现 __iter__ 的对象不被识别为可迭代的？

假设您使用包装对象 class IterOrNotIter def init self self f open tmp toto txt def getattr self item try return self getattribute
全局变量是 None 而不是实例 - Python

我正在处理Python 中的全局变量代码应该可以正常工作但是有一个问题我必须使用全局变量作为类的实例Back 当我运行应用程序时它说 back is None 这应该不是真的因为第二行setup 功能 back Back Back
如何在scala中生成n-gram？

我正在尝试在 scala 中编写基于 n gram 的分离新闻算法如何为大文件生成 n gram 例如对于包含蜜蜂是蜜蜂中的蜜蜂的文件首先它必须选择一个随机的 n 元语法例如蜜蜂然后它必须寻找以 n 1 个单词开头的 n 元
如何在sphinx中启用数学？

我在用sphinx http sphinx pocoo org index html与pngmath http sphinx pocoo org ext math html module sphinx ext pngmath扩展来记录我的代
检查字符串是否只有字母和空格 - Python

试图让 python 返回一个字符串仅包含字母和空格 string input Enter a string if all x isalpha and x isspace for x in string print Only alphabe
TypeError：无法使用抽象方法实例化抽象类 <...>

这是我的代码 from abc import ABC from abc import abstractmethod class Mamifiero ABC docstring for Mamifiero def init self self
异步和协程与任务队列

我一直在阅读有关 python 3 中的 asyncio 模块的内容以及更广泛地了解 python 中的协程的内容但我不明白是什么让 asyncio 成为如此出色的工具我的感觉是你可以用协程做的所有事情通过使用基于多处理模块例如
在 Python 模块中使用 InstaLoader

我正在尝试使用 Instaloader 下载与主题标签相关的照片以进行图像分析我在GitHub存储库中找到了一个全面的方法如何在终端中执行它但是我需要将脚本集成到Python笔记本中这是脚本 instaloader no vide
来自 django 教程 was_published_recently.admin_order_field = 'pub_date'

From Django 教程 https www jetbrains com help pycharm 2017 1 creating and running your first django project html d28041e21
使用 Python 生成类似于 Messenger 或 kik 代码的圆形二维码

我可以使用 Python 生成圆形 QR 码就像 Facebook Messenger 或 kik 使用的那样吗我访问了很多网站但找不到这种类型的二维码默认情况下 Python 生成方形 QR 码但在我的项目中我想要圆形 QR 码

随机推荐

Delphi XE2 / Indy TIdTCPServer /“连接由对等方重置”

我在 Delphi XE2 中使用 Indy 使用 TIdTCPServer 发送 TCP 消息时遇到一个问题举个例子我有 2 台设备我将与设备 1 进行通信当我向设备 1 发送消息时消息发送正常但在不关闭程序的情况下当我向设
SQlite：如何找到互斥对？

这里有张桌子Likes有字段ID1 ID2其中包含互斥对例如 1689 1709 and 1709 1689 我想找到他们我尝试了串联但没有成功 select L ID1 L ID2 from Likes L where L ID1
Windows 10 可以从应用商店下载 Windows 8.0 应用程序吗？

我的 Windows 开发中心仪表板中有 Windows 8 0 软件包我想知道 Windows 10 用户是否可以通过某种方式从 Windows 应用商店查看并下载我的应用程序看来它不起作用怎么做我是否必须将我的项目重新定位到
UIWebView动态内容大小

我环顾四周没有看到任何快速相关的方法来做到这一点我试图让我的 UIWebViews 高度是动态的我有一个使用 loadHtmlString 函数加载数据的 UIWebView 问题是我从 sqlite 数据库加载数据每次加载不同长度
JSF 2 复合：actionSource 在 ui 中公开命令按钮：repeat

在我的复合组件中我有一个 ui repeat 其中除其他静态内容外还有一个命令按钮如下所示
全文搜索引擎比较——Lucene、Sphinx、Postgresql、MySQL？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在构建一个 Django 网站并且正在寻找一个搜索引擎几位候选人 Lucene Lucene
如何删除 SQLite 中的所有空表？

我想删除所有没有行的表如何删除 SQLite 中的所有空表 EDIT我需要在手机上执行此操作没有外壳在 Windows Mobile 手机上执行命令时无论表中是否有数据都可以删除表不知道任何数据库以其他方式运行所以这意味着
如何修复 pip 安装错误：“环境错误：[Errno 42] 非法字节序列”？

我正在尝试下载kivy模块使用pip 当我运行pip install command 我得到一个错误 Could not install packages due to an EnvironmentError Errno 42 Illega
我获取的资源不在项目的构建路径上[重复]

这个问题在这里已经有答案了当我尝试组织导入或尝试访问任何类属性时我得到了资源不在项目的构建路径上我正在使用 ant 构建我的项目我尝试在 javabuilpath gt 项目中配置我的构建路径但它没有向我显示我的 src 文件
如何跳转到 RichTextBox 中的特定行？

我正在寻找如何跳转到特定行的示例代码RichTextBox in WPF 我不知道如何做到这一点在 winForms 中它非常简单因为我可以自由设置 SelectionStart 和 Selection Length 这与 WPF 中不
当[:punct:]太多时[重复]

这个问题在这里已经有答案了我正在清理 R 中的文本字符串我想删除所有标点符号except撇号和连字符这意味着我无法使用 punct 字符类除非有一种说法 punct but not lt gt 并且反引号必须出来对于上述大多数情况
在 Visual Studio 2010 C/C++ 中，“重新扫描解决方案”操作有何作用？

我正在尝试编译第三方项目但遇到一些链接问题我在解决小问题时没有遇到太大麻烦但我注意到它们是项目或解决方案的上下文菜单中的重新扫描解决方案选项我点击了它但它似乎没有做任何事情它到底有什么作用此命令更新项目浏览数据库中的过时文
如何使用 sed 只删除三个空行？

如何使用 sed 只删除三个空行例如我的文本 txt line1 line2 line3 line4 使用 sed 我希望结果看起来像这样我的文本 txt line1 line2 line3 line4 我能够删除双空行 sed i
Azure SignalR 服务连接未处于活动状态

我从 2 4 0 更新了我们的信号包并添加了RunAzureSignalR代替RunSignalR 在 de 中添加了此代码Startup cs app Map signalr map gt var hubConfiguration new
LISP - 如何获得嵌套列表的平均长度？

我有个问题我需要从此列表中获取平均长度 1 2 3 4 5 6 7 8 9 应该是2 我不知道从哪里开始我试图得到 1 2 3 4 5 6 7 8 9 from 1 2 3 4 5 6 7 8 9 但我失败了因为 reduce app
Google 是否提供可用于获取手机位置的 API？

我的智能手机向 Google G 和 Android 设备管理器报告我的位置我想从网站程序中读取该位置来绘制我的位置我可以使用智能手机上的另一个应用程序进行额外的跟踪但这往往会消耗相当多的电池有两个应用程序进行跟踪由于纬度已被
由于 Windows 之前冻结，Outlook 宏被禁用

我们公司在每台安装 Outlook 的计算机上都使用 VBA 宏宏使用证书进行数字签名以确保安全该证书是通过以下方式生成的自认证程序应用当我们在 Outlook 中的 VBA 项目包含宏上添加数字签名时我们选择之前生成的证书并
确定 CALayer 旋转了多少

我有一个程序其中 CALayer 必须旋转到特定值如何确定 CALayer 的当前旋转我有一个旋转图层的 UIRotationGestureRecognizer void handleGesture UIGestureRecogniz
移动Android View并防止onDraw被一遍又一遍地调用

我正在延长View 类我所说的MyView 我添加了一些属性这些属性基本上说明了在对象上绘制的内容并处理它我每隔几毫秒移动一次此类的对象这效果很好我在用着this layout left top right bottom 移动
Spark 连接速度呈指数级缓慢

我正在尝试连接两个 Spark RDD 我有一个链接到类别的事务日志我已将交易 RDD 格式化为以类别 id 作为键 transactions cat take 3 u 707 u 86246 u 205 u 7 u 707 u 1078

Spark 连接速度呈指数级缓慢

Spark 连接速度呈指数级缓慢 的相关文章

随机推荐

热门标签

Spark 连接速度呈指数级缓慢的相关文章