Spark 中的分区和分桶有什么区别？

2024-01-11

我尝试优化两个 Spark 数据帧之间的联接查询，我们称它们为 df1、df2（在公共列“SaleId”上联接）。 df1非常小（5M），所以我在spark集群的节点之间广播它。 df2 非常大（200M 行），所以我尝试通过“SaleId”对其进行存储/重新分区。

在Spark中，按列分区数据和按列存储数据有什么区别？

例如：

分割：

df2 = df2.repartition(10, "SaleId")

bucket:

df2.write.format('parquet').bucketBy(10, 'SaleId').mode("overwrite").saveAsTable('bucketed_table'))

在每一种技术之后，我只是将 df2 与 df1 结合起来。

我不知道哪一个是正确的技术。谢谢

重新分区用作 Action 中的一部分same火花工作。

bucketBy用于输出，写入。因此为了避免洗牌nextSpark App，通常作为 ETL 的一部分。想想 JOIN。看https://databricks-prod-cloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/4861715144695760/2994977456373837/5701837197372837/latest.html https://databricks-prod-cloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/4861715144695760/2994977456373837/5701837197372837/latest.html这是一本极好的简洁读物。 BucketBy表只能读取目前由 Spark 提供。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

bucket

datapartitioning

Spark 中的分区和分桶有什么区别？的相关文章

使用 python requests 模块时出现 HTTP 503 错误

我正在尝试发出 HTTP 请求但当前可以从 Firefox 浏览器访问的网站响应 503 错误代码本身非常简单在网上搜索一番后我添加了user Agent请求参数但也没有帮助有人能解释一下如何消除这个 503 错误吗顺便说一句
与区域指示符字符类匹配的 python 正则表达式

我在 Mac 上使用 python 2 7 10 表情符号中的标志由一对表示区域指示符号 https en wikipedia org wiki Regional Indicator Symbol 我想编写一个 python 正则表达式来在
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
处理 Python 行为测试框架中的异常

我一直在考虑从鼻子转向行为测试摩卡柴等已经宠坏了我到目前为止一切都很好但除了以下之外我似乎无法找出任何测试异常的方法 then It throws a KeyError exception def step impl contex
需要在python中找到print或printf的源代码[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在做一些我不能完全谈论的事情我
跟踪 pypi 依赖项 - 谁在使用我的包

无论如何是否可以通过 pip 或 PyPi 来识别哪些项目在 Pypi 上发布可能正在使用我的包也在 PyPi 上发布我想确定每个包的用户群以及可能尝试积极与他们互动预先感谢您的任何答案即使我想做的事情是不可能的这实际上是不
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
如何将张量流模型部署到azure ml工作台

我在用Azure ML Workbench执行二元分类到目前为止一切正常我有很好的准确性我想将模型部署为用于推理的 Web 服务我真的不知道从哪里开始 azure 提供了这个doc https learn microsoft co
Python beautifulsoup 仅限 1 级文本

我看过其他 beautifulsoup 得到相同级别类型的问题看来我的有点不同这是网站我正试图拿到右边那张桌子请注意表的第一行如何展开为该数据的详细细分我不想要那个数据我只想要最顶层的数据您还可以看到其他行也可以展开但在本例
从Python中的字典列表中查找特定值

我的字典列表中有以下数据 data I versicolor 0 Sepal Length 7 9 I setosa 0 I virginica 1 I versicolor 0 I setosa 1 I virginica 0 Sepal
Python，将函数的输出重定向到文件中

我正在尝试将函数的输出存储到Python中的文件中我想做的是这样的 def test print This is a Test file open Log a file write test file close 但是当我这样做时我收到
如何使用python在一个文件中写入多行

如果我知道要写多少行我就知道如何将多行写入一个文件但是当我想写多行时问题就出现了但是我不知道它们会是多少我正在开发一个应用程序它从网站上抓取并将结果的链接存储在文本文件中但是我们不知道它会回复多少行我的代码现在如下 r
如何通过 TLS 1.2 运行 django runserver

我正在本地 Mac OS X 机器上测试 Stripe 订单我正在实现这段代码 stripe api key settings STRIPE SECRET order stripe Order create currency usd em
使用特定颜色和抖动在箱形图上绘制数据点

我有一个plotly graph objects Box图我显示了箱形图中的所有点我需要根据数据的属性为标记着色如下所示我还想抖动这些点下面未显示 Using Box我可以绘制点并抖动它们但我不认为我可以给它们着色 fig a
如何使用原始 SQL 查询实现搜索功能

我正在创建一个由 CS50 的网络系列指导的应用程序这要求我仅使用原始 SQL 查询而不是 ORM 我正在尝试创建一个搜索功能用户可以在其中查找存储在数据库中的书籍列表我希望他们能够查询书籍表中的 ISBN 标题作者列目前它
Pandas 将多行列数据帧转换为单行多列数据帧

我的数据框如下 code df Car measurements Before After amb temp 30 268212 26 627491 engine temp 41 812730 39 254255 engine eff 15
实现 XGboost 自定义目标函数

我正在尝试使用 XGboost 实现自定义目标函数在 R 中但我也使用 python 所以有关 python 的任何反馈也很好我创建了一个返回梯度和粗麻布的函数它工作正常但是当我尝试运行 xgb train 时它不起作用然后我
如何应用一个函数 n 次？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案假设我有一个函数它接受一个参数并返回相同类型的结果 def increment x return x 1 如何制作高阶函数repeat可以
cv2.VideoWriter：请求一个元组作为 Size 参数，然后拒绝它

我正在使用 OpenCV 4 0 和 Python 3 7 创建延时视频构造 VideoWriter 对象时文档表示 Size 参数应该是一个元组当我给它一个元组时它拒绝它当我尝试用其他东西替换它时它不会接受它因为它说参数不是
使用随机放置的 NaN 创建示例 numpy 数组

出于测试目的我想创建一个M by Nnumpy 数组与c随机放置的 NaN import numpy as np M 10 N 5 c 15 A np random randn M N A mask np nan 我在创建时遇到问题mas

随机推荐

获取当前页面 url 并更改操作

我需要给出当前页面 url 并更改操作 url 之后我想在视图文件中回显该内容我想在视图文件中执行这些操作而不是控制器你有什么主意吗您可以通过以下方式获取当前页面的 url uri Zend Controller Front get
jquery.get() - 使用数据作为全局变量的问题

好吧我在网上读了很多资料但仍然没有找到解决我的问题的方法我需要使用 jquery 方法 get 检查文件的内容是 nok 还是空我尝试过的事情之一当然不起作用但清楚地表明了我的想法是 document ready functi
tabControl 中的关闭按钮

有没有人可以告诉我如何在 C 中使用 tabControl 在每个选项卡中添加关闭按钮我计划使用按钮 pic 来替换我的选项卡中的 x 谢谢无需派生类这里有一个简洁的片段 http www dotnetthoughts net imp
如何获取 AMP 网站上的查询字符串值？

有没有办法从 AMP HTML 网站检索查询字符串值并将它们存储在 cookie 中或在链接中使用它们 Example 用户点击广告www example com amp foo bar 打开 AMP 网站点击链接即可结帐不是 AMPw
HTML 客户端可移植文件生成 - 无需外部资源或服务器调用

我有以下情况我在公司内部服务器上设置了一系列 Cron 作业来运行各种旨在检查数据完整性的 PHP 脚本每个 PHP 脚本都会查询公司数据库将返回的查询数据格式化为包含一个或多个
如何在“expect script”中启动shell脚本？

在这个expect脚本中不会连接ssh服务器我只想在本地执行一个 sh 文件这可能吗例如 bin expect command xxx sh a command which starts a certain shell script
如何将 varchar 转换/转换为日期？

我有一个数据类型的日期列varchar mm dd yyyy 在 MySQL 5 1 中如何将其转换为 DATE 这是我到目前为止所拥有的 SELECT id date FROM tableName WHERE CAST SUBSTRIN
画布圆圈看起来模糊

这是对一些过时或不同问题的更新例如画布上的绘图和线条一样模糊 https stackoverflow com questions 8696631 canvas drawings like lines are blurry 如何修复 HT
如何防止我的应用程序出现多个实例

我发现了 Visual Basic 中的一个错误在实践中完成我的应用程序后单击正常启动的可执行文件但如果我再次单击可执行文件 exe 会莫名其妙地打开第二个窗口不必要地启动两个进程我想知道是否有一种方法也许在某些设置中仅当您
Google Sheet 插件 onInstall() 和 onOpen() 不起作用

我正在尝试为 Google Sheets 创建一个附加组件但运行时出现问题该附加组件使用以下命令在附加组件菜单中创建附加菜单onOpen Google Drive API 的功能但它不这样做onInstall 所以我被告知添加以下
Chrome 的词典自动完成扩展？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我尝试用谷歌搜索这个但我没有任何运气 chrome 有拼写自动完成扩展吗就像在 Eclipse 中输入时一样 System out pri 然后
WSDL 函数具有相同的名称。如何选择呢？

我将提供程序 wsdl 与 SoapClient 一起使用但是当我使用命令 getFunctions 时我得到如下内容 method1Rsp service method1Req parameters method2Rsp servic
Django 和动态生成的图像

我的 Django 应用程序中有一个视图它使用 PIL 自动创建图像将其存储在 Nginx 媒体服务器中并返回一个带有指向其 url 的 img 标签的 html 模板这工作正常但我注意到一个问题我每访问此视图 5 次其中就有
在主题内扩展 Magento 小部件布局

我使用 Magento 2 的内置目录产品列表小部件将特色产品小部件添加到网站的主页我希望做的是扩展在中找到的小部件的布局文件vendor magento module catolog widget etc widget xml这样我就可
对于简单到中等复杂度的新项目，我应该选择 MvvmLight 还是 MvvmCross？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我试图找到 MVVMlight 和 MVVMCrossthose 框架之间的主要区别我计划为 Android 和 Windows Phone
如何将树的结果传递或通过管道传输到Powershell？

如何通过文件数组找到tree 有人居住吗 posh gt posh gt tree Get Item Directory home nicholas powershell Mode LastWriteTime Length Name d 2
css 文件中字体的相对文件路径

我有一个在标题中引用的样式表除了以下特定代码之外所有 css 都可以在其中运行 font face font family icomoon src url fonts icomoon eot hsw0h3 src url fonts i
NSDateFormatter 具有自定义格式的相对日期格式

所以我的目的是列出如下所示的日期 Today August 28 Tomorrow August 29 Friday August 30 etc 问题是我似乎只能如此接近 When I setDoesRelativeDateFormatti
Google_Service_OAuth2 是 PHP 中的“未定义类型”

我正在尝试使用 Google Sign in 登录但它显示 Google Service OAuth2 为未定义类型我找到了这个堆栈帖子 Google Service Oauth2 未定义 https stackoverflow com
Spark 中的分区和分桶有什么区别？

我尝试优化两个 Spark 数据帧之间的联接查询我们称它们为 df1 df2 在公共列 SaleId 上联接 df1非常小 5M 所以我在spark集群的节点之间广播它 df2 非常大 200M 行所以我尝试通过 SaleId 对其进行

Spark 中的分区和分桶有什么区别？

Spark 中的分区和分桶有什么区别？ 的相关文章

随机推荐

热门标签

Spark 中的分区和分桶有什么区别？的相关文章