repartition() 不影响 RDD 分区大小

2024-03-21

我正在尝试使用 repartition() 方法更改 RDD 的分区大小。 RDD 上的方法调用成功，但是当我使用 RDD 的 partition.size 属性显式检查分区大小时，我得到了与最初具有相同数量的分区：-

scala> rdd.partitions.size
res56: Int = 50

scala> rdd.repartition(10)
res57: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[19] at repartition at <console>:27

在这个阶段，我执行一些像 rdd.take(1) 这样的操作只是为了强制评估，以防万一这很重要。然后我再次检查分区大小：-

scala> rdd.partitions.size
res58: Int = 50

正如人们所看到的，它没有改变。有人可以回答为什么吗？

首先，您运行一个操作确实很重要repartition确实是懒。第二，repartition返回一个新的RDD分区已更改，因此您必须使用返回的RDD否则您仍在使用旧的分区。最后，在缩小分区时，您应该使用coalesce，因为这不会重新排列数据。相反，它将保留节点数量的数据并拉入剩余的孤立节点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

RDD

repartition() 不影响 RDD 分区大小的相关文章

pyspark中的稀疏向量RDD

我一直在使用 mllib 的功能通过 Python Pyspark 实现此处描述的 TF IDF 方法 https spark apache org docs 1 3 0 mllib feature extraction html http
Twitter API 与 Scala 2.12 一起使用

我正在使用 Scala 2 12 使用 SBT 构建构建 Spark 3 0 0 流应用程序鉴于所有用于执行此操作的库均适用于 Scala EDIT 我尝试使用库构建时得到的示例输出 object twitter is not a me
如何使用 Spark 执行插入覆盖？

我正在尝试将我们的 ETL Hive 脚本之一转换为 Spark 其中 Hive ETL 脚本维护一个表其中需要在每晚新同步之前删除部分数据 Hive ETL 使用插入覆盖的方式将主表删除超过 3 天的数据基本上创建一个临时表其中的数
在 Spark-submit 上的 _find_and_load 中获取文件“”，第 991 行

我目前使用的是Python 3 7 9 spark spark 2 4 6 bin hadoop2 6 在这个项目 venv 中我的设置为 kafka python 2 0 2 pip 21 2 4 py4j 0 10 9 pyspark
Delta Lake 独立于 Apache Spark？

我一直在探索数据湖屋概念和 Delta Lake 它的一些功能看起来真的很有趣就在项目主页上https delta io https delta io 有一个图表显示 Delta Lake 运行在您现有的数据湖上但没有提及 Spar
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q
如何使用 Scala 在 Spark 中漂亮地打印 JSON 数据帧？

我有一个数据帧我想将其作为有效的 json 写入 json 文件我当前的代码如下所示 val df DataFrame myFun df toJSON saveAsTextFile myFile json 输出的格式为如何将文件内容组
如何将多行标签 xml 文件转换为 dataframe

我有一个包含多个行标签的 xml 文件我需要将此 xml 转换为正确的数据帧我使用了spark xml 它只处理单行标签 xml数据如下
Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
列对象不可调用 Spark

我尝试安装 Spark 并运行教程中给出的命令但出现以下错误 https spark apache org docs latest quick start html https spark apache org docs latest q
无法在 SBT 中运行 Apache Spark 相关单元测试 - NoClassDefFoundError

我有一个简单的单元测试使用SparkContext 我可以在 IntelliJ Idea 中运行单元测试没有任何问题但是当尝试从 SBT shell 运行相同的测试时我收到以下错误 java lang NoClassDefFoun
如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在

随机推荐

这个奇怪的 JavaScript 代码是如何工作的？神秘结肠

我正在关注 Angular 2 官方教程然后我看到了这段代码 const HEROES Hero 我不明白冒号怎么会出现在 HEROES 之后我找不到任何关于 JavaScript 和 TypeScript 中冒号用法的文档我认为冒号
ValueType 的动态表达式生成问题

我构建了一个框架允许根据主排序列对表中的报告数据进行级联排序它在大多数情况下都有效除了一种特定但重要的情况当字段的属性是值类型时我收到以下错误消息 System ArgumentException System Int32 类型的
在PreparedStatement中使用setDate

为了使我们的代码更加标准我们被要求更改所有将 SQL 变量硬编码为准备好的语句的位置并改为绑定变量然而我面临着一个问题setDate 这是代码 DateFormat dateFormatYMD new SimpleDateFormat
如何通过 API 使用 PHP 获取 Instagram 照片？

过去两天我试图通过原始 PHP 显示我的 Instagram 个人资料中的照片但我收到这些错误 Notice Trying to get property of non object in E xampp7 htdocs instagr
在依赖接口上强制执行参数类型？

这些接口非常简单 public interface Thawed
Android 版 Google+ 登录 - Google 权限活动结果代码

我在使用 Android 版 Google Sign 时发现了一个小问题在搜索网络后很明显我大声问我的问题看看是否有人注意到同样的问题我正在为我的应用程序启用服务器端 API 访问如上所述here https developer
如何在 LESS 中使用 if 语句

我正在寻找某种 if 语句来控制background color不同的div元素我已经尝试过以下内容但无法编译 debug true header background color yellow when debug true titl
我不理解非确定性图灵机的概念[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我不明白这个概念非确定性图灵机我想我理解这个词非确定性算法非确定性算法是一种可以在不同的情况下表现出不同行为的算法运行而不是确定性算法所以该
如何让绝对定位的 div 扩展到其相对定位的父级之外，该父级具有溢出：自动？

我有一个相对定位的 div 它有overflow auto放在里面我有一个 div 它充当一种下拉菜单我希望下拉 div 在需要时扩展到父级之外但它正在被裁剪因为父级已经overflow auto 我意识到这是正确的行为但我不确
是否可以从 MethodBuilder/ConstructorBuilder 调用 DynamicMethod

我有一个从 ConstructorBuilder 创建的 ILGenerator 我想用它创建并调用 DynamicMethod 但我得到一个 InvalidOperationException 无法从不同的模块导入全局方法或字段 var
如何使变量始终等于某些计算的结果？

在数学中如果z x y 2 then z每当我们替换的值时总会改变x and y 我们可以在编程中做到这一点而不必专门更新吗z每当我们改变值时x and y 我的意思是这样的事情行不通对吗 int x int y int z x y
将数据保存到另一个模型 cakePHP 3.5

我还是 cakephp 的初学者我有表格问题和问题测验我在问题控制器中创建了名为existingQuestion 的表单并希望将其保存在表questionQuizzes 中但是该表格无法保存我已经关注了这个example htt
是否有标准的电子商务数据库架构将折扣/税收/礼券应用于产品？

需要一个良好且灵活的数据库模式来说明电子商务产品及其费率管理我同意克里斯罗伯茨的观点操作系统商务 http www oscommerce com community contributions 3853 page 23是一个很好的起点
复制文件权限，但不复制文件[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我有同一目录树的两个副本它们几乎都具有相同的文件一个版本可能有几个额外或丢失的文件但是大多数文件对于两个目录都是相同的具有相同的相对路径和所
文本框文本修剪

我想申请一个TextTrimming上的选项TextBox Not a TextBlock 编译器告诉我TextTrimmingoptions 不是有效的属性Textbox 我可以做一个奇特的控制Textblock一旦点击它就会变成Text
视口像素 vs 设备像素 vs CSS 像素

CSS 像素 div sidebar width 300px css 像素宽度设备像素宽度 x 1 设备像素比率例如假设设备像素为 1920 w X 960 h dpr 2 css 宽度 1920 1 css px 2 设备 px 9
如何配置 Capistrano 从本地 Git 存储库进行部署？

我需要对deploy rb下面的文件以使其从本地 git 存储库部署我的应用程序如果我无法从本地存储库进行部署我可以让 capistrano 使用工作副本吗 set application my app set repository s
约束布局 - 组可见性在动态模块内不起作用

有没有人遇到过问题ConstraintLayout团体能见度我在用着ConstraintLayout1 1 3 我正在设置组的可见性XML布局和java代码但它不会改变可见性状态它总是可见的这是布局文件
如何使用 rxjs 在 angular2 中实现输入 keyup 事件的去抖服务

我正在尝试在输入按键事件上调用服务 The HTML
repartition() 不影响 RDD 分区大小

我正在尝试使用 repartition 方法更改 RDD 的分区大小 RDD 上的方法调用成功但是当我使用 RDD 的 partition size 属性显式检查分区大小时我得到了与最初具有相同数量的分区 scala gt rdd pa

repartition() 不影响 RDD 分区大小

repartition() 不影响 RDD 分区大小 的相关文章

随机推荐

热门标签

repartition() 不影响 RDD 分区大小的相关文章