Spark zipWithIndex 并行实现安全吗？

2024-03-01

如果我有一个文件，并且每行做了一个 RDD zipWithIndex，

([row1, id1001, name, address], 0)
([row2, id1001, name, address], 1)
...
([row100000, id1001, name, address], 100000)

如果重新加载文件，我能否获得相同的索引顺序？由于它是并行运行的，其他行可能会以不同的方式进行分区？

RDDs 可以排序，因此也有顺序。该命令用于创建索引.zipWithIndex().

每次获得相同的顺序取决于之前的调用在程序中执行的操作。文档提到.groupBy()可以破坏顺序或生成不同的顺序。可能还有其他调用也执行此操作。

我想你可以随时打电话.sortBy()打电话之前.zipWithIndex()如果您需要保证特定的订购。

这在.zipWithIndex() scala API docs https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/rdd/RDD.html#zipWithIndex()

public RDD<scala.Tuple2<T,Object>> zipWithIndex()压缩这个 RDD 其元素索引。排序首先基于分区索引，然后是每个分区内项目的排序。所以第一个分区中的第一个项目的索引为 0，最后一个项目的索引为 0 最后一个分区接收最大的索引。这类似于 Scala 的 zipWithIndex 但它使用 Long 而不是 Int 作为索引类型。当此RDD包含时，该方法需要触发spark作业多个分区。

请注意，某些 RDD（例如 groupBy() 返回的 RDD）不会保证分区中元素的顺序。分配给每个的索引因此，元素是不能保证的，如果 RDD 是这样的，甚至可能会改变重新评估。如果需要固定顺序来保证相同索引分配，您应该使用 sortByKey() 对 RDD 进行排序或保存它到一个文件。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

Spark zipWithIndex 并行实现安全吗？的相关文章

Scala 使用的 Redis 客户端库建议

我正在计划使用 Scala 中的 Redis 实例进行一些工作并正在寻找有关使用哪些客户端库的建议理想情况下如果存在一个好的库我希望有一个为 Scala 而不是 Java 设计的库但如果现在这是更好的方法那么仅使用 Java 客
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
正确使用术语 Monoid

从下面的例子来看我认为这样的说法是正确的String在串联运算下定义了一个幺半群因为它是关联二元运算并且String碰巧有一个身份元素它是一个空字符串 scala gt Jane Doe Jane Doe res0 Boolean
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
如何在 Lift 框架中添加新页面

如何在 lift 中的 webapp 目录中添加一个可供用户访问的新页面目前只能通过index html访问http localhost 8080 com http localhost 8080 or http localhost 808
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
在没有匹配器的情况下如何跳过specs2中的测试？

我正在尝试使用 scala 中的 specs2 测试一些与数据库相关的内容目标是测试 db running 然后执行测试我发现如果数据库关闭我可以使用 Matcher 类中的 orSkip 问题是我正在获取一个匹配条件的输出作为
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
用于共享大型不可变对象的工厂/缓存策略

我的问题很像上一篇文章最佳哈希集初始化 Scala Java https stackoverflow com questions 14714900 optimal hashset initialization scala java 我想用的
将下划线分配给变量。下划线是做什么的？

最近我遇到了这样的代码 var myVariable variableKind 这似乎是一种分配方式null to myVariable 谁能解释一下背后的理由在这种情况下分配之间有什么区别 and null到一个变量它使用默认值初始
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
使用 apply 方法的泛型类型的 Scala 工厂？

假设我有以下特征它定义了一个接口并采用几个类型参数 trait Foo A B implementation details not important 我想使用伴随对象作为该特征的具体实现的工厂我还想强制用户使用Foo接口而不是子类所
你能在 scala 中使用 varargs 柯里化一个函数吗？

我正在考虑如何用可变参数柯里化一种方法然后我意识到我什至不知道如何去做理想情况下它应该让您可以随时开始使用它然后以可迭代结束 def concat strs String strs mkString val curriedConca
为什么同样的算法在 Scala 中运行比在 C# 中慢得多？以及如何让它更快？

该算法根据序列中每个成员的变体创建序列的所有可能变体 C 代码 static void Main string args var arg new List
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Scala 为了在 JVM 上运行做出了哪些妥协？

Scala 是一种很棒的语言但我想知道如果它有自己的运行时如何改进 IE 由于 JVM 的选择做出了哪些设计选择我所知道的两个最重要的妥协是类型擦除 http java sun com docs books tutorial ja
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f

随机推荐

当“使用其他帐户”登录时，Google Sign in 不会返回任何结果

这似乎是一个基本功能但遵循登录教程 https developers google com identity sign in android sign in 仅当我选择设备上已注册的帐户时它才有效选择后使用另一个帐户并完成一些步骤
使用 jQuery fadeIn 和 fadeOut 的 Google Maps API V3 InfoBox

我在网上到处搜索但找不到使用 jQuery 淡出 Google 地图中的 InfoBox InfoWindow 的教程或示例而不是实际框窗口的内容这是我的代码我不确定我做错了什么但有些东西似乎也不正确 google maps e
通过 Windows Scheduler 运行 python 脚本不起作用

我正在尝试通过 Windows 任务计划程序自动执行 python 脚本但它不起作用在我的 python 脚本的末尾应该创建两个 CSV 文件但没有创建我尝试了以下方法 1 将我的python exe的地址复制到Program S
将 Tensorflow 数据集 API 创建的数据集拆分为训练和测试？

有谁知道如何将 Tensorflow 中的数据集 API tf data Dataset 创建的数据集拆分为测试和训练假设你有all dataset的变量tf data Dataset type test dataset all data
使用缓存文件还是一个以上的 HTTP 请求？

在所有加速你的网站网站和书籍上他们总是告诉我们不惜一切代价尽量减少 HTTP 请求这很好但如果这意味着在每个页面上你都必须一次又一次地重新加载 120kb 因为用户缓存是空的怎么办如果我在网站的每个页面上使用 5 个 js 文件
Chrome 调试器 - 如何关闭 console.log 消息分组？

比如说在我的 Google Chrome 扩展中我这样做 console log msg Chrome 调试器将类似的消息分组如下有没有什么办法可以将其关闭并让消息按原样发布它只会折叠相同的连续行我不认为这有什么问题但是通过控制台
Powershell 5 中的哪些变化改变了块大括号的含义

我们最近将构建服务器上的 Powershell 版本从 4 0 更新到了 5 0 这一更改导致我们的一个构建脚本开始以意外的方式失败该代码用于确定我们的产品中应包含哪些用户指南该代码处理一个 xml 节点列表这些节点描述了所有可用文档
Java 中包私有类的改进

根据我的经验 Java 中类的包私有可见性被证明是多余的包私有可见性似乎基于这样一个前提几乎被另一个类私有使用的类很可能保存在同一个包中通常情况并非如此有人正在探索改进的访问修饰符替代机制吗尝试使用包私有可见性时出现问题我们很
在 apache 模块中转换 PHP 类

我在 php5 中编写了一个复杂的系统许多类使用静态方法并包含其他文件现在我想分发 ant 我会选择模块方式所以我喜欢创建一个像 myFramework so 这样的模块并将其包含在 Apache 中也许之后当我编写一些 php
Angular AOT 和 Rollup - 未捕获的 ReferenceError：未定义导出

我正在尝试实现 Angular 的 AOT 教程 https angular io docs ts latest cookbook aot compiler html https angular io docs ts latest cook
比较匹配器在混合数字类型上失败

在普通 Scala 中以下断言通过 assert 1D gt 0F assert 1F gt 0 assert 1L gt 0 assert 1 gt 0 toShort assert 1 toShort gt 0 toChar 然而 S
XSLT 连接字符串，删除最后一个逗号

我需要使用 XSLT 构建一个字符串并用逗号分隔每个字符串但在最后一个字符串后面不包含逗号在下面的示例中如果我有分发节点而不是注释节点那么我将有一个尾随逗号我不知道如何构建一个字符串作为变量然后截断 XSLT 中的最后
让php将句子分解为单词

我可能误解了文档但是当我编码时 explode here s a sentence 2 我最终 Array 0 gt here s 1 gt a sentence with a few words in it 有没有办法让爆炸回来 Arr
为什么这段 PHP 代码只回显“Array”？

这是我的代码 if isset POST check AND POST check First errormessage array if empty POST full name strlen POST full name lt 4 er
Windows服务“自托管”WCF：压缩？

在 IIS 中使用 WCF 压缩我可以找到文档但它面向使用 IIS 功能我可以找到人们谈论他们如何编写自己的压缩处理程序但这一切看起来都很定制是否有压缩 WCF 的最佳实践我们正在使用 http 绑定编辑将其设置为维基没有任
Dart 中的字符串文字类型类似物

我知道在 Dart 中没有字符串文字类型例如 interface IButtonProps readonly variant primary secondary readonly size small regular big a litt
以编程方式添加来自 Laravel 包的 CSRF 检查的异常

问题简而言之我正在寻找一种方法来删除VerifyCsrfToken来自包内的全局中间件管道without用户必须修改App Http Middleware VerifyCsrfToken 这可能吗用例我正在开发一个包可以轻松地将推送
查询 DynamoDB

我有一个 DynamoDB 表其中一个字母数字字符串作为哈希键例如 d4ed6962 3ec2 4312 a480 96ecbb48c9da 我需要根据表中的另一个字段查询表因此我需要查询来选择所有键例如我的字段 x 位于 dat
发生托管异常时“无可用源” - WPF Visual Studio 2010

由于某种原因我的 Visual Studio 2010 没有在我自己的代码上加载调试符号我正在使用默认的 WPF 应用程序解决方案使用我正在开发的示例 WPF 应用程序并在调试模式下运行当我进入调试状态时我可以单步执行我的代码
Spark zipWithIndex 并行实现安全吗？

如果我有一个文件并且每行做了一个 RDD zipWithIndex row1 id1001 name address 0 row2 id1001 name address 1 row100000 id1001 name address 1

Spark zipWithIndex 并行实现安全吗？

Spark zipWithIndex 并行实现安全吗？ 的相关文章

随机推荐

热门标签

Spark zipWithIndex 并行实现安全吗？的相关文章