不使用过滤函数删除 RDD 中的第一个元素

2024-01-11

我从一个文件构建了一个 RDD，其中 RDD 中的每个元素都是文件中由分隔符分隔的部分。

val inputRDD1:RDD[(String,Long)] = myUtilities.paragraphFile(spark,path1)
                                              .coalesce(100*spark.defaultParallelism) 
                                              .zipWithIndex() //RDD[String, Long]
                                              .filter(f => f._2!=0)

我执行上面最后一个操作（过滤器）的原因是删除第一个索引 0。

有没有更好的方法来删除第一个元素，而不是像上面那样检查每个元素的索引值？

Thanks!

一种可能性是使用RDD.mapPartitionsWithIndex并从迭代器中删除索引 0 处的第一个元素：

val inputRDD = myUtilities
                .paragraphFile(spark,path1)
                .coalesce(100*spark.defaultParallelism) 
                .mapPartitionsWithIndex(
                   (index, it) => if (index == 0) it.drop(1) else it,
                    preservesPartitioning = true
                 )

这样，您只能在第一个迭代器上推进单个项目，而所有其他项目保持不变。这样效率会更高吗？大概。无论如何，我会测试这两个版本，看看哪个版本性能更好。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

RDD

不使用过滤函数删除 RDD 中的第一个元素的相关文章

Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
scala 返回列表中的第一个 Some

我有一个清单l List T1 目前我正在执行以下操作 myfun T1 gt Option T2 val x Option T2 l map myfun l flatten find gt true The myfun函数返回 None
如何在 Scala 2.11 中查找封闭源文件的名称

在编译时如何在 scala 2 11 中检索当前源文件编写代码的位置的名称这是一种实际有效的方法 val srcFile new Exception getStackTrace head getFileName println sr
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
IntelliJ IDEA 能否正确格式化 scala.html 文件以及如何启用它？

IntelliJ IDEA 12 Ultimate 和 CE 格式化我的 main scala html 文件中的以下行在 Play 应用程序中 main css gt As main css gt 是的真的它分解了带引号的字符串我
如何在 Lift 框架中添加新页面

如何在 lift 中的 webapp 目录中添加一个可供用户访问的新页面目前只能通过index html访问http localhost 8080 com http localhost 8080 or http localhost 808
使用 scalapb 在 Spark Streaming 中解码 Proto Buf 消息时出错

这是一个 Spark Streaming 应用程序它使用编码的 Kafka 消息Proto Buf Using scalapb图书馆我收到以下错误请帮忙 gt com google protobuf InvalidProtocolBu
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
在没有匹配器的情况下如何跳过specs2中的测试？

我正在尝试使用 scala 中的 specs2 测试一些与数据库相关的内容目标是测试 db running 然后执行测试我发现如果数据库关闭我可以使用 Matcher 类中的 orSkip 问题是我正在获取一个匹配条件的输出作为
实现只有一个居民的类型的价值

感谢 MilesSabin 的answer https stackoverflow com a 32157259 867671我可以编写类型级别的斐波那契序列 sealed trait Digit case object Zero exte
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org
如何使方法通用而不出现“未找到匹配的形状”

除了编写大量样板文件之外我不知道如何克服这个找不到匹配的形状错误要点中说明的基本思想是我有一个非常基本的方法版本有效但非常具体然后是一个采用mapper参数并且更通用也可以工作但特定于一种特定类型然后是第三个版本它采
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

创建表 CREATE TABLE test word groups group text word text count int PRIMARY KEY group word 插入数据 INSERT INTO test word group
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current

随机推荐

在 Hibernate 中保留 Joda DateTime 而不是 Java Date

我的实体当前包含 java Date 属性我开始经常使用 Joda Time 进行日期操作和计算这意味着我必须不断地将日期转换为 Joda DateTime 对象然后再转换回来所以我想知道是否有任何理由我不应该只更改实体来存储 J
在TeX中制作一个牢不可破的块[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我想在 TeX 中做如下的事情 begin nobreak Text here will not split over pages it will r
QueryOver 上的析取始终引用根实体

我试图在 X 个实现包含日期信息的特定接口的实体上使用析取来添加一定数量的 OR 条件我的问题是当生成 SQL 时所有析取条件都指向 QueryOver 的根实体我创建了一个通用方法来添加我的条件 public static Que
如何在 React 中的组件外部访问 Redux 存储

我从 Redux 开始我总是在带有 connect 和 mapStateToProps 的组件中使用它但现在我想每隔 x 次使用 setInterval 调用我的 API 以检查服务器是否有未存储在 Redux 存储中的新数据并替换它
Keycloak 将新注册的用户保存到应用程序数据库中

在我的应用程序中我有一些实体关系例如用户和组织我想我会使用Keycloak 这样我就不必实现自定义注册登录密码重置授权和身份验证问题是当用户注册到 Keycloak 时我的应用程序的内部数据库中没有新的用户实体有没有办法
访问 Jboss7 或 Wildfly 上的多个 Web 应用程序

我知道我们可以在 JBoss 7 或 Wildfly 上部署多个 Web 应用程序但是我们如何使用不同的端口访问不同的Web应用程序呢我们在哪里为 Web 应用程序设置该端口例如 application1 可在 x x x x 808
在 OO 模型中添加双向关系的最佳实践

我正在努力想出一种在面向对象模型中添加双向关系的好方法假设有一个客户可以下很多订单也就是说客户和订单类之间存在一对多关联需要双向遍历对于一个特定的客户应该可以告诉所有客户他们已经下的订单对于订单应该可以告诉客户下面是一段 Ja
使用 pytest 和假设进行异常处理和测试

我正在编写带有假设的统计分析测试假设使我得出一个ZeroDivisionError在我的代码中当它传递非常稀疏的数据时所以我调整了我的代码来处理异常就我而言这意味着记录原因并重新引发异常 try val calc data ex
在 SLComposeViewController 顶部显示附加图像

将图像添加到 SLComposeViewController 时该图像将显示在 SLComposeViewController 视图的右侧然而它显示在下面如下面的层中另一个看起来像指南针的默认图像最上面是一个剪辑这个指南针图像
如何通过单击按钮以编程方式退出应用程序

我想通过单击按钮退出应用程序单击按钮的代码是 quitBtn setOnClickListener new View OnClickListener Override public void onClick View paramView
有哪些工具可用于调试/单步执行正则表达式？

虽然有很多好的在线和离线测试正则表达式的工具但我还没有找到一个工具除了正则表达式好友 http www regexbuddy com 让我看到正则表达式引擎查找匹配项或就此而言查找不存在匹配项所采取的步骤有谁知道有什么工具可以做到
使用 Angular 路线时不显示 Stripe Checkout 按钮

我目前正在尝试实现标准的 Stripe Payments 结账对话当我插入短片时
尝试将照片上传/发布到群组时出现 OAuthException

我目前正在尝试通过应用程序将照片上传到页面和组我有这些代码 try facebook gt setFileUploadSupport true args array message gt This is my image caption
如何处理 Git 存储库中的图像？

我继承了一个中等规模的 iOS 项目大约 30 000 行代码它有一个insane图像资产的数量当然我们使用Git Github来进行scm 目前图像包含在目录树中因此被提取到存储库中使其变得臃肿并且通常使开发变得非常令人头疼
Chrome 的“请求桌面站点”选项如何工作？

对于 iOS 谷歌浏览器当用户点击请求桌面站点按钮时浏览器会做什么来尝试打开桌面站点我想象网站正在寻找的请求上有某种标头或者类似的东西我认为唯一的区别是User Agent 请求中的标头以下是我的 Android 设备上的
Rails JSON 请求未正确解析为 post 参数

我正在尝试调试 Rails 未解码 JSON POST 数据的问题服务器日志显示 2011 12 14T06 44 44 00 00 app web 2 Started POST 2011 12 14T06 44 44 00 00 app
具有参数化构造函数的 Xamarin DependencyService

如何使用 Xamarin Forms DependencyService 通过参数化构造函数注入依赖项 Answer 你不能程序集属性实现仅适用于默认构造函数也称为无参数构造函数例如 assembly Dependency typeo
使用 java 在 infix 到 postfix 应用程序中得到错误的输出

我最近编写了一个java程序它采用中缀表达式并将其转换为后缀表达式它在大多数情况下都有效但我得到了某些表达式的错误输出例如表达式 a b c d e 在应该输出的时候会输出 abcde a b c d e import java u
Visual Studio“在浏览器中查看”特定页面的快捷方式？

我们正在使用视觉工作室2008并想知道是否有办法为创建键盘或工具栏快捷方式在浏览器中查看命令但是与特定页面来自特定已加载项目我们总是从 Project x 的 Somepage aspx 开始测试调试我们的应用程序我想创
不使用过滤函数删除 RDD 中的第一个元素

我从一个文件构建了一个 RDD 其中 RDD 中的每个元素都是文件中由分隔符分隔的部分 val inputRDD1 RDD String Long myUtilities paragraphFile spark path1 coalesce

不使用过滤函数删除 RDD 中的第一个元素

不使用过滤函数删除 RDD 中的第一个元素 的相关文章

随机推荐

热门标签

不使用过滤函数删除 RDD 中的第一个元素的相关文章