Spark 对分隔数据进行排序

2024-01-12

我是 Spark 新手。您能告诉我以下代码有什么问题吗：

val rawData="""USA | E001 | ABC DE | 19850607 | IT | $100
UK | E005 | CHAN CL | 19870512 | OP | $200
USA | E003 | XYZ AB | 19890101 | IT | $250
USA | E002 | XYZ AB | 19890705 | IT | $200"""
val sc = ...     
val data= rawData.split("\n")
val rdd= sc.parallelize(data)
val data1=rdd.flatMap(line=> line.split(" | "))
val data2 = data1.map(arr => (arr(2), arr.mkString(""))).sortByKey(false)
data2.saveAsTextFile("./sample_data1_output")

Here, .sortByKey(false)不工作，编译器给我错误：

[error] /home/admin/scala/spark-poc/src/main/scala/SparkApp.scala:26: value sortByKey is not a member of org.apache.spark.rdd.RDD[(String, String)]
[error] val data2 = data1.map(arr => (arr(2), arr.mkString(""))).sortByKey(false)

问题是如何获取MappedRDD？或者我应该在什么对象上调用 sortByKey()？

Spark 在成对的 RDD 上提供了额外的操作，例如 sortByKey()。这些操作可通过名为 PairRDDFunctions 的类来实现，Spark 使用隐式转换来自动执行 RDD -> PairRDDFunctions 包装。

要导入隐式转换，请将以下行添加到程序顶部：

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._

Spark 编程指南的部分对此进行了讨论使用键值对 https://spark.apache.org/docs/latest/programming-guide.html#working-with-key-value-pairs.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

scala210

Spark 对分隔数据进行排序的相关文章

如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
如何执行仅匹配正则表达式的测试？

在 sbt 0 10 1 中我经常使用test only缩小我的测试数量 sbt gt test only com example MySpec 但是我想缩小范围以便只运行名称描述与正则表达式匹配的测试是否有一些语法可以实现这样的
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
Scala 使用的 Redis 客户端库建议

我正在计划使用 Scala 中的 Redis 实例进行一些工作并正在寻找有关使用哪些客户端库的建议理想情况下如果存在一个好的库我希望有一个为 Scala 而不是 Java 设计的库但如果现在这是更好的方法那么仅使用 Java 客
Akka-Http 2.4.9 抛出 java.lang.NoClassDefFoundError: akka/actor/ActorRefFactory 异常

我正在尝试使用 Akka http 构建一个简单的 Web 服务我遵循了这个指南 http doc akka io docs akka 2 4 9 scala http low level server side api html htt
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
scala 返回列表中的第一个 Some

我有一个清单l List T1 目前我正在执行以下操作 myfun T1 gt Option T2 val x Option T2 l map myfun l flatten find gt true The myfun函数返回 None
正确使用术语 Monoid

从下面的例子来看我认为这样的说法是正确的String在串联运算下定义了一个幺半群因为它是关联二元运算并且String碰巧有一个身份元素它是一个空字符串 scala gt Jane Doe Jane Doe res0 Boolean
Scala：类型参数中的问号

我试图理解以下代码来自 Scalaz 库 def kleisliIdApplicative R Applicative Kleisli Id R 我假设一种形式T P0 是一个带有参数的类型构造函数但是我无法找到解释类型参数中问号用法的
如何关闭 Scala 中因方法重载而导致代码无法编译的特定隐式？

我正忙着尝试自己回答这个问题 Scala Play 2 4 x 通过 anorm MySQL 处理扩展字符到 Java Mail https stackoverflow com questions 31417718 scala play 2
IntelliJ IDEA 能否正确格式化 scala.html 文件以及如何启用它？

IntelliJ IDEA 12 Ultimate 和 CE 格式化我的 main scala html 文件中的以下行在 Play 应用程序中 main css gt As main css gt 是的真的它分解了带引号的字符串我
如何在 Lift 框架中添加新页面

如何在 lift 中的 webapp 目录中添加一个可供用户访问的新页面目前只能通过index html访问http localhost 8080 com http localhost 8080 or http localhost 808
Scala 的“神奇”函数列表

在哪里可以找到 Scala 的神奇函数列表例如apply unapply update etc 魔法函数是指编译器的某些语法糖使用的函数例如 o update x y lt gt o x y 我用谷歌搜索了一些组合scala mag
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
使用 apply 方法的泛型类型的 Scala 工厂？

假设我有以下特征它定义了一个接口并采用几个类型参数 trait Foo A B implementation details not important 我想使用伴随对象作为该特征的具体实现的工厂我还想强制用户使用Foo接口而不是子类所
Python 相当于 Scala 案例类

Python 中是否有与 Scala 的 Case Class 等效的东西就像自动生成分配给字段而无需编写样板的构造函数一样当前执行此操作的现代方法从 Python 3 7 开始是使用数据类 https www python org
你能在 scala 中使用 varargs 柯里化一个函数吗？

我正在考虑如何用可变参数柯里化一种方法然后我意识到我什至不知道如何去做理想情况下它应该让您可以随时开始使用它然后以可迭代结束 def concat strs String strs mkString val curriedConca

随机推荐

package.json 中本地主机的代理

我在地址中创建graphql服务器http localhost 4000 graphql我有服务器http localhost 3000 在 package json 输入中 proxy http localhost 4000 但我在这张图
C99 错误中函数“AudioServicesPlaySystemSoundWithVibration”的隐式声明无效

所以我主要用 swift 编写但似乎调用这个 AudioServicesPlaySystemSoundWithVibration 的唯一方法是在 Objective c 中一开始我编写的代码确实有效我不确定发生了什么变化但它给了
更改 Git 远程 URL 会更新提取，但不会更新推送

我正在尝试更改 Git 中原始分支的远程 URL 我只想更改 SSH 端口首先列出我的远程起源给了我这个 git remote v origin email protected cdn cgi l email protection pa
如何一次折叠所有 XAML 代码部分？

经过短暂的接触后我找到了答案CTRL M CTRL L这样做但这仅适用于特定块而不适用于所有代码部分例如Ctrl m O在代码后面 Use CTRL M CTRL A 请参阅此处查看完整列表 http visualstudiosho
Material UI useMediaQuery hooks 渲染两次到 React Component，你有什么解决方案吗？

我在项目中使用MUI 需要检查当前断点来为移动设备渲染div 但每次都是第一次渲染isMobile and 是桌面价值回报false但它在第二次渲染后设置了正确的值它从 UI 方面工作得很好但如果可能的话我想避免第一次不必要的渲染 c
将列中的类别扩展到 pandas 中的列名称

我正在尝试扩展不确定这个词是否正确一些绝对的使用 pandas 将数据放入列中假设我有以下数据框 df pandas DataFrame name john john louis louis day a b a b oranges
有没有列出所有移动设备和规格的信息数据库？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有任何开源项目或网站提供所有移动设备和规格的列表也许这已经很旧了但可能会对某人有所帮助我正在
如何使用 HTTP 重定向传递信息（在 Django 中）

我有一个接受表单提交并更新模型的视图更新模型后我想重定向到另一个页面并且我希望此页面上出现诸如 Field X successfully Updated 之类的消息如何将此消息传递到其他页面 HttpResponseRedire
Node-sass 和 gulp-sass 的优缺点

我想知道 node sass 和 gulp sass 之间有什么区别每个版本的优点和缺点是什么我在 www npmjs com 上看到 node sass 在下载方面有两倍以上的优势这会让事情变得更好吗编译速度有区别吗他们之间的区
如何使 AddressSanitizer 在出现错误（和其他问题）后不会停止

我运行的是 OS X 10 8 5 我已经通过 homebrew 安装了 llvm 3 4 clang version 3 4 tags RELEASE 34 final 并且我正在使用 fsanitize address 进行构建我可以
选择随机函数

我有一个函数列表 function randomiseiconscycle1 iconTwoContainer img iconFiveContainer img iconSevenContainer img fadeIn 300 setT
Postgres Select ILIKE %text% 在大字符串行上运行缓慢

我有一个只有 7 列的表其中一列存储每一行的长文本数据该文本列数据的平均字符长度约为 1500 个字符该表有 500 000 行当我使用选择查询而不使用该文本列时没有问题查询按预期需要 10 秒但是如果我将这个长文本列添加到
CGAL，裁剪在矩形内的 voronoi 图

我使用 CGAL 和 Qt 来绘制 Voronoi 图我用了CGAL Voronoi diagram 2
如何使用 DAO 插入雪花变体字段？

我有以下代码 RegisterMapper MyEntity ResultMapper class UseStringTemplate3StatementLocator public interface MyDao Transaction
在 thread.join() 之后调用线程会看到局部变量的修改吗？

在最简单的示例中假设我有一个启动线程的函数该函数又将局部变量的值设置为 true 我们加入线程然后离开函数 bool func bool b false std thread t b true t join return b 该函数会
澳大利亚手机号码正则表达式验证需要在号码之间留有空格

我需要验证手机号码第一个以 04 开头的文本输入总共 10 位数字包括 04 例如 0412345678 我的输入字段在下面
使用听写 - iOS 6 - DidStart？

如何回应starting听写响应听写的已知方法 dictationRecordingDidEnd 响应完成的承认短语听写识别失败回复failed听写识别参考 UITextInput 协议参考从 iOS 5 1 开始当用户在支持
动态创建变量是个好主意吗？

最近发现了如何通过这个方法在python中动态创建变量 vars my variable Some Value 从而创建变量my variable 我的问题是这是个好主意吗或者我应该总是提前声明变量我认为如果可能的话最好使用字典 va
视频流基础设施

我们想建立一个实时视频聊天网站并正在寻找基本的架构建议和或针对要使用的特定框架的推荐以下是该网站的基本功能大多数流媒体将由一个人通过网络摄像头等进行现场直播通常由 1 10 人观看但最多可能有 100 多名观众音频和视频不必是
Spark 对分隔数据进行排序

我是 Spark 新手您能告诉我以下代码有什么问题吗 val rawData USA E001 ABC DE 19850607 IT 100 UK E005 CHAN CL 19870512 OP 200 USA E003 XYZ AB

Spark 对分隔数据进行排序

Spark 对分隔数据进行排序 的相关文章

随机推荐

热门标签

Spark 对分隔数据进行排序的相关文章