无法打印RDD的内容

2023-12-25

我尝试打印 RDD 的内容RDD[(String,List[(String,String)])]:

val sc = new SparkContext(conf)
val splitted = rdd.map(line => line.split(","))
val processed = splitted.map(x=>(x(1),List((x(0),x(2),x(3),x(4)))))
val grouped = processed.reduceByKey((x,y) => (x ++ y))
System.out.println(grouped)

然而，我没有看到内容：

ShuffledRDD[4] at reduceByKey at Consumer.scala:88

UPDATE:

TXT文件内容：

100001082016,230,111,1,1 
100001082016,121,111,1,1
100001082016,110,111,1,1

更新2（整个代码）：

class Consumer()
{

def run() = {
    val conf = new SparkConf()
                              .setAppName("TEST")
                              .setMaster("local[*]") 
    val sc = new SparkContext(conf)
    val rdd = sc.textFile("file:///usr/test/myfile.txt")
    val splitted = rdd.map(line => line.split(","))
    val processed = splitted.map(x=>(x(1),List((x(0),x(2),x(3),x(4)))))
    val grouped = processed.reduceByKey((x,y) => (x ++ y))
    System.out.println(grouped)
}

}

这里没有问题：

scala> val rdd = sc.parallelize(Seq("100001082016,230,111,1,1","100001082016,121,111,1,1","100001082016,110,111,1,1"))
// rdd: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[0] at parallelize at <console>:27

scala> val splitted = rdd.map(line => line.split(","))
// splitted: org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD[1] at map at <console>:29

scala> val processed = splitted.map(x=>(x(1),List((x(0),x(2),x(3),x(4)))))
// processed: org.apache.spark.rdd.RDD[(String, List[(String, String, String, String)])] = MapPartitionsRDD[2] at map at <console>:31

scala> val grouped = processed.reduceByKey((x,y) => (x ++ y))
// grouped: org.apache.spark.rdd.RDD[(String, List[(String, String, String, String)])] = ShuffledRDD[3] at reduceByKey at <console>:33

scala> grouped.collect().foreach(println)
// (121,List((100001082016,111,1,1)))
// (110,List((100001082016,111,1,1)))
// (230,List((100001082016,111,1,1)))

以下是错误的。它按预期工作，但您必须正确理解语言才能知道预期的内容：

scala> System.out.println(grouped)
// ShuffledRDD[3] at reduceByKey at <console>:33

EDIT:需要明确的是，如果您希望打印集合，则需要使用可用于您需要打印的集合的 mkString 方法，将其转换为您想要的格式。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

无法打印RDD的内容的相关文章

Kafka 分区键无法正常工作

我正在努力解决如何正确使用分区键机制的问题我的逻辑是设置分区号为3 然后创建三个分区键为 0 1 2 然后使用分区键创建三个KeyedMessage 例如 KeyedMessage 主题 0 消息 KeyedMessage 主题 1 消息
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
IntelliJ IDEA 不会从 SBT 项目加载 Lift 库

我通过创建了一个空白项目sbt使用最基本的指南具体来说 gt cd xyz gt sbt here we create a new project w Scala 2 8 1 gt lift is org lifty lifty 1 6
使用 Shapeless 记录组合任意数量的状态更改函数

我正在尝试移植combineReducers从 Redux 到 Scala 这个想法是每个函数控制它的一小部分状态并且combineReducers创建一个控制整个状态的函数我无法找出应该像这样工作的函数所需的签名 sealed trai
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
如何在 Scala 2.11 中查找封闭源文件的名称

在编译时如何在 scala 2 11 中检索当前源文件编写代码的位置的名称这是一种实际有效的方法 val srcFile new Exception getStackTrace head getFileName println sr
IntelliJ IDEA 能否正确格式化 scala.html 文件以及如何启用它？

IntelliJ IDEA 12 Ultimate 和 CE 格式化我的 main scala html 文件中的以下行在 Play 应用程序中 main css gt As main css gt 是的真的它分解了带引号的字符串我
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
如何通过删除 Scala 中的一个元素来从列表中获取所有可能的子列表？

我有一个清单List 1 2 3 4 并希望通过删除一个元素来获得所有子列表 List 2 3 4 List 1 3 4 List 1 2 4 List 1 2 3 做到这一点最简单的方法是什么如果你的意思是离开每个position在列
过滤器的 Scala 集合类型

假设您有一个 List 1 1 其类型为 List Any 这当然是正确的且符合预期现在如果我像这样映射列表 scala gt List 1 1 map case x Int gt x case y String gt y toInt 结
用于共享大型不可变对象的工厂/缓存策略

我的问题很像上一篇文章最佳哈希集初始化 Scala Java https stackoverflow com questions 14714900 optimal hashset initialization scala java 我想用的
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

创建表 CREATE TABLE test word groups group text word text count int PRIMARY KEY group word 插入数据 INSERT INTO test word group
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
在 Scala 中提取案例类字段名称

我有一个案例类 case class A field1 String field2 Int 我想在某些代码中引用确切的字符串 field1 例如 val q Query field1 gt hello performQuery q 现在我必
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa

随机推荐

Objective-C 中如何返回到之前的视图？

我是iOS编程的初学者我想实现返回主视图的功能我已经使用这个代码 IBAction onclickhome id sender self navigationController popViewControllerAnimated YE
使用事务或 SaveChanges(false) 和 AcceptAllChanges()？

我一直在调查交易只要我通过它们就会在 EF 中自行处理false to SaveChanges 然后打电话AcceptAllChanges 如果没有错误 SaveChanges false AcceptAllChanges 如果出现问题
使用 .append(html) 创建的 jQuery 元素不可用

我有以下内容 a class map Test a 当我点击测试时我收到一条警报太棒了但我也有以下
ASP.NET 和 OWIN Cookie Azure Open ID 不起作用

我尝试使用 OpenID 与 Azure AD 连接并且使用教程中的确切代码https learn microsoft com en us azure active directory develop tutorial v2 asp we
OGNL 语法问题

我有一个 Struts 2 JSP 页面其中包含以下代码片段
在C中获取Lua表大小

如何在 C 中获取 Lua 表的大小 static int lstage build polling table lua State L lua settop L 1 luaL checktype L 1 LUA TTABLE lua ob
控制“progressBar1”从一个线程访问，而不是在我的业务类中创建它的线程[重复]

这个问题在这里已经有答案了我在另一个 dll 中有一个方法可以获取大量数据删除 22k 行并且我需要为用户创建一个进度条如果我不异步调用此方法它将挂起应用程序但是当我异步调用它时我收到错误progressBar1从创建它的线程
SQL Server 有什么内置机制来执行闪回查询？

你认为这说明了一切吗没有任何 SQL Server 没有同等功能 UPDATE 从 SQL Server 2016 开始此信息已过时请参阅下面的评论和答案
如何在 Swift 中显示一条弹出消息，该消息在 3 秒后消失或可以立即被用户取消？

在我的 swift 应用程序中我有一个带有单个按钮的 UIViewController 此按钮调用一个函数该函数调用一个弹出窗口该弹出窗口在 3 秒后消失此外在那之后它会向控制台打印一条消息该函数的代码如下 func showA
XText：使用自定义终端定义

我对 XText 完全陌生当您使用 XText 定义语法时您可以指定第二个语法并使用它声明的定义here http help eclipse org helios index jsp topic org eclipse xtext do
使用 EWS 创建扩展属性并从 Outlook 加载项访问它

我目前正在使用 EWS 来将我们公司的应用程序与 Exchange 2010 进行一些集成我正在使用 EWS 创建 Exchange 2010 的约会并且运行良好但最近我尝试在创建约会时添加一些自定义扩展属性下面是我添加扩展属性的
从自动完成中选择时重定向用户？

我正在尝试实现 jquery 自动完成插件我已经启动并运行了它但有些东西无法正常工作基本上我有一个自动完成的员工列表该列表是使用 VB NET 处理程序 ashx 文件从 sql 数据库中的表 employee names 和em
有没有办法杀死 GHCi 会话中的所有分叉线程而不重新启动它？

基于我之前的问题 https stackoverflow com questions 24998600 what happens to child threads when their parent dies in ghc haskell
在 Python 2.7 上安装 Pillow

当我尝试安装 Pillow 作为轮文件时 C Python27 Scripts gt pip install C Users karth Desktop Pillow 3 4 2 cp36 cp36m win amd64 whl 我收到以
Android L - android.graphics.outline

根据 L 开发者预览版的 android 开发者页面可以使用Outline类并定义视图的轮廓以正确的方式显示阴影 http developer android com preview material views shadows html
DataFrame：添加具有组大小的列

我有以下数据框 fsq digits digits type 0 1 1 odd 1 2 1 odd 2 3 1 odd 3 11 2 even 4 22 2 even 5 101 3 odd 6 111 3 odd 我想添加最后一列 co
tkinter 与 glib mainloop 集成

是否可以整合tkinter油嘴滑舌mainloop 这是一种方法 app TkinterApp def refreshApp app update return True gobject idle add refreshApp loop g
当焦点丢失时如何保持InputField键盘打开？

我正在制作一个打字游戏用户输入的文字会从屏幕上下来我在顶部有按钮当用户按下它们时它们可以充当加电按钮核弹冻结等现在当用户单击屏幕顶部的电源按钮之一时键盘将在之前暂时关闭ButtonClicked重新打开它看起来有很多问题
解决链计算的最快方法

我有一个像这样的输入 string input 14 2 32 60 43 7 3 1 0 7 87 32 34 up to 10MB string size int result Calc input 11 计算是从左到右逐个数字数字
无法打印RDD的内容

我尝试打印 RDD 的内容RDD String List String String val sc new SparkContext conf val splitted rdd map line gt line split val proc

无法打印RDD的内容

无法打印RDD的内容 的相关文章

随机推荐

热门标签

无法打印RDD的内容的相关文章