从 Hive 表将 DataFrame 中的 ArrayBuffer 转换为 HashSet 到 RDD 时出现 GenericRowWithSchema 异常

2023-12-10

我有一个镶木地板格式的 Hive 表，是使用生成的

create table myTable (var1 int, var2 string, var3 int, var4 string, var5 array<struct<a:int,b:string>>) stored as parquet;

我能够验证它是否已填充 - 这是一个示例值

[1, "abcdef", 2, "ghijkl", ArrayBuffer([1, "hello"])]

我希望将其放入以下形式的 Spark RDD 中

((1,"abcdef"), ((2,"ghijkl"), Set((1,"hello"))))

现在，使用spark-shell（我在spark-submit中遇到了同样的问题），我用这些值做了一个测试RDD

scala> val tempRDD = sc.parallelize(Seq(((1,"abcdef"),((2,"ghijkl"), ArrayBuffer[(Int,String)]((1,"hello"))))))
tempRDD: org.apache.spark.rdd.RDD[((Int, String), ((Int, String), scala.collection.mutable.ArrayBuffer[(Int, String)]))] = ParallelCollectionRDD[44] at parallelize at <console>:85

使用迭代器，我可以将 ArrayBuffer 转换为以下新 RDD 中的 HashSet：

scala> val tempRDD2 = tempRDD.map(a => (a._1, (a._2._1, { var tempHashSet = new HashSet[(Int,String)]; a._2._2.foreach(a => tempHashSet = tempHashSet ++ HashSet(a)); tempHashSet } )))
tempRDD2: org.apache.spark.rdd.RDD[((Int, String), ((Int, String), scala.collection.immutable.HashSet[(Int, String)]))] = MapPartitionsRDD[46] at map at <console>:87

scala> tempRDD2.collect.foreach(println)
((1,abcdef),((2,ghijkl),Set((1,hello))))

但是，当我尝试使用带有 HiveContext / SQLContext 的 DataFrame 执行完全相同的操作时，出现以下错误：

scala> val hc = new HiveContext(sc)
scala> import hc._
scala> import hc.implicits._

scala> val tempHiveQL = hc.sql("""select var1, var2, var3, var4, var5 from myTable""")

scala> val tempRDDfromHive = tempHiveQL.map(a => ((a(0).toString.toInt, a(1).toString), ((a(2).toString.toInt, a(3).toString), a(4).asInstanceOf[ArrayBuffer[(Int,String)]] )))

scala> val tempRDD3 = tempRDDfromHive.map(a => (a._1, (a._2._1, { var tempHashSet = new HashSet[(Int,String)]; a._2._2.foreach(a => tempHashSet = tempHashSet ++ HashSet(a)); tempHashSet } )))
tempRDD3: org.apache.spark.rdd.RDD[((Int, String), ((Int, String), scala.collection.immutable.HashSet[(Int, String)]))] = MapPartitionsRDD[47] at map at <console>:91

scala> tempRDD3.collect.foreach(println)
org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 14.0 failed 1 times, most recent failure: Lost task 1.0 in stage 14.0 (TID 5211, localhost): java.lang.ClassCastException: org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema cannot be cast to scala.Tuple2
       at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$anonfun$1$$anonfun$apply$1.apply(<console>:91)
       at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)
       at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:47)
       at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$anonfun$1.apply(<console>:91)
       at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$anonfun$1.apply(<console>:91)
       at scala.collection.Iterator$$anon$11.next(Iterator.scala:328)
       at scala.collection.Iterator$class.foreach(Iterator.scala:727)
       at scala.collection.AbstractIterator.foreach(Iterator.scala:1157)
       at scala.collection.generic.Growable$class.$plus$plus$eq(Growable.scala:48)
       at scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:103)
       at scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:47)
       at scala.collection.TraversableOnce$class.to(TraversableOnce.scala:273)
       at scala.collection.AbstractIterator.to(Iterator.scala:1157)
       at scala.collection.TraversableOnce$class.toBuffer(TraversableOnce.scala:265)
       at scala.collection.AbstractIterator.toBuffer(Iterator.scala:1157)
       at scala.collection.TraversableOnce$class.toArray(TraversableOnce.scala:252)
       at scala.collection.AbstractIterator.toArray(Iterator.scala:1157)
       at org.apache.spark.rdd.RDD$$anonfun$17.apply(RDD.scala:813)
       at org.apache.spark.rdd.RDD$$anonfun$17.apply(RDD.scala:813)
       at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1503)
       at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1503)
       at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:61)
       at org.apache.spark.scheduler.Task.run(Task.scala:64)
       at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:203)
       at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
       at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
       at java.lang.Thread.run(Thread.java:724)

Driver stacktrace:
       at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1203)
       at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1192)
       at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1191)
       at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)
       at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:47)
       at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:1191)
       at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:693)
       at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:693)
       at scala.Option.foreach(Option.scala:236)
       at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:693)
       at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1393)
       at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1354)
       at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:48)

请注意，当我使用 Spark-submit 在已编译的程序中运行此错误时，我收到相同的错误“GenericRowWithSchema 无法转换为 scala.Tuple2”。当程序遇到转换步骤时，程序在运行时崩溃，并且我没有编译器错误。

我觉得很奇怪的是，我的人工生成的 RDD“tempRDD”可以进行转换，而 Hive 查询 DataFrame->RDD 却不能。我查了一下，两个 RDD 都有相同的形式：

scala> tempRDD
org.apache.spark.rdd.RDD[((Int, String), ((Int, String), scala.collection.mutable.ArrayBuffer[(Int, String)]))] = MapPartitionsRDD[21] at map at DataFrame.scala:776

scala> tempRDDfromHive
org.apache.spark.rdd.RDD[((Int, String), ((Int, String), scala.collection.mutable.ArrayBuffer[(Int, String)]))] = ParallelCollectionRDD[25] at parallelize at <console>:70

唯一的区别是他们最后一步的起源。在运行 tempRDD2 和 tempRDD3 的步骤之前，我什至尝试过持久化、检查点和具体化这些 RDD。所有人都收到相同的错误消息。

我还阅读了相关的 stackoverflow 问题和 Apache Spark Jira 问题，并从中尝试将 ArrayBuffer 转换为迭代器，但在第二步中也失败了，并出现相同的错误。

有谁知道如何将源自 Hive 表的 DataFrame 的 ArrayBuffer 正确转换为 HashSet ？由于该错误似乎仅针对 Hive 表版本，因此我很想认为这是 SparkSQL 中 Spark/Hive 集成的问题。

有任何想法吗？

我的Spark版本是1.3.0 CDH。

以下是 printSchema 结果：

scala> tempRDDfromHive.printSchema()
root
 |-- var1: integer (nullable = true)
 |-- var2: string (nullable = true)
 |-- var3: integer (nullable = true)
 |-- var4: string (nullable = true)
 |-- var5: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- a: integer (nullable = true)
 |    |    |-- b: string (nullable = true)

期间你实际得到了什么map相不是一个ArrayBuffer[(Int, String)] but an ArrayBuffer[Row]因此出现错误。忽略其他列，您需要的是这样的：

import org.apache.spark.sql.Row

tempHiveQL.map((a: Row) =>
    a.getAs[Seq[Row]](4).map{case Row(k: Int, v: String) => (k, v)}.toSet)

看起来这个问题已经在 Spark 1.5.0 中修复了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

hive

apachesparksql

apachespark13

从 Hive 表将 DataFrame 中的 ArrayBuffer 转换为 HashSet 到 RDD 时出现 GenericRowWithSchema 异常的相关文章

如果需要，Akka actor 可以从邮箱中删除消息吗？

例如如果我想从队列中删除冗余消息这样当演员收到Connect消息它应该检查它的邮箱并删除其他Connect消息以便只进行一个连接而不是多个连接这样的事情可能吗是的您可以将参与者调度程序配置为具有您选择的任何邮箱因此如果您实现
使用 Pyspark 从 S3 读取时，内容长度分隔消息正文过早结束 SparkException

我正在使用下面的代码来阅读S3 csv 文件从我的本地机器 from pyspark import SparkConf SparkContext from pyspark sql import SparkSession import con
Spark Dataframe 中的分析

在这个问题中我们有两个经理 M1 和 M2 在经理 M1 的团队中有两个员工 e1 和 e2 在 M2 的团队中有两个员工 e4 和 e5 以下是经理和员工的层次结构 1 M1 a e1 b e2 2 M2 a e4 b e5 我们有以下
Spark Python：标准缩放器错误“不支持... SparseVector”

我又撞到了堵墙我是一个新手所以我不得不再次依赖你强大的知识我从一个数据集开始如下所示 user account id user lifetime user no outgoing activity in days user acco
如何从DataFrame中获取最后一行？

我有一个DataFrame 该DataFrame有两列 value 和 timestamp timestmp 是有序的我想获取DataFrame的最后一行我该怎么办这是我的输入 value timestamp 1 1 4 2 3 3
Slick 中的 Scala 枚举（案例对象），良好实践

假设我有一个代表一组几个有效状态的特征将对象存储在数据库中是一个好习惯吗存储 Int 并使用隐式函数 MappedColumnType base Int DoorState 将它们映射到 DoorState 会更好吗 trait Doo
一般处理枚举的 Scala 类

我想创建一个通用类来保存枚举的值并且还允许访问枚举的可能值以属性编辑器为例您需要知道属性的当前值并且还需要能够知道该属性的其他合法值并且枚举的类型不应该提前知道您应该能够使用任何类型的枚举我的第一个想法是这样的 class E
使用 lift-json 反序列化具有 Map[String,Any] 属性的案例类

几天来我一直在努力解决一些通过 lift json 应该很简单的事情将映射序列化为 JSON 我知道我知道根对象还不能是 List 或 Map 但我愿意暂时包装在一个案例类中但我仍然无法让它工作感谢一些堆栈溢出帮助我已经可以进行
标识符中下划线的 Scala 风格指南

我已经接受了许多其他语言的观点即下划线在标识符中具有与字母表一样多的自由度因此 v and v 另外尾随下划线是受到推崇的避免与保留关键字产生歧义 class case val abc 0
为 Apache Spark 示例运行 Cypher (CAPS)

我知道这是一个广泛的问题但这会对neo4j不属于某个领域的用户scala编程我需要使用Apache Spark 项目的 Cypher https github com opencypher cypher for apache spark
如何在 PySpark 中使用 foreach 或 foreachBatch 写入数据库？

我想使用 Python PySpark 从 Kafka 源到 MariaDB 进行 Spark 结构化流处理 Spark 2 4 x 我想使用流式 Spark 数据帧而不是静态数据帧或 Pandas 数据帧看来必须要用foreach o
如何找到两个数据帧之间的精确和非精确匹配？

我有两个数据框 df1 id amount fee 1 10 00 5 0 2 20 0 3 0 3 90 130 0 4 120 0 35 0 df2 exId exAmount exFee 1 10 00 5 0 2 20 0 3 0
Spark toLocalIterator 和迭代器方法之间的区别

在编写 Spark 程序时我遇到了这个toLocalIterator 方法之前我只使用iterator method 如果有人曾经使用过这种方法请点亮我在使用时遇到foreach and foreachPartitionSpark程序
如何使用 *non-case* 类通过 Scala 从 JSON 反序列化？

我正在编写一个 Scala 应用程序需要序列化和反序列化 JSON 某些 JSON 对象具有超过 22 个字段因此我无法使用案例类并且也无法更改格式我找到的所有 Scala JSON 库都只能轻松地与案例类一起使用而不是与普通
如何指定spark-submit使用的Python版本？

我有两个版本的Python 当我使用 Spark submit 启动 Spark 应用程序时该应用程序使用默认版本的 Python 但是我想使用另一个如何指定spark submit使用的Python版本您可以设置PYSPARK P
pyspark读取bigquery时出错：java.lang.ClassNotFoundException：org.apache.spark.internal.Logging$class

我创建了一个 dataproc 集群并尝试提交我的本地作业进行测试 gcloud beta dataproc clusters create test cluster region us central1 zone us central1
在“GROUP BY”子句中重用选择表达式的结果？

在 MySQL 中我可以有这样的查询 select cast from unixtime t time Y m d H 00 as datetime as timeHour from some table t group by timeH
Scala 中的模式匹配是如何在字节码级别实现的？

Scala 中的模式匹配是如何在字节码级别实现的是不是像一系列if x instanceof Foo 构造还是其他什么它对性能有何影响例如给出以下代码来自Scala 示例 http www scala lang org docu
Spark JSON 文本字段到 RDD

我有一个 cassandra 表其中有一个名为 snapshot 的文本类型字段其中包含 JSON 对象 identifier timestamp snapshot 我了解到为了能够使用 Spark 对该字段进行转换我需要将该 RD
如何强制 Spark 执行代码？

我如何强制 Spark 执行对 map 的调用即使它认为由于其惰性求值而不需要执行它我试过把cache 与地图调用但这仍然没有解决问题我的地图方法实际上将结果上传到 HDFS 所以它并非无用但 Spark 认为它是无用的简短回

随机推荐

使用新的架构更改更新 LinqtoSql 数据库？

我有一个已发布到市场的 Windows Phone 7 应用程序我将 Sql CE 与 LinqToSql 一起使用当应用程序运行时它会通过连接字符串检查数据库是否存在如果不存在则创建数据库 using CheckbookDataC
在 Google Apps 脚本中转义正则表达式文字

我不知道为什么这不起作用我已经通过我在网上找到的更好的正则表达式工具之一来验证它并且我之前使用的似乎是转义字符号使其成为字面但 Google 脚本一直抱怨无效量词第 2 行这是我的脚本省略了某些个人详细信息这是为了清理电子
Django - 将额外参数传递给 upload_to 可调用函数

我知道您可以使用 upload to 参数传递可调用函数来动态更改 Django 模型中的 FileFied ImageField 等 upload to 调用的函数传递了 2 个变量即未保存在数据库中的文件的实例 instance 和所
将分组平均值添加到数据框中的列[重复]

这个问题在这里已经有答案了我想计算数据框中的组平均值并在包含这些组平均值的原始数据框中创建一个新列我正在进行重复性研究我想要新列中插入单元和通道内测量的平均值以便我可以将其减去并计算残差 My data gt head myte
如何在 HttpPost 中使用参数

我正在通过以下方法使用 RESTful Web 服务 POST Consumes application json Path create public void create String str1 String str2 System
定期运行 JavaScript 函数

我目前正在建立一个网站来托管软件我想要的是在项目页面中添加循环截图的幻灯片大约每 5 秒更改一次图像有没有办法仅使用 JavaScript 在一定时间间隔触发脚本或者我是否必须采用替代方法来实现我想要的功能预先感谢您的任何帮助 s
Typescript 类型、泛型和抽象类

我尝试了一种对我来说似乎很奇怪的行为让我们考虑以下示例在 Typescript Playground 中测试它 abstract class FooAbstract abstract bar class Foo extends FooA
MonoTouch“无法 AOT 程序集”

我正在使用 MonoTouch 6 2 并且我有一个应用程序可以在模拟器上构建并运行良好但当我为实际设备构建时会出现无法 AOT 程序集错误有没有人见过这个这是编译器的输出 Applications Xcode app Cont
在 Tomcat 上运行 JasperViewer 作为 Web 应用程序的一部分

我了解到贾斯珀浏览器默认预览组件贾斯珀报告 is a Swing组件那么有什么方法可以将其转换或嵌入到Web应用程序中吗有人说我应该使用Java网络启动但据我所知这个链接 JWS在客户端计算机上下载并安装应用程序非常有用但这不是我
如何禁用特定控件的视图状态？
jquery 显示 [object object] 而不是数组 [重复]

这个问题在这里已经有答案了只是试图在视图中显示我通过 ajax 从控制器获取的数组但它显示 object Object object Object 而不是数组请检查我的js文件如下 faq title click function v
如何在 PHP 中循环使用十六进制颜色代码？

我想要一个数组其中数组中的每个字段都包含一个颜色代码 array 0 gt 4CFF00 1 gt FFE97F 我希望它能够经历从绿色到黑色的整个颜色范围绿色 gt 蓝色 gt 深蓝色 gt 紫色 gt 黄色 gt 橙色 gt 红色
前面带有“0”的数字文字[重复]

这个问题在这里已经有答案了 Using insert 我将值推入Array as myarray 22 33 44 myarray insert 0 02 gt 2 22 33 44 如果执行以下操作我得到 myarray insert
获取数组中特定项目的索引

我想检索数组的索引但我只知道数组中实际值的一部分例如我在数组中动态存储作者姓名 author xyz 现在我想找到包含它的数组项的索引因为我不知道值部分这个怎么做您可以使用查找索引 var index Array FindInd
javascript 创建日期错误的月份

使用 Mozilla Firefox Firebug var myDate new Date 2012 9 23 0 0 0 0 myDate 日期 2012 年 10 月 23 日星期二 00 00 00 GMT 0400 东部夏令时间
如何验证机器人是否正在输入信息

我有一个网络表单用户填写该表单并将信息发送到服务器并存储在数据库中我担心机器人可能只是填写表格而我最终会得到一个充满无用记录的数据库如何防止机器人填写我的表格我在想也许类似于 Stackoverflow 的机器人检测如果它认为你
如何在 Ubuntu 16.04 上使用带有 Python 3.7 的 sqlite3 python 模块的 FTS5 扩展？

为了测试带有 sqlite3 Python 模块的 FTS5 扩展是否有效我使用了这个code from 技术进步 import sqlite3 conn sqlite3 connect memory conn execute creat
在javascript中将输入框滚动到光标位置

我编写了一个简单的 JS 函数当输入框接收焦点时它将光标置于输入框内容的末尾框中最常见的操作是追加我没有在 IE 中检查过但是当文本多于可见文本时即使将光标移动到输入末尾也不会在 Firefox 3 6 中将视图滚动到输入末尾
MacOS 上列表中的 SwiftUI 键盘导航

我正在尝试实现一个可以使用箭头键向上向下导航的列表我已经创建了布局但现在我不完全理解如何以及在哪里拦截向上向下键以便我可以添加自定义逻辑我已经尝试过了onMoveCommand with focusable但这不起作用
从 Hive 表将 DataFrame 中的 ArrayBuffer 转换为 HashSet 到 RDD 时出现 GenericRowWithSchema 异常

我有一个镶木地板格式的 Hive 表是使用生成的 create table myTable var1 int var2 string var3 int var4 string var5 array

从 Hive 表将 DataFrame 中的 ArrayBuffer 转换为 HashSet 到 RDD 时出现 GenericRowWithSchema 异常

从 Hive 表将 DataFrame 中的 ArrayBuffer 转换为 HashSet 到 RDD 时出现 GenericRowWithSchema 异常 的相关文章

随机推荐

热门标签

从 Hive 表将 DataFrame 中的 ArrayBuffer 转换为 HashSet 到 RDD 时出现 GenericRowWithSchema 异常的相关文章