Spark - Scala - saveAsHadoopFile 抛出错误

2024-04-01

我想解决该问题，但无法进一步进行。有人可以帮忙吗

import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat

class KeyBasedOutput[T >: Null, V <: AnyRef] extends MultipleTextOutputFormat[T , V] {
override def generateFileNameForKeyValue(key: T, value: V, leaf: String) = {
key.toString
}
override def generateActualKey(key: T, value: V) = {
 null
}
}

val cp1 =sqlContext.sql("select * from d_prev_fact").map(t => t.mkString("\t")).map{x => val parts =      x.split("\t") 
    val partition_key = parts(3)
    val rows = parts.slice(0, parts.length).mkString("\t") 
   ("date=" + partition_key.toString, rows.toString)}

cp1.saveAsHadoopFile(FACT_CP)

我遇到如下错误并且无法调试

scala> cp1.saveAsHadoopFile(FACT_CP,classOf[String],classOf[String],classOf[KeyBasedOutput[String, String]])
java.lang.RuntimeException: java.lang.NoSuchMethodException: $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$KeyBasedOutput.<init>()
    at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:131)
    at org.apache.hadoop.mapred.JobConf.getOutputFormat(JobConf.java:709)
    at org.apache.spark.rdd.PairRDDFunctions.saveAsHadoopDataset(PairRDDFunctions.scala:742)
    at org.apache.spark.rdd.PairRDDFunctions.saveAsHadoopFile(PairRDDFunctions.scala:674)

这个想法是根据键将值写入多个文件夹

将 KeyBasedOutput 放入 jar 并启动 Spark-shell --jars /path/to/the/jar

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

Spark - Scala - saveAsHadoopFile 抛出错误的相关文章

对于 Scala，“无全局类型推断”是什么意思？

我读过 Scala 的类型推断不是全局的因此人们必须在方法上放置类型注释这会是本地类型推断吗我只知道一点点原因是它面向对象的本质但我不清楚是否有全局类型推断的解释以及为什么 Scala 不能让初学者可以理解 The pr
使用 Scala 宏或反射实例化类

在我的 scala 代码中我希望能够实例化一个新类例如假设我有以下代码 class Foo def foo 10 trait Bar val bar 20 理想情况下我希望能够做类似的事情 def newInstance A lt
将 Scala Future 转变为 CompletableFuture

我的项目中有一个 Akka 层它返回Scala Future 而接收 Future 的部分是 Java 风格的团队中的人不了解 Scala 他们宁愿使用CompletableFuture因为他们更了解 Java 8 API 有没有什么好
Scala [2.11.6] 编译 Stackoverflow 错误（似乎对迄今为止发现的建议有抵抗力）

scala版本 2 11 6 我当然尝试过clean很多次以及update 不确定是否有clean deeper刷新 jar 库真正奇怪的是这种情况同时发生在两台机器上其中一台在没有执行任何特殊操作的情况下恢复了而另一台仍然没有恢复
引用Scala中内部类的类型

下面的代码尝试模仿DSL 的多态嵌入 http www daimi au dk ko papers gpce50 hofer pdf 而不是给出行为Inner 它被编码在useInner其封闭类的方法我添加了enclosing方法以便用
解释一下 Scala 中 Y 组合器的实现？

这是 Y 组合器在 Scala 中的实现 scala gt def Y T func T gt T gt T gt T T gt T func Y func T Y T func T gt T gt T gt T T gt T scala
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
避免函数内装箱/拆箱

对于数字密集型代码我编写了一个具有以下签名的函数 def update f Int Int Double gt Double Unit 然而因为Function3不是专门的每个应用程序f结果对 3 个参数和结果类型进行装箱拆箱我可
为什么 Spark-ml ALS 模型返回 NaN 和负数预测？

实际上我正在尝试使用ALS from spark ml具有隐性评级我注意到我训练的模型给出的一些预测是negative or NaN 为什么 Apache Spark 提供了一个强制选项非负约束关于肌萎缩侧索硬化症因此要删除这些负值
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
如何将 csv 文件读取为键值对的映射

我的 csv 文件中有数据例如 value key A Name B Name C Name 24 Age 25 Age 20 Age M Gender F Gender 我想解析它以生成以下地图 Map Name gt List A B
Scala：var List 与 val MutableList

在 Odersky 等人的 Scala 书中他们说使用列表我还没有从头到尾读过这本书但所有的例子似乎都使用了 val List 据我了解还鼓励人们使用 vals 而不是 vars 但在大多数应用程序中使用 var List 或 v
collect_list() 是否保持行的相对顺序？

想象一下我有以下 DataFrame df id featureName featureValue id1 a 3 id1 b 4 id2 a 2 id2 c 5 id3 d 9 想象一下我运行 df groupBy id agg coll
对 HList 进行协变过滤

我打算以协变方式过滤 HList 我也想包含子类所以协变滤波器Foo应捕获以下元素Foo也Bar 我已经构建了这个例子来尝试 lt lt 看看它是否做了我想做的事情 http scastie org 6465 http scastie o
为什么流式数据集会失败并显示“当流式数据帧/数据集上存在流式聚合时不支持完整输出模式...”？

我使用 Spark 2 2 0 在 Windows 上使用 Spark 结构化流时出现以下错误有时不支持完整输出模式streaming aggregations on streaming DataFrames DataSets没有wate
向数据框添加新列的问题 - Spark/scala

我是 Spark scala 的新手我正在尝试将一些数据从配置单元表读取到 Spark 数据帧然后根据某些条件添加一列这是我的代码 val DF hiveContext sql select from select from test
Spark s3 写入（s3 与 s3a 连接器）

我正在从事一项在 EMR 上运行的作业它在 s3 上保存了数千个分区分区为年月日我有过去 50 年的数据现在当 Spark 写入 10000 个分区时使用以下命令大约需要 1 小时s3a联系它非常慢 df repartit
组合多个任意长度的列表

我正在寻找一种通过以下方式加入多个列表的方法 ListA a b c ListB 1 2 3 4 ListC Resulting List a 1 b 2 c 3 4 换句话说元素按顺序排列从第一个列表开始组合到结果列表中任意数量的输
Spark 输出：日志式与进度式

spark submit两个不同集群都运行 Spark 1 2 上的输出看起来不同一个是日志式即大量消息流例如 15 04 06 14 53 13 INFO TaskSetManager Starting task 262 0 i
Spark 在执行 jdbc 保存时给出空指针异常

您好当我执行以下代码行时我得到以下堆栈跟踪 transactionDF write format jdbc option url SqlServerUri option driver driver option dbtable full

随机推荐

使用 JWT 的 Core 2.0 API 身份验证返回未经授权的信息

我正在尝试将 JWT 令牌身份验证添加到我的 Net Core 2 0 应用程序中我有一个简单的控制器它返回用于测试的用户列表 Authorize Route api controller public class UsersContr
SQL Server 为浮点数提供了额外的精度？

精度损失是一回事但是精度增益我有一个带有以下坐标的文本文件 41 88694340165634 87 60841369628906 当我将其粘贴到 SQL Server Mgmt Studio 表视图中时结果如下 41 8869434
jQuery 表单转发器和 select2 不能一起工作

我正在使用 Select2 和 jQuery 表单转发器 https github com DubFriend jquery repeater https github com DubFriend jquery repeater 我已经在
php错误日志，如何删除重复项/查找唯一错误[重复]

这个问题在这里已经有答案了有没有办法只搜索错误日志以查找唯一的错误原因是我有很多重复的错误并且不想错过罕见的错误我将如何编写一个自定义脚本来解析错误日志并过滤掉除日期时间之外的所有重复项来分析 var log apache2 e
理解 atoi() 函数

我是一名 Python 程序员正在从 K R 书中学习 C 这似乎是一个非常微不足道的问题但我仍然被难住了下面附上 K R RIP Ritchie 书中的一段代码它实现了 atoi 函数 atoi s convert s to in
Tkinter Windows 按键事件

Tkinter 中 Windows 键的事件是什么我使用的是 Linux 但我想要 Linux 和 Windows 的答案如果 Mac 有类似的密钥请随时告诉我它的绑定我想左右 windows 键有不同的事件 Windows 键似乎
将用户的时区与网站办公地点的时区进行比较

我正在开发一个项目我需要在联系人区域向网站访问者显示一条消息例如联系电话 91 99 3241 5285 You can call us now 该消息在上面一行中突出显示现在我的问题是如何将用户的时区与公司办公室的工作时间进行比
从 Fluent Nhibernate 获取表名

在流畅的 nhibernate 中设置映射后有没有办法从类类型中获取实体的表名我读过常规的 nhiberante 你可以做类似的事情cfg GetClassMapping typeof Employee 我想做这样的事情来检索数据库表名
有没有办法在我的代码中使用 Typescript.Collections.HashTable ？

我在 Typescript 编译器的代码中看到了 HashTable 的实现在文件 src compiler core hashTable ts 中你知道有没有办法可以直接在我的 Typescript 项目中使用它您可以通过定义接口来
将向量数组作为函数参数传递（值不会改变）

我在一类中有一组向量 class MeasurementData private std vector
laravel 5 根据路由返回 HTML 或 JSON

我想显示不同的输出 JSON 或 HTML 我无法使用 Request ajax 功能因为我只是收到正常请求 JSON 响应不是基于 XHR 请求是否有可能区分不同路线的输出例如检查控制器是否由前缀为 mob 的路由调用然后根据该
检测从 C# 应用程序最小化的所有窗口

如何检测从 C 应用程序最小化的所有窗口其他应用程序使用这里的示例http pinvoke net default aspx user32 EnumDesktopWindows http pinvoke net default aspx
单独运行时单个规范通过，但运行所有规范时失败

我的 foo controller spec rb 中有 30 个规范当我使用规范运行整个文件时我得到 4 个失败和 2 个待处理当我单独运行 4 个失败的规范时其中 3 个仍然失败但其中一个通过了起初我认为这是一个数据库问题
C++ New 与 Malloc 用于对象的动态内存数组

我有一个 Bullet 类它的构造需要几个参数但是我使用动态内存阵列来存储它们我正在使用 C 所以我想通过使用 new 运算符来分配内存来符合它的标准问题是当我分配数组时 new 运算符要求构造函数参数而当时我没有我可以使用
从表中删除*不起作用[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在尝试删除all rows从表中但它不起作用当我做echo mydb gt error 它给了我以下内容 You have an e
Node-PerfectAPI vs Restify.js vs ExpressJS vs Node-APIServer [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我是 ExpressJS 的新手我想为我的服务创建 API 该服务将直接由其他服务器使用并且一部分也由移动应用程序浏览器使用我刚刚发现了
Dagger 和 mvp - 演示者是否应该使用 dagger 进行注入

我开始认为在mvp中匕首不应该在presenter中使用构造 dagger 的常用方法是使用全局组件并具有用于确定图形范围的子组件该全局组件通常在创建 appmodule java 类时将 applicationContext 作为参
如何在 Scala 中模拟“一次分配”变量？

这是一个后续问题我之前的初始化变量问题 https stackoverflow com questions 4400926 can i define method private fields in scala 假设我们正在处理这样的上下文
Android Profiler 未出现在 Android Studio 中

我想分析我的设备中的内存消耗但我没有找到Android 分析器Android Studio 中的选项卡如下所示请问谁能帮我显示这个选项卡如果你看一下顶部菜单你会看到个人资料图标单击它它将启动您的应用程序并附加配置文件请参阅下面的
Spark - Scala - saveAsHadoopFile 抛出错误

我想解决该问题但无法进一步进行有人可以帮忙吗 import org apache hadoop mapred lib MultipleTextOutputFormat class KeyBasedOutput T gt Null V l

Spark - Scala - saveAsHadoopFile 抛出错误

Spark - Scala - saveAsHadoopFile 抛出错误 的相关文章

随机推荐

热门标签

Spark - Scala - saveAsHadoopFile 抛出错误的相关文章