在scala Spark2中运行saveAsNewAPIHadoopDataset到hbase时出现空指针异常

2024-02-20

我正在使用 saveAsNewAPIHadoopDataset 将 RDD 保存到 Hbase 中。以下是我的工作创建和提交。

    val outputTableName = "test3"
    val conf2 = HBaseConfiguration.create()
    conf2.set("hbase.zookeeper.quorum", "xx.xx.xx.xx")
    conf2.set("hbase.mapred.outputtable", outputTableName)
    conf2.set("mapreduce.outputformat.class", "org.apache.hadoop.hbase.mapreduce.TableOutputFormat")

    val job = createJob(outputTableName, conf2)
    val outputTable = sc.broadcast(outputTableName)
    val hbasePuts = simpleRdd.map(k => convertToPut(k, outputTable))

    hbasePuts.saveAsNewAPIHadoopDataset(job.getConfiguration)

这是我的创造就业功能

def createJob(table: String, conf: Configuration): Job = {
    conf.set(TableOutputFormat.OUTPUT_TABLE, table)
    val job = Job.getInstance(conf, this.getClass.getName.split('$')(0))
    job.setOutputFormatClass(classOf[TableOutputFormat[String]])
    job
  }

该函数将数据转换为Hbase格式

def convertToPut(k: (String, String, String), outputTable: Broadcast[String]): (ImmutableBytesWritable, Put) = {
    val rowkey = k._1
    val put = new Put(Bytes.toBytes(rowkey))
    val one = Bytes.toBytes("cf1")
    val two = Bytes.toBytes("cf2")

    put.addColumn(one, Bytes.toBytes("a"), Bytes.toBytes(k._2))
    put.addColumn(two, Bytes.toBytes("a"), Bytes.toBytes(k._3))
    (new ImmutableBytesWritable(Bytes.toBytes(outputTable.value)), put)
  }

这是我在第 125 行遇到的错误，即：hbasePuts.saveAsNewAPIHadoopDataset(job.getConfiguration)

Exception in thread "main" java.lang.NullPointerException
    at org.apache.hadoop.hbase.security.UserProvider.instantiate(UserProvider.java:122)
    at org.apache.hadoop.hbase.client.ConnectionFactory.createConnection(ConnectionFactory.java:214)
    at org.apache.hadoop.hbase.client.ConnectionFactory.createConnection(ConnectionFactory.java:119)
    at org.apache.hadoop.hbase.mapreduce.TableOutputFormat.checkOutputSpecs(TableOutputFormat.java:177)
    at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopDataset$1.apply$mcV$sp(PairRDDFunctions.scala:1099)
    at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopDataset$1.apply(PairRDDFunctions.scala:1085)
    at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopDataset$1.apply(PairRDDFunctions.scala:1085)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
    at org.apache.spark.rdd.RDD.withScope(RDD.scala:362)
    at org.apache.spark.rdd.PairRDDFunctions.saveAsNewAPIHadoopDataset(PairRDDFunctions.scala:1085)
    at ScalaSpark$.main(ScalaSpark.scala:125)
    at ScalaSpark.main(ScalaSpark.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:738)
    at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:187)
    at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:212)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:126)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

我也遇到过同样的问题。我认为 org.apache.hadoop.hbase.mapreduce.TableOutputFormat 类中有一个错误。

TableOutputFormat原始代码如下：

public void checkOutputSpecs(JobContext context) throws IOException,
        InterruptedException {

    try (Admin admin = ConnectionFactory.createConnection(getConf()).getAdmin()) {
        TableName tableName = TableName.valueOf(this.conf.get(OUTPUT_TABLE));
        if (!admin.tableExists(tableName)) {
            throw new TableNotFoundException("Can't write, table does not exist:" +
                    tableName.getNameAsString());
        }

        if (!admin.isTableEnabled(tableName)) {
            throw new TableNotEnabledException("Can't write, table is not enabled: " +
                    tableName.getNameAsString());
        }
    }
}

如果我按如下方式修复它：

public void checkOutputSpecs(JobContext context) throws IOException,
        InterruptedException {

    //set conf by context parameter
    setConf(context.getConfiguration());

    try (Admin admin = ConnectionFactory.createConnection(getConf()).getAdmin()) {
        TableName tableName = TableName.valueOf(this.conf.get(OUTPUT_TABLE));
        if (!admin.tableExists(tableName)) {
            throw new TableNotFoundException("Can't write, table does not exist:" +
                    tableName.getNameAsString());
        }

        if (!admin.isTableEnabled(tableName)) {
            throw new TableNotEnabledException("Can't write, table is not enabled: " +
                    tableName.getNameAsString());
        }
    }
}

我的问题解决了。

Spark.hadoop.validateOutputSpecs

另一种解决方案是转Spark.hadoop.validateOutputSpecs https://spark.apache.org/docs/3.0.0/configuration.html#execution-behavior创建时关闭SparkSession.

val session = SparkSession.builder()
  .config("spark.hadoop.validateOutputSpecs", false)
  .getOrCreate()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

Hbase

apachespark20

在scala Spark2中运行saveAsNewAPIHadoopDataset到hbase时出现空指针异常的相关文章

无法向 kafka 主题发送消息

我正在使用 Kafka Play 以及 Scala 这是我的代码我想在其中发送消息到kafka服务器主题名称是测试主题尽管我没有在主题中看到我发送的消息但我没有收到任何错误这里有什么问题吗 import kafka produc
如何将 Java 字节数组转换为 Scala 字节数组？

我是 Scala 新手目前正在从事一个涉及 Java 和 Scala 模块的项目现在我想使用 byte 类型的参数从 Java 调用 Scala 方法 Scala 方法的签名为 def foo data Array Byte Java
Scala：如何将“MatchesRegex”细化与包含反引号的正则表达式（细化库）一起使用？

The refined https github com fthomas refined库允许定义与给定匹配的细化regex 如图所示Readme import eu timepit refined import eu timepit re
将元组划分为多个元组的类型安全方法

我们有一个特征除其他外还包含execute T lt Record Seq Session gt T Seq T 方法其中Record是我们从数据库中检索的所有特征的超级特征 trait DbTrait val threadCount
JavaFx ComboBox 绑定混乱

我有一个 I18N 实现它通过属性绑定 JavaFX UI 元素例如 def translateLabel l Label key String args Any Unit l textProperty bind createStrin
Scala 对大数的阶乘有时会崩溃，有时不会

以下程序经过编译和测试有时返回结果有时充满屏幕 java lang StackOverflowError at scala BigInt apply BigInt scala 47 at scala BigInt equals BigI
实现一个scala集合，以便map、filter等产生正确的类型

我正在尝试实施一个默认值映射 https stackoverflow com questions 3187411 designing a convenient default valued map in scala 我想要过滤器地图等De
演员邮箱溢出。斯卡拉

我目前正在与 scala 的两位演员合作一 producer 产生一些数据并将其发送到parcer 生产者发送一个HashMap String HashMap Object List Int 通过消息以及this标记发件人 parcer
使用 slick 3.0.0-RC1 无法在 TableQuery 上找到方法结果

我正在尝试 Slick3 0 0 RC1我遇到了一个奇怪的问题这是我的代码 import slick driver SQLiteDriver api import scala concurrent ExecutionContext Imp
如何在Scala中实现尾递归快速排序

我写了一个递归版本 def quickSort T xs List T p T T gt Boolean List T xs match case Nil gt Nil case gt val x xs head val left righ
选项包装值是一个好的模式吗？

我最近写了以下 Scala 代码 val f File pretend this file came from somewhere val foo toFoo io Source fromFile f mkString 我真的不喜欢这种方式
获取行 HBase 的特定列族中的列

我正在编写一个应用程序通过 JSP 显示 HBase 中特定表中的数据我想获取一行的特定列族中的所有列有什么办法可以做到这一点吗 public String getColumnsInColumnFamily Result r Stri
如何在 Scala 中编写 Pig UDF

我正在尝试在 Scala 中编写 Pig UDF 使用 Eclipse 我已将 pig jar 添加为 java 构建路径中的库这似乎解决了以下 2 个导入问题导入 org apache pig EvalFunc 导入 org apac
Spark - scala - 如何检查配置单元中是否存在表

我必须使用 Spark 1 6 2 scala 检查配置单元中是否存在表如果没有我必须创建一个空数据框并将其保存为配置单元表如果存在则覆盖现有表我需要一个返回布尔值的函数基于该函数我可以做出上述决定是否创建新表或覆盖现有表 1
“函数是第一等值”这到底是什么意思？

有人可以用一些很好的例子清楚地解释它吗在解释函数式编程时我在 Scala 中遇到了这句话一流并不是一个正式定义的概念但它通常意味着一个实体具有三个属性有可能used 不受限制只要普通值可以即从函数传递和返回放入容器等
覆盖 Predef 的隐式转换

我有多个返回 java lang Integer 的方法然后使用 Scala 的 Predef 隐式转换将其隐式转换为 Int 下面是它的编写方式there https github com scala scala blob v2 11
Scala Function.tupled 和 Function.untupled 等效于变量 arity，或者使用元组调用变量 arity 函数

昨晚我试图围绕接受和调用通用函数做一些事情即类型在调用站点上已知但可能因调用站点而异因此定义应该是跨参数通用的例如假设我有一个函数f A B C gt Z 其实这样的还有很多fs 我事先不知道所以我无法确定类型或数量A B C
Scala 中奇怪的类型不匹配

我希望这个问题还没有在其他地方得到解答在这里没有找到答案在我的本地化系统中我有一个名为 Language 的类 class Language val name String dict HashMap String String def
';'预期但发现“导入” - Scala 和 Spark

我正在尝试使用 Spark 和 Scala 来编译一个独立的应用程序我不知道为什么会收到此错误 topicModel scala 2 expected but import found error import org apache sp
如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro

随机推荐

如何使用 iTextSharp 编辑 PDF？

我想使用 C 代码以编程方式编辑 PDF 文件我知道这很难是否可以使用 itextsharp 或者有什么替代方案正如OP在对该问题的评论中澄清的那样标记删除的文本不应出现在 pdf 的打印视图中因此这里有一个简单的解决方案
如何修复“IMvcBuilder”不包含“AddXmlDataContractSerializerFormatters”的定义

我有最新的 Net Core v2 1 4 我尝试添加AddXmlDataContractSerializerFormatters in the Startup cs文件但它报告说IMvcBuilder不包含它的定义 My startup
将罗马数字转换为整数

我下面的罗马数字到整数转换器 https www selftaughtjs com algorithm sundays converting roman numerals https www selftaughtjs com algorit
委托泛型操作，其中泛型类型未知。如何创建这样的东西？

假设我有以下代码 static class Store
Active Storage：在 video_tag 中显示视频

在 Rails 5 2 应用程序中我想显示之前通过 Active Storage 在 S3 中上传的视频当我使用这个时我收到此错误 The asset is not present in the asset pipeline 我检查了
为什么编译器在没有闭包的情况下为委托添加额外的参数？

我正在玩delegates并注意到当我创建一个Func
如何解析Python库中的数据包？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案如何使用 python 从 pcap 文件或接口解析数据包我正在专门寻找一个使用记录良好的库的解决方案
如何以编程方式更改默认声音播放设备？

如何以编程方式更改 vista 中播放和录制的默认音频设备是否有像Windows XP中的声音管理器那样的注册表设置哪个 API 可以实现系统托盘音频设备切换器使用 Software Microsoft Multimedia Soun
零寄存器如何提高性能？

在 MIPS ISA 中有一个零寄存器 r0 始终给出零值这允许处理器任何产生要被丢弃的结果的指令都可以将其目标定向到该寄存器成为一个来源0 据说在这source https web archive org web 20170328
使用 pyspark 结构化流计算移动平均列

我正在使用 pyspark 处理一些传入的流数据我想向我的数据帧添加一个具有 50 秒移动平均值的新列我尝试使用带有 rangeBetween 的 Window 规范 import pyspark sql window as W w W
导入 mysql.connector ModuleNotFoundError：没有名为“mysql.connector”的模块； “mysql”不是一个包

导入 mysql connector ModuleNotFoundError 没有名为 mysql connector 的模块 mysql 不是一个包 pip 安装 mysql connector python rf python版本 3
无法显示希腊字符 .mdb 文件（PHP 和 ODBC）

我在显示 MS Access 2007 表中希腊语列中的文本时遇到问题我正在使用 PHP 和 dbc odbc pconnect Driver Microsoft Access Driver mdb Dbq mdbFilename use
使用 PHP 分块传输 FTP 上传？

是否可以使用 PHP 进行 FTP 上传我有文件需要上传到另一台服务器但我只能通过 FTP 访问该服务器不幸的是我无法增加该服务器上的超时时间有可能做到这一点吗基本上如果有一种方法可以写入文件的一部分然后附加下一部分并重复
如何使用图像代替box-shadow来达到类似的效果？

我想要实现如下图所示的框阴影效果图片在这里 https i stack imgur com BpqGM png 但是我不想使用css3box shadow财产这是因为我正在构建一个phonegap android应用程序并且在使用时存
使用react-loadable延迟加载组件的动态路径导入

我正在使用 create react app 创建一个应用程序并使用 React loadable 延迟加载组件我想要做的是导入加载器对象或react loadble模块的Loadable函数的动态路径 Code const Loada
npm install 缺少模块

在我能跑之前gulp在我的项目中我需要运行npm install 除了在我的计算机上之外这都有效因为我收到以下错误 Error Cannot find module socket io at Function Module resolv
加密会话变量有安全方面的好处吗？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
所有字母的正则表达式

我需要所有字母表的正则表达式我有一个输入和目标文本它们都可以属于不同的字母表我的意思是它们可以属于中文拉丁文西里尔文和任何其他字母我需要一个用于多语言输入和多语言目标文本的正则表达式有人对此有任何想法吗我该如何编写这个正则表
容器中的共享库

对于两个进程A和B 都使用库libc so libc so只加载到内存一次当 A 和 B 都运行在同一主机和同一 rootfs 上时这是正常情况对于容器来说如果A和B运行在不同的容器中 A和B是否共享相同的内存区域例如 image
在scala Spark2中运行saveAsNewAPIHadoopDataset到hbase时出现空指针异常

我正在使用 saveAsNewAPIHadoopDataset 将 RDD 保存到 Hbase 中以下是我的工作创建和提交 val outputTableName test3 val conf2 HBaseConfiguration cr

在scala Spark2中运行saveAsNewAPIHadoopDataset到hbase时出现空指针异常

Spark.hadoop.validateOutputSpecs

在scala Spark2中运行saveAsNewAPIHadoopDataset到hbase时出现空指针异常 的相关文章

随机推荐

热门标签

在scala Spark2中运行saveAsNewAPIHadoopDataset到hbase时出现空指针异常的相关文章