Spark 在 Hbase 的 InputSplit 期间给出空指针异常

2024-03-13

我正在使用 Spark 1.2.1、Hbase 0.98.10 和 Hadoop 2.6.0。从 hbase 检索数据时出现空点异常。找到下面的堆栈跟踪。

[sparkDriver-akka.actor.default-dispatcher-2] 调试 NewHadoopRDD - 无法使用InputSplit#getLocationInfo。 java.lang.NullPointerException：空在 scala.collection.mutable.ArrayOps$ofRef$.length$extension(ArrayOps.scala:114) ~[scala-library-2.10.4.jar:na] 在 scala.collection.mutable.ArrayOps$ofRef.length(ArrayOps.scala:114) ~[scala-library-2.10.4.jar:na] 在 scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:32) ~[scala-library-2.10.4.jar:na] 在 scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:108) ~[scala-library-2.10.4.jar:na] 在 org.apache.spark.rdd.HadoopRDD$.convertSplitLocationInfo(HadoopRDD.scala:401) 〜[spark-core_2.10-1.2.1.jar:1.2.1] 在 org.apache.spark.rdd.NewHadoopRDD.getPreferredLocations(NewHadoopRDD.scala:215) 〜[spark-core_2.10-1.2.1.jar:1.2.1] 在 org.apache.spark.rdd.RDD$$anonfun$preferredLocations$2.apply(RDD.scala:234) [spark-core_2.10-1.2.1.jar:1.2.1] 在 org.apache.spark.rdd.RDD$$anonfun$preferredLocations$2.apply(RDD.scala:234) [spark-core_2.10-1.2.1.jar:1.2.1] 在 scala.Option.getOrElse(Option.scala:120) [scala-library-2.10.4.jar:na] 在 org.apache.spark.rdd.RDD.preferredLocations(RDD.scala:233) [spark-core_2.10-1.2.1.jar:1.2.1] 在 org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal(DAGScheduler.scala:1326) [spark-core_2.10-1.2.1.jar:1.2.1] 在 org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal$2$$anonfun$apply$2.apply$mcVI$sp(DAGScheduler.scala:1336) [spark-core_2.10-1.2.1.jar:1.2.1] 在 org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal$2$$anonfun$apply$2.apply(DAGScheduler.scala:1335) [spark-core_2.10-1.2.1.jar:1.2.1] 在 org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal$2$$anonfun$apply$2.apply(DAGScheduler.scala:1335) [spark-core_2.10-1.2.1.jar:1.2.1] 在 scala.collection.immutable.List.foreach(List.scala:318) [scala-library-2.10.4.jar:na] 在 org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal$2.apply(DAGScheduler.scala:1335) [spark-core_2.10-1.2.1.jar:1.2.1] 在 org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal$2.apply(DAGScheduler.scala:1333) [spark-core_2.10-1.2.1.jar:1.2.1] 在 scala.collection.immutable.List.foreach(List.scala:318) [scala-library-2.10.4.jar:na] 在 org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal(DAGScheduler.scala:1333) [spark-core_2.10-1.2.1.jar:1.2.1] 在 org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal$2$$anonfun$apply$2.apply$mcVI$sp(DAGScheduler.scala:1336) [spark-core_2.10-1.2.1.jar:1.2.1] 在 org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal$2$$anonfun$apply$2.apply(DAGScheduler.scala:1335) [spark-core_2.10-1.2.1.jar:1.2.1] 在 org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal$2$$anonfun$apply$2.apply(DAGScheduler.scala:1335) [spark-core_2.10-1.2.1.jar:1.2.1] 在 scala.collection.immutable.List.foreach(List.scala:318) [scala-library-2.10.4.jar:na] 在 org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal$2.apply(DAGScheduler.scala:1335) [spark-core_2.10-1.2.1.jar:1.2.1] 在 org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal$2.apply(DAGScheduler.scala:1333) [spark-core_2.10-1.2.1.jar:1.2.1] 在 scala.collection.immutable.List.foreach(List.scala:318) [scala-library-2.10.4.jar:na] 在 org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$getPreferredLocsInternal(DAGScheduler.scala:1333) [spark-core_2.10-1.2.1.jar:1.2.1] 在 org.apache.spark.scheduler.DAGScheduler.getPreferredLocs(DAGScheduler.scala:1304) [spark-core_2.10-1.2.1.jar:1.2.1] 在 org.apache.spark.scheduler.DAGScheduler$$anonfun$17.apply(DAGScheduler.scala:862) [spark-core_2.10-1.2.1.jar:1.2.1] 在 org.apache.spark.scheduler.DAGScheduler$$anonfun$17.apply(DAGScheduler.scala:859) [spark-core_2.10-1.2.1.jar:1.2.1] 在 scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244) [scala-library-2.10.4.jar:na] 在 scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244) [scala-library-2.10.4.jar:na] 在 scala.collection.Iterator$class.foreach(Iterator.scala:727) [scala-library-2.10.4.jar:na] 在 scala.collection.AbstractIterator.foreach(Iterator.scala:1157) [scala-library-2.10.4.jar:na] 在 scala.collection.IterableLike$class.foreach(IterableLike.scala:72) [scala-library-2.10.4.jar:na] 在 scala.collection.AbstractIterable.foreach(Iterable.scala:54) [scala-library-2.10.4.jar:na] 在 scala.collection.TraversableLike$class.map(TraversableLike.scala:244) [scala-library-2.10.4.jar:na] 在 scala.collection.AbstractTraversable.map(Traversable.scala:105) [scala-library-2.10.4.jar:na] 在 org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$submitMissingTasks(DAGScheduler.scala:859) [spark-core_2.10-1.2.1.jar:1.2.1] 在 org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$submitStage(DAGScheduler.scala:778) [spark-core_2.10-1.2.1.jar:1.2.1] 在 org.apache.spark.scheduler.DAGScheduler.handleJobSubmited(DAGScheduler.scala:762) [spark-core_2.10-1.2.1.jar:1.2.1] 在 org.apache.spark.scheduler.DAGSchedulerEventProcessActor$$anonfun$receive$2.applyOrElse(DAGScheduler.scala:1389) [spark-core_2.10-1.2.1.jar:1.2.1] 在 akka.actor.Actor$class.aroundReceive(Actor.scala:465) [akka-actor_2.10-2.3.4-spark.jar:na] 在 org.apache.spark.scheduler.DAGSchedulerEventProcessActor.aroundReceive(DAGScheduler.scala:1375) [spark-core_2.10-1.2.1.jar:1.2.1] 在 akka.actor.ActorCell.receiveMessage(ActorCell.scala:516) [akka-actor_2.10-2.3.4-spark.jar:na] 在 akka.actor.ActorCell.invoke(ActorCell.scala:487) [akka-actor_2.10-2.3.4-spark.jar:na] 在 akka.dispatch.Mailbox.processMailbox(Mailbox.scala:238) [akka-actor_2.10-2.3.4-spark.jar:na] 在 akka.dispatch.Mailbox.run(Mailbox.scala:220) [akka-actor_2.10-2.3.4-spark.jar:na] 在 akka.dispatch.ForkJoinExecutorConfigurator$AkkaForkJoinTask.exec(AbstractDispatcher.scala:393) [akka-actor_2.10-2.3.4-spark.jar:na] 在 scala.concurrent.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260) [scala-library-2.10.4.jar:na] 在 scala.concurrent.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339) [scala-library-2.10.4.jar:na] 在 scala.concurrent.forkjoin.ForkJoinPool.runWorker（ForkJoinPool.java:1979） [scala-library-2.10.4.jar:na] 在 scala.concurrent.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107) [scala-library-2.10.4.jar:na]

请为我提供这个问题的解决方案。

异常是在 getPreferredLocations 阶段抛出的，因此如果没有有关您的 hbase 配置的更多信息，我建议您查看 hbase.table.name 和 hbase.master （如果定义 HMaster 正确，我不会这样做）配置为您想

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

Hadoop

MapReduce

Hbase

apachespark

Spark 在 Hbase 的 InputSplit 期间给出空指针异常的相关文章

Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
如何在 Scala 中编写 Pig UDF

我正在尝试在 Scala 中编写 Pig UDF 使用 Eclipse 我已将 pig jar 添加为 java 构建路径中的库这似乎解决了以下 2 个导入问题导入 org apache pig EvalFunc 导入 org apac
Joda Time 类没有任何构造函数...为什么？我做错了什么？

显然 Eclipse 上的 Scala 试图让我相信DateTime Period DateMidnightJoda Time 中的许多其他类没有任何构造函数考虑到它们的文档显示了构造函数和许多方法这很奇怪我唯一可以访问的是静态方法
hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
列对象不可调用 Spark

我尝试安装 Spark 并运行教程中给出的命令但出现以下错误 https spark apache org docs latest quick start html https spark apache org docs latest q
Kubernetes WatchConnectionManager：执行失败：HTTP 403

我遇到错误Expected HTTP 101 response but was 403 Forbidden 在我使用以下命令设置新的 Kubernetes 集群之后Kubeadm当我提交下面遇到的 pyspark 示例应用程序时只有一个主
在 Amazon EMR 上使用 java 中的 hbase 时遇到问题

因此我尝试使用作为 MapReduce 步骤启动的自定义 jar 来查询 Amazon ec2 上的 hbase 集群我的 jar 在地图函数内我这样调用 Hbase public void map Text key BytesWri
Scala REPL 中的递归重载语义 - JVM 语言

使用 Scala 的命令行 REPL def foo x Int Unit def foo x String Unit println foo 2 gives error type mismatch found Int 2 required
在 Akka/Scala 中使用带有 future 的 mapTo

我最近开始使用 Akka Scala 编码遇到了以下问题通过范围内的隐式转换例如 implicit def convertTypeAtoTypeX a TypeA TypeX TypeX just some kinda convers
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
减少/折叠幺半群列表，但减少器返回任一

我发现自己遇到过几次这样的情况我有一个减速器组合 fn 如下所示 def combiner a String b String Either String String a b asRight String 它是一个虚拟实现但 fn
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
Scala 2.9 无法在 Windows XP 上运行“hello world”示例

我正在尝试在 Windows XP 上使用 scala 2 9 1 Final 运行 HelloWorld 示例 object HelloWorld extends App println Hello World 文件另存为Hello sc
如何从命令行向 REPL 添加导入？

如何使 REPL 导入命令行中给出的包 Sample scala someMagicHere import sys error scala gt imports 1 import scala Predef 162 terms 78 are
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
更改 build.sbt 自定义任务中的版本

我在 build sbt 中定义了一个自定义任务 val doSmth taskKey Unit smth doSmth version 1 0 SNAPSHOT 但它不会改变版本我真正想要的是自定义 sbt 发布任务它将始终将相同的版
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
可选择将项目添加到 Scala 映射

我正在寻找这个问题的惯用解决方案我正在构建一个valScala 不可变 Map 并希望有选择地添加一项或多项 val aMap Map key1 gt value1 key2 gt value2 if condition key3 gt
在 Spark MLlib 上使用 Java 中的 Breeze

在尝试从Java使用MLlib时使用微风矩阵运算的正确方法是什么例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的有一些方法例如 colon times 可以通过正确的方式调用 breez
规范化且不可变的数据模型

Haskell如何解决规范化不可变数据结构问题例如让我们考虑一个表示前女友男友的数据结构 data Man Man name String exes Woman data Woman Woman name String exes

随机推荐

Scala 额外的无参数构造函数加上默认构造函数参数

我在构造函数上使用 Scala 2 8 默认参数并且出于 Java 兼容性原因我想要一个使用默认参数的无参数构造函数由于非常合理的原因这不起作用 class MyClass field1 String foo field2 Stri
Microsoft.office.interop.word.dll 可以在不安装 Office 的情况下工作吗？

我的 ASP Net C 应用程序与 mailmerge 和名为 Microsoft Office Interop Word dll V14 0 0 0 的 dll 一起使用我的桌面安装了 Office 上一切正常但是当这个应用程序部
C# 中继承的调用构造函数的顺序[重复]

这个问题在这里已经有答案了我刚刚在读 C 中的继承其中我遇到了构造函数并写道构造函数按照派生顺序执行这是什么意思基类构造函数将首先被调用或派生类首先调用一个基类的Constructor 参考下面的例子 Demonstrate
Java Files.copy 替换现有的完全删除文件

我有一些代码旨在打开本地主文件进行添加并通过覆盖主文件和覆盖可访问网络位置上的写保护副本来保存文件这是通过将修改后的文件保存到临时文件然后复制其他两个文件来完成的 String tempFileName File tmp Strin
动态正则表达式生成，用于数据馈送中可预测的重复字符串模式

我目前正在尝试处理一些我无法控制的数据源其中我使用 C 中的正则表达式来提取信息数据源的发起者从数据库中提取基本行数据如产品名称价格等然后在英文文本行中格式化该数据对于每一行一些文本是重复的静态文本一些是从数据库动态生成的文
SandCastle Help Builder：搜索功能

我对 SandCastle 的输出非常满意但我还想在 HTML 输出中包含一些搜索功能这可能吗 SandCastle 帮助文件生成器的网站输出包含索引 aspx and 索引 html 如果您显示索引 html那么您就不会获得搜索或索引
deque如何具有摊余常数时间复杂度

I read here https stackoverflow com questions 22306949 does deque provide o1 complexity when inserting on top从接受的答案来看 st
带有重复选标记字符的 IOS 5.1 UILabel 忽略 TextColor

我一直在开发一款 iOS 应用程序最近升级到了 xCode 4 3 1 和 iOS 5 1 模拟器并且只有一个字符时遇到了一个非常奇怪的问题它在字符查看器中称为重复选标记在我的 5 0 1 及更低版本的应用程序中看起来很棒并
是否可以指定 getopts 条件的执行顺序？

在 bash 脚本中我想从配置文件加载设置并使用命令行选项覆盖各个设置如果在配置文件和命令行中都指定了设置则应优先考虑命令行设置如何确保配置文件在其他 getopts 块之前加载这是我所得到的 bin bash while get
语法错误，插入“...VariableDeclaratorId”来完成FormalParameterList

我遇到此代码的一些问题 import edu uci ics crawler4j crawler CrawlConfig import edu uci ics crawler4j crawler CrawlController import
Git 将系统配置文件视为主目录而不是用户主文件夹 (Windows 7)

我是 Git 新手正在关注这个 Bitbucket 教程 https confluence atlassian com display BITBUCKET Set up SSH for Git用于初始设置在里面Git Bash http
为什么我们需要在实体中声明 NOT 空构造函数？

我知道实体中必须有一个不带参数的构造函数但最近我也看到了带参数的构造函数我不明白为什么需要它以及它是如何工作的对于休眠实体您应该至少提供一个不带参数的默认构造函数如果您的实体有很多字段并且只有几个字段您可以创建带有强制参数的
如何将 CSS 文件内容导入到 Javascript 变量中

考虑一个使用 Shadow DOM 的非常简单的自定义元素 customElements define shadow element class ShadowElement extends HTMLElement constructor s
当我打开 Chrome 开发人员工具时，Visual Studio Community 2017 停止调试

我正在开发一个 apache cordova 应用程序我做了两种不同的调试首先是在我的本地浏览器 chrome 上然后是在实际设备上在chrome中调试时我在VS中设置了断点所有断点都被击中然后当我在 Chrome 上打开开
如何使用 POST 和 Cookie 使用 cURL 登录

服务器成功接收登录名密码和验证码我该如何用 cookie 来做到这一点我不知道需要什么信息来帮助我将显示全部登录表单 div div img src logo png border 0 div div class loginBar
模拟和验证对包含 Expression> 参数的方法的调用

我想使用 Moq 或 RhinoMocks 模拟此接口以验证是否将正确的表达式作为参数传递并愿意切换到可以支持此功能的任何其他开源模拟库完整源代码 public class Record public int RecordId get
如何在客户端检测关闭的StreamSocket

DataReader LoadAsync 不检测关闭的套接字使用 InputStreamOptions Partial 我通过 TCP 连接向服务器发送数据并读取响应但之后一切正常但在 5 6 条消息之后我的项目已经完成我没有找到
如何通过 Gradle 任务使用 Spring 配置文件运行 bootRun？

我正在尝试设置 Gradle 来启动bootRun启用各种 Spring 配置文件的过程我现在的bootRun配置看起来像 bootRun pass command line options from gradle to bootRun
如何检测 Zend Framework 表单上按下了哪个提交按钮？

我有一个 Zend Framework 表单有两个提交按钮 changes new Zend Form Element Submit save changes changes gt setLabel Save Changes delete
Spark 在 Hbase 的 InputSplit 期间给出空指针异常

我正在使用 Spark 1 2 1 Hbase 0 98 10 和 Hadoop 2 6 0 从 hbase 检索数据时出现空点异常找到下面的堆栈跟踪 sparkDriver akka actor default dispatcher 2

Spark 在 Hbase 的 InputSplit 期间给出空指针异常

Spark 在 Hbase 的 InputSplit 期间给出空指针异常 的相关文章

随机推荐

热门标签

Spark 在 Hbase 的 InputSplit 期间给出空指针异常的相关文章