排除CDH中spark-core的依赖

2023-12-15

我正在使用 Structured Spark Streaming 写入来自 Kafka 的 HBase 数据。

我的集群发行版是：Hadoop 3.0.0-cdh6.2.0，我使用的是 Spark 2.4.0

我的代码如下：

val df = spark
 .readStream
 .format("kafka")
 .option("kafka.bootstrap.servers", bootstrapServers)
 .option("subscribe", topic)
 .option("failOnDataLoss", false)
 .load()
 .selectExpr("CAST(key AS STRING)" , "CAST(value AS STRING)")
 .as(Encoders.STRING)

df.writeStream
  .foreachBatch { (batchDF: Dataset[Row], batchId: Long) =>
     batchDF.write
           .options(Map(HBaseTableCatalog.tableCatalog->catalog, HBaseTableCatalog.newTable -> "6"))
          .format("org.apache.spark.sql.execution.datasources.hbase").save()
     }
     .option("checkpointLocation", checkpointDirectory)
     .start()
     .awaitTermination()

HBaseTableCatalog 使用 json4s-jackson_2.11 库。这个库包含在 Spark Core 中，但是版本不好，这会产生冲突......

为了解决这个问题，我排除了 Spark 核心中的 json4s-jackson_2.11 库，并在 pom 中添加了降级版本：

<dependency>
  <groupId>org.apache.spark</groupId>
  <artifactId>spark-core_2.11</artifactId>
  <version>2.4.0-cdh6.2.0</version>
  <exclusions>
    <exclusion>
      <groupId>org.json4s</groupId>
      <artifactId>json4s-jackson_2.11</artifactId>
    </exclusion>
  </exclusions>
</dependency>
<dependency>
  <groupId>org.json4s</groupId>
  <artifactId>json4s-jackson_2.11</artifactId>
  <version>3.2.11</version>
</dependency>

当我在我的语言环境机器中执行代码时，它工作得很好，但问题是，当我在cloudera集群中提交它时，我遇到了第一个库冲突错误：

Caused by: java.lang.NoSuchMethodError: org.json4s.jackson.JsonMethods$.parse(Lorg/json4s/JsonInput;Z)Lorg/json4s/JsonAST$JValue;
        at org.apache.spark.sql.execution.datasources.hbase.HBaseTableCatalog$.apply(HBaseTableCatalog.scala:257)
        at org.apache.spark.sql.execution.datasources.hbase.HBaseRelation.<init>(HBaseRelation.scala:80)
        at org.apache.spark.sql.execution.datasources.hbase.DefaultSource.createRelation(HBaseRelation.scala:59)
        at org.apache.spark.sql.execution.datasources.SaveIntoDataSourceCommand.run(SaveIntoDataSourceCommand.scala:45)
        at org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult$lzycompute(commands.scala:70)
        at org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult(commands.scala:68)
        at org.apache.spark.sql.execution.command.ExecutedCommandExec.doExecute(commands.scala:86)
        at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:131)
        at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:127)
        at org.apache.spark.sql.execution.SparkPlan$$anonfun$executeQuery$1.apply(SparkPlan.scala:155)
        at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
        at org.apache.spark.sql.execution.SparkPlan.executeQuery(SparkPlan.scala:152)
        at org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:127)
        at org.apache.spark.sql.execution.QueryExecution.toRdd$lzycompute(QueryExecution.scala:80)
        at org.apache.spark.sql.execution.QueryExecution.toRdd(QueryExecution.scala:80)
        at org.apache.spark.sql.DataFrameWriter$$anonfun$runCommand$1.apply(DataFrameWriter.scala:668)
        at org.apache.spark.sql.DataFrameWriter$$anonfun$runCommand$1.apply(DataFrameWriter.scala:668)
        at org.apache.spark.sql.execution.SQLExecution$$anonfun$withNewExecutionId$1.apply(SQLExecution.scala:78)
        at org.apache.spark.sql.execution.SQLExecution$.withSQLConfPropagated(SQLExecution.scala:125)
        at org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:73)
        at org.apache.spark.sql.DataFrameWriter.runCommand(DataFrameWriter.scala:668)
        at org.apache.spark.sql.DataFrameWriter.saveToV1Source(DataFrameWriter.scala:276)
        at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:270)
        at com.App$$anonfun$main$1.apply(App.scala:129)
        at com.App$$anonfun$main$1.apply(App.scala:126)

我知道集群有自己的hadoop和spark库并且它使用它们，所以，在spark提交中，我将confsspark.driver.userClassPathFirst和spark.executor.userClassPathFirst设置为true，但我有另一个错误并且我不明白：

Exception in thread "main" java.lang.ExceptionInInitializerError
        at org.apache.spark.deploy.yarn.YarnSparkHadoopUtil$.<init>(YarnSparkHadoopUtil.scala:48)
        at org.apache.spark.deploy.yarn.YarnSparkHadoopUtil$.<clinit>(YarnSparkHadoopUtil.scala)
        at org.apache.spark.deploy.yarn.Client$$anonfun$1.apply$mcJ$sp(Client.scala:83)
        at org.apache.spark.deploy.yarn.Client$$anonfun$1.apply(Client.scala:83)
        at org.apache.spark.deploy.yarn.Client$$anonfun$1.apply(Client.scala:83)
        at scala.Option.getOrElse(Option.scala:121)
        at org.apache.spark.deploy.yarn.Client.<init>(Client.scala:82)
        at org.apache.spark.deploy.yarn.YarnClusterApplication.start(Client.scala:1603)
        at org.apache.spark.deploy.SparkSubmit.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:851)
        at org.apache.spark.deploy.SparkSubmit.doRunMain$1(SparkSubmit.scala:167)
        at org.apache.spark.deploy.SparkSubmit.submit(SparkSubmit.scala:195)
        at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:86)
        at org.apache.spark.deploy.SparkSubmit$$anon$2.doSubmit(SparkSubmit.scala:926)
        at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:935)
        at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.lang.ClassCastException: org.apache.hadoop.yarn.api.records.impl.pb.PriorityPBImpl cannot be cast to org.apache.hadoop.yarn.api.records.Priority
        at org.apache.hadoop.yarn.api.records.Priority.newInstance(Priority.java:39)
        at org.apache.hadoop.yarn.api.records.Priority.<clinit>(Priority.java:34)
        ... 15 more

最后，我想要的是使用我的 pom 中的 json4s-jackson_2.11 而不是 Spark 核心中的 json4s-jackson_2.11 来创建 Spark

要解决此问题，请勿使用spark.driver.userClassPathFirst and spark.executor.userClassPathFirst但相反，使用spark.driver.extraClassPath and spark.executor.extraClassPath.

来自官方的定义文档：“附加到驱动程序类路径之前的额外类路径条目。”

“prepend”，放在 Spark 的核心类路径前面。

例子：

--conf Spark.driver.extraClassPath=C:\Users\Khalid\Documents\Projects\libs\jackson-annotations-2.6.0.jar;C:\Users\Khalid\Documents\Projects\libs\jackson-core-2.6 .0.jar;C:\Users\Khalid\Documents\Projects\libs\jackson-databind-2.6.0.jar

这解决了我的问题（我想使用的 Jackson 版本与正在使用的 Spark 版本之间存在冲突）。

希望能帮助到你。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Hadoop

ApacheKafka

Hbase

clouderacdh

排除CDH中spark-core的依赖的相关文章

“为 Apache Hadoop 2.7 及更高版本预构建”是什么意思？

Apache Spark 下载页面上的 pre built for Apache Hadoop 2 7 and later 是什么意思这是否意味着spark中HDFS必须有库如果是这样其他存储系统例如 Cassandra s3 HB
DataFrame 分区到单个 Parquet 文件（每个分区）

我想重新分区合并我的数据以便将其保存到每个分区的一个 Parquet 文件中我还想使用 Spark SQL partitionBy API 所以我可以这样做 df coalesce 1 write partitionBy entity
Apache Kafka Streams 将 KTable 物化到主题似乎很慢

我正在使用 kafka 流并试图将 KTable 具体化为一个主题它有效但似乎每 30 秒左右完成一次 Kafka Stream 如何何时决定将 KTable 的当前状态具体化为主题有没有什么办法可以缩短这个时间让其更加实时
如何删除spark输出中的compactbuffer

下面是我在spark shell中运行的程序但是当我将输出保存在HDFS中时我得到带有compactbuffer的输出如何删除spark输出中的compactbuffer Program val a sc textFile datag
Spark 对 RDD 中按值排序

我有一个火花对 RDD 键计数如下 Array String Int Array a 1 b 2 c 1 d 3 使用spark scala API如何获取按值排序的新RDD对所需结果 Array d 3 b 2 a 1 c 1 这应
为什么 Spark-ml ALS 模型返回 NaN 和负数预测？

实际上我正在尝试使用ALS from spark ml具有隐性评级我注意到我训练的模型给出的一些预测是negative or NaN 为什么 Apache Spark 提供了一个强制选项非负约束关于肌萎缩侧索硬化症因此要删除这些负值
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
Apache hadoop 版本 2.0 与 0.23

Hadoop 的版本和发行版太多让我很困惑我有几个问题 Apache Hadoop 1 x 是从 0 20 205 开始的 Apache Hadoop 2 0 是从 0 22 还是 0 23 开始根据这个blogpost http b
从 Spark 访问 Hdfs 会出现令牌缓存错误 Can't get Master Kerberosprincipal for use as renewer

我正在尝试运行测试 Spark 脚本以便将 Spark 连接到 hadoop 脚本如下 from pyspark import SparkContext sc SparkContext local Simple App file sc t
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
通过spark-shell以静默模式执行scala脚本

需要通过spark shell以静默模式执行scala脚本当我使用时spark shell i file scala 执行后我进入scala交互模式我不想进入那里我尝试执行spark shell i file scala 但我不知道
向数据框添加新列的问题 - Spark/scala

我是 Spark scala 的新手我正在尝试将一些数据从配置单元表读取到 Spark 数据帧然后根据某些条件添加一列这是我的代码 val DF hiveContext sql select from select from test
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
无法从 HBase 导出表

我无法将表从 HBase 导出到 HDFS 下面是错误跟踪它的尺寸相当大还有其他方法可以导出吗我使用下面的命令来导出我增加了 rpc 超时但作业仍然失败 sudo u hdfs hbase Dhbase rpc timeout 10
如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口

我有一个如下所示的 Spark DataFrame group id event time XXXX 2017 10 25 14 47 02 717013 XXXX 2017 10 25 14 47 25 444979 XXXX 2017
使用notebook时将jar添加到pyspark

我正在尝试将 mongodb hadoop 与 Spark 集成但不知道如何使 IPython 笔记本可以访问这些 jar 这是我想做的 set up parameters for reading from MongoDB via Had
java.io.IOException: EnsureRemaining: 仅剩余 0 个字节，尝试读取 1

我在 giraph 中的自定义类方面遇到一些问题我制作了 VertexInput 和 Output 格式但总是收到以下错误 java io IOException ensureRemaining Only bytes remaining
如何找到 JAR：/home/hadoop/contrib/streaming/hadoop-streaming.jar

我正在练习有关 Amazon EMR 的复数视角视频教程我被困住了因为我收到此错误而无法继续 Not a valid JAR home hadoop contrib streaming hadoop streaming jar 请注意
Spark 中的 RDD 和 Dataframe 有什么区别？ [复制]

这个问题在这里已经有答案了嗨我对 apache Spark 比较陌生我想了解 RDD 数据帧和数据集之间的区别例如我正在从 s3 存储桶中提取数据 df spark read parquet s3 output unattribu
从 Apache Kafka 中的主题删除消息

所以我是 Apache Kafka 的新手我正在尝试创建一个简单的应用程序以便我可以更好地理解 API 我知道这个问题在这里被问了很多但是如何清除存储在主题上的消息记录我看到的大多数答案都说要更改消息保留时间或删除并重新创建主题

随机推荐

如何在禁用 SSL 卸载的情况下使 ARR 正常工作？ 502.3 错误网关

所以我已经遇到这个错误好几天了我用谷歌搜索了又搜索但似乎没有什么可以解决我的情况我希望有人可以提供帮助问题当我在 ARR 路由规则中禁用 SSL 卸载时我收到以下信息 502 Web 服务器在充当 Web 服务器时收到无效响应
学习使用 Xcode 和 Objective-C 基础知识进行 iPhone 开发的最佳地点是哪里？ [关闭]

Closed 这个问题是基于意见的目前不接受答案当我说最好的地方时我指的是实体课程研讨会讲习班等它可能遍布世界各地 Thanks 我会避开神学院来学习 Objective C 我听说过关于大书呆子牧场培训班
C++ 多重继承转换如何工作？

这个问题帮助我理解了一些但我的问题与他们的略有不同据我了解 C 中的基本类型转换涉及将内存中的结构重新解释为不同的结构例如 class Building int sqFootage class Office public Buildi
RMarkdown 生成 HTML 文档注释/评论窗格

我正在从 Word 文档报告转向使用 RMarkdown 生成的 HTML 文件然而我的客户在放弃 Word 后会错过的一大功能是能够轻松地直接向文档添加注释是否存在一些 HTML Java 等代码片段可以在 HTML 文档的一侧添
ASP GridView 在按钮单击时获取行值

我正在做什么单击图像按钮时重置用户密码到目前为止已完成添加了 GridViewCommandEventHandler 它正确触发使用代码来自MSDN 我的 e CommandArgument 得到一个空字符串并且在运行时抛出错误
运行节点应用程序时 bcrypt 无效的 elf 标头

我正在为学校开发一个 Nodejs 项目我无法使用 npm 安装 bcrypt 所以我安装了 bcrypt nodejs 并且该项目昨天运行良好但是今天当我做节点应用程序时我遇到了这个错误 node modules bcrypt
PHP $_REQUEST 作为数组

我有一个搜索表单我想将搜索词作为数组 REQUEST 这样我就可以列出每个搜索词将每个搜索词包装在一个跨度中以进行样式设置我怎么做编辑这是请求的代码
Swift 3.0 无法解析 DispatchQueue 的标识符

我几个小时以来一直试图找到这个问题的答案但仍然无济于事我正在尝试使用以下代码 func fetchPosts ref child Amore child Posts observeSingleEventOfType Value with
我正在尝试将 SFTP 文件（SAS 数据集或令牌）从一台服务器传输到 SAS 中的另一台服务器

这是我第一次尝试使用 SAS 对文件进行 SFTP 我尝试使用文件名语句但出现了一些错误 let user userid filename source sftp input sas7bdat user user pass passwor
如何使用多部分实体将图像上传到服务器？

我正在创建一个应用程序并在我的应用程序中添加了一个选项来从图库浏览图像然后上传到服务器我之前问过这个问题但没有得到好的答案为了上传图像我正在遵循本教程http mayanklangalia blogspot in 2014 04
在 DLL 上使用 WPF 动态创建图像（而不是 GDI+）

我需要动态生成图像在阅读教程后here我意识到我可以使用 WPF 中的所有控件和布局来生成渲染然后将其另存为 JPG 这个想法是使用它来代替 GDI 这是相当原始的问题是如何创建一个常规 dll 文件该文件将以编程方式生成 WPF
使用进程构建器执行两个命令

我正在尝试编写一个程序从命令提示符编译另一个 java 文件不过我有一个问题此时它已成功执行编译 Mocha java 的第一部分但是我希望它也执行该文件并显示它的输出内容它什么也没显示有什么建议么 pb new Proce
以编程方式将加载项宏添加到快速访问工具栏

我有一个用于格式化 Excel 报告的宏该宏需要在许多不同的工作簿上运行因为每天都会生成报告并将其保存到新文件中这已经在我的个人作业簿中了我现在需要分享这个宏我的计划是将该加载项放在我的本地加载项文件夹中在那里进行任何更新并运行
为Nextjs动态路由添加前缀

我定义了很多路由其中一条路由专用于用户配置文件每个用户都有一个可通过 HTTP example com username 访问的公共配置文件我尝试过创建文件pages username js但它似乎不起作用有没有办法在不通过用户名
当主键具有不同名称时，如何使用 TPT 继承模型？

针对旧数据库使用 Entity Framework 4 1 我无法生成一组非复数的 TPT 继承模型工作集并且对公共主键使用不同的名称我正在使用数据库表组织帐户和公司如下所示 Organization Organization
在 VBScript 中读取音乐文件长度

我只是想知道是否有一种方法可以通过 VBScript 将 mp3 文件的长度以秒为单位获取到变量中改编自我的答案关于 JScript 的类似问题您可以使用GetDetailsOfWindows Shell 的方法Folder对象获取音频
将 WordPress jQuery 添加到自定义页面模板

我有一个插件它有一个下面的自定义页面模板该模板需要 jQuery 我有一个变量 link to js 喜欢 google 库但我希望它将它链接到 WordPress 内部 jQuery 库
如何在 html 片段的 X 段之后插入文本字符串？ [复制]

这个问题在这里已经有答案了可能的重复如何用PHP解析和处理HTML content p This is the first paragraph p p This is the second paragraph p p This is t
WCF 服务的 SOAP 消息的服务器端跟踪

我正在努力追随本教程为我的 WCF 服务配置服务器端 SOAP 跟踪以及MSDN 文档当我运行测试时我在 Microsoft 服务跟踪查看器中看到活动 00000000 但消息选项卡为空 C temp Web tracelog svc
排除CDH中spark-core的依赖

我正在使用 Structured Spark Streaming 写入来自 Kafka 的 HBase 数据我的集群发行版是 Hadoop 3 0 0 cdh6 2 0 我使用的是 Spark 2 4 0 我的代码如下 val df sp

排除CDH中spark-core的依赖

排除CDH中spark-core的依赖 的相关文章

随机推荐

热门标签

排除CDH中spark-core的依赖的相关文章