将 Spark 设置为 Hive 的默认执行引擎

2024-03-10

Hadoop 2.7.3、Spark 2.1.0 和 Hive 2.1.1。

我正在尝试将 Spark 设置为配置单元的默认执行引擎。我将 $SPARK_HOME/jars 中的所有 jar 上传到 hdfs 文件夹，并将 scala-library、spark-core 和 Spark-network-common jar 复制到 HIVE_HOME/lib。然后我使用以下属性配置 hive-site.xml：

  <property>
    <name>hive.execution.engine</name>
    <value>spark</value>
  </property>
  <property>
    <name>spark.master</name>
    <value>spark://master:7077</value>
    <description>Spark Master URL</description>
  </property>
  <property>
    <name>spark.eventLog.enabled</name>
    <value>true</value>
    <description>Spark Event Log</description>
  </property>
  <property>
    <name>spark.eventLog.dir</name>
    <value>hdfs://master:8020/user/spark/eventLogging</value>
    <description>Spark event log folder</description>
  </property>
  <property>
    <name>spark.executor.memory</name>
    <value>512m</value>
    <description>Spark executor memory</description>
  </property>
  <property>
    <name>spark.serializer</name>
    <value>org.apache.spark.serializer.KryoSerializer</value>
    <description>Spark serializer</description>
  </property>
  <property>
  <name>spark.yarn.jars</name>
  <value>hdfs://master:8020/user/spark/spark-jars/*</value>
</property>

在 hive shell 中，我执行了以下操作：

hive> add jar ${env:HIVE_HOME}/lib/scala-library-2.11.8.jar;
Added [/usr/local/hive/hive-2.1.1/lib/scala-library-2.11.8.jar] to class path
Added resources: [/usr/local/hive/hive-2.1.1/lib/scala-library-2.11.8.jar]
hive> add jar ${env:HIVE_HOME}/lib/spark-core_2.11-2.1.0.jar;
Added [/usr/local/hive/hive-2.1.1/lib/spark-core_2.11-2.1.0.jar] to class path
Added resources: [/usr/local/hive/hive-2.1.1/lib/spark-core_2.11-2.1.0.jar]
hive> add jar ${env:HIVE_HOME}/lib/spark-network-common_2.11-2.1.0.jar;
Added [/usr/local/hive/hive-2.1.1/lib/spark-network-common_2.11-2.1.0.jar] to class path
Added resources: [/usr/local/hive/hive-2.1.1/lib/spark-network-common_2.11-2.1.0.jar]
hive> set hive.execution.engine=spark;

当我尝试执行时

hive> 从表名中选择计数（*）；

我得到以下信息：

Query ID = hduser_20170130230014_6e23dacc-78e8-4bd6-9fad-1344f6d0569e
Total jobs = 1
Launching Job 1 out of 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapreduce.job.reduces=<number>
Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spark client.)'
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.spark.SparkTask

Hive 日志显示java.lang.NoClassDefFoundError: org/apache/spark/JavaSparkListener

ERROR [main] client.SparkClientImpl: Error while waiting for client to connect.
java.util.concurrent.ExecutionException: java.lang.RuntimeException: Cancel client 'cc10915b-da97-4fd7-9960-49c03ea380d7'. Error: Child process exited before connecting back with error log Warning: Ignoring non-spark config property: hive.spark.client.server.connect.timeout=90000
Warning: Ignoring non-spark config property: hive.spark.client.rpc.threads=8
Warning: Ignoring non-spark config property: hive.spark.client.connect.timeout=1000
Warning: Ignoring non-spark config property: hive.spark.client.secret.bits=256
Warning: Ignoring non-spark config property: hive.spark.client.rpc.max.size=52428800
java.lang.NoClassDefFoundError: org/apache/spark/JavaSparkListener
    at java.lang.ClassLoader.defineClass1(Native Method)
    at java.lang.ClassLoader.defineClass(ClassLoader.java:763)
    at java.security.SecureClassLoader.defineClass(SecureClassLoader.java:142)
    at java.net.URLClassLoader.defineClass(URLClassLoader.java:467)
    at java.net.URLClassLoader.access$100(URLClassLoader.java:73)
    at java.net.URLClassLoader$1.run(URLClassLoader.java:368)
    at java.net.URLClassLoader$1.run(URLClassLoader.java:362)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(URLClassLoader.java:361)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:348)
    at org.apache.spark.util.Utils$.classForName(Utils.scala:229)
    at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:695)
    at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:187)
    at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:212)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:126)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.lang.ClassNotFoundException: org.apache.spark.JavaSparkListener
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    ... 19 more

    at io.netty.util.concurrent.AbstractFuture.get(AbstractFuture.java:37)
    at org.apache.hive.spark.client.SparkClientImpl.<init>(SparkClientImpl.java:106)
    at org.apache.hive.spark.client.SparkClientFactory.createClient(SparkClientFactory.java:80)
    at org.apache.hadoop.hive.ql.exec.spark.RemoteHiveSparkClient.createRemoteClient(RemoteHiveSparkClient.java:99)
    at org.apache.hadoop.hive.ql.exec.spark.RemoteHiveSparkClient.<init>(RemoteHiveSparkClient.java:95)
    at org.apache.hadoop.hive.ql.exec.spark.HiveSparkClientFactory.createHiveSparkClient(HiveSparkClientFactory.java:69)
    at org.apache.hadoop.hive.ql.exec.spark.session.SparkSessionImpl.open(SparkSessionImpl.java:62)
    at org.apache.hadoop.hive.ql.exec.spark.session.SparkSessionManagerImpl.getSession(SparkSessionManagerImpl.java:114)
    at org.apache.hadoop.hive.ql.exec.spark.SparkUtilities.getSparkSession(SparkUtilities.java:136)
    at org.apache.hadoop.hive.ql.exec.spark.SparkTask.execute(SparkTask.java:89)
    at org.apache.hadoop.hive.ql.exec.Task.executeTask(Task.java:197)
    at org.apache.hadoop.hive.ql.exec.TaskRunner.runSequential(TaskRunner.java:100)
    at org.apache.hadoop.hive.ql.Driver.launchTask(Driver.java:2073)
    at org.apache.hadoop.hive.ql.Driver.execute(Driver.java:1744)
    at org.apache.hadoop.hive.ql.Driver.runInternal(Driver.java:1453)
    at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1171)
    at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1161)
    at org.apache.hadoop.hive.cli.CliDriver.processLocalCmd(CliDriver.java:232)
    at org.apache.hadoop.hive.cli.CliDriver.processCmd(CliDriver.java:183)
    at org.apache.hadoop.hive.cli.CliDriver.processLine(CliDriver.java:399)
    at org.apache.hadoop.hive.cli.CliDriver.executeDriver(CliDriver.java:776)
    at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:714)
    at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:641)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.hadoop.util.RunJar.run(RunJar.java:221)
    at org.apache.hadoop.util.RunJar.main(RunJar.java:136)
Caused by: java.lang.RuntimeException: Cancel client 'cc10915b-da97-4fd7-9960-49c03ea380d7'. Error: Child process exited before connecting back with error log Warning: Ignoring non-spark config property: hive.spark.client.server.connect.timeout=90000
Warning: Ignoring non-spark config property: hive.spark.client.rpc.threads=8
Warning: Ignoring non-spark config property: hive.spark.client.connect.timeout=1000
Warning: Ignoring non-spark config property: hive.spark.client.secret.bits=256
Warning: Ignoring non-spark config property: hive.spark.client.rpc.max.size=52428800
java.lang.NoClassDefFoundError: org/apache/spark/JavaSparkListener
    at java.lang.ClassLoader.defineClass1(Native Method)
    at java.lang.ClassLoader.defineClass(ClassLoader.java:763)
    at java.security.SecureClassLoader.defineClass(SecureClassLoader.java:142)
    at java.net.URLClassLoader.defineClass(URLClassLoader.java:467)
    at java.net.URLClassLoader.access$100(URLClassLoader.java:73)
    at java.net.URLClassLoader$1.run(URLClassLoader.java:368)
    at java.net.URLClassLoader$1.run(URLClassLoader.java:362)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(URLClassLoader.java:361)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:348)
    at org.apache.spark.util.Utils$.classForName(Utils.scala:229)
    at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:695)
    at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:187)
    at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:212)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:126)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.lang.ClassNotFoundException: org.apache.spark.JavaSparkListener
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    ... 19 more

请帮助我在 Spark 2.1.0 上集成 Hive 2.1.1。

这是 Spark 中的一个错误，org.apache.spark.JavaSparkListener 类已从 Spark 2.0.0 中删除。它已被修复并正在审查过程中。如果修复获得批准，那么它将在下一个 Spark 中可用（可能是 Spark 2.2.0）

https://issues.apache.org/jira/browse/SPARK-17563 https://issues.apache.org/jira/browse/SPARK-17563

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 Spark 设置为 Hive 的默认执行引擎的相关文章

Curl下载到HDFS

我有这个代码 curl o fileName csv url xargs hdfs dfs moveFromLocal 1 somePath 当我执行此代码时 curl 将请求中的值放入 fileName csv 中该文件将移动到 HDF
KryoSerializer 找不到我的 SparkKryoRegistrator

我在 Amazon emr 5 2 1 上以客户端模式使用 Spark 2 0 2 我使用 Kryo 序列化并在我们自己的 KryoRegistrator 中注册我们的类 val sparkConf new SparkConf set sp
使用 zeppelin 在 kubernetes 上 Spark

我按照本指南在使用 minikube 设置的本地 kubernetes 集群中运行 zeppelin 容器 https zeppelin apache org docs 0 9 0 SNAPSHOT quickstart kubernete
在 Windows 上安装 Apache Spark

我需要安装阿帕奇火花 http spark apache org 在 Windows 机器上根据文档我应该在我的机器上安装 sbt 并覆盖其默认选项以使用最大 2G RAM 经过多次尝试后我决定选择 maven 我覆盖了默认选项以使用
PySpark 将“map”类型的列转换为数据框中的多列

Input 我有一个专栏Parameters类型的map形式 from pyspark sql import SQLContext sqlContext SQLContext sc d Parameters foo 1 bar 2 baz
使用 UDF 添加文件读取添加到 Hive 资源的文件

我想知道如何读取使用添加的 Hive 资源ADD FILE来自乌德夫例如 Hive gt add file users temp key jks Java中的UDF可以读取这个文件吗在 Udf 中获取此文件的路径是什么谢谢大卫一旦
2017 年在 OS X 上从源代码构建 Apache Hadoop

到目前为止我已经分叉了 Git 存储库 https github com apache hadoop 我一直在寻找有关如何从源代码构建的信息我尝试过以下命令 mvn package Pdist Dtar DskipTests 这导致了以
Spark 使用自定义架构读取镶木地板

我正在尝试使用自定义架构导入镶木地板格式的数据但它返回类型错误 option 缺少 1 个必需的位置参数值 ProductCustomSchema StructType StructField id sku IntegerType T
在 Spark Dataframe 中将空值替换为 null

我有一个包含 n 列的数据框我想用空值替换所有这些列中的空字符串我尝试使用 val ReadDf rawDF na replace columnA Map gt null and val ReadDf rawDF withColumn
左反加入Spark？

我定义了两个表如下所示 val tableName table1 val tableName2 table2 val format new SimpleDateFormat yyyy MM dd val data List List mi
Spark DataFrame 删除重复项并保留第一个

问题在 pandas 中当删除重复项时您可以指定要保留哪些列 Spark Dataframes 中有等效的吗 Pandas df sort values actual datetime ascending False drop dup
为什么组合器输入记录的数量比映射的输出数量多？

Combiner 在 Mapper 之后 Reducer 之前运行它将接收给定节点上的 Mapper 实例发出的所有数据作为输入然后它将输出发送到Reducers 因此组合器输入的记录应小于映射输出的记录 12 08 29 13 38
在 Hadoop 中按文件中的值排序

我有一个文件其中每行包含一个字符串然后是一个空格然后是一个数字例子 Line1 Word 2 Line2 Word1 8 Line3 Word2 1 我需要按降序对数字进行排序然后将结果放入文件中为数字分配排名所以我的输出应该
为什么 format("kafka") 失败并显示“无法找到数据源：kafka”。（即使使用 uber-jar）？

我使用 HDP 2 6 3 0 和 Spark2 包 2 2 0 我正在尝试使用结构化流 API 编写 Kafka 消费者但将作业提交到集群后出现以下错误 Exception in thread main java lang ClassN
如何在spark Scala中读取s3中的多个目录？

我在 s3 中有以下格式的目录
使用 Hadoop 映射两个数据集

假设我有两个键值数据集数据集A和B 我们称它们为数据集A和B 我想用 B 组的数据更新 A 组中的所有数据其中两者在键上匹配因为我要处理如此大量的数据所以我使用 Hadoop 进行 MapReduce 我担心的是为了在 A 和 B
按分区“内”键进行高效分组

我正在尝试调整一个流程来激发火花基本上该过程分析来自 JDBC 数据源的批量数据每条记录都有一个batchId 还有一个更高级别的groupId 批次数量较大提前未知组数约为 100 RAM 中可以容纳每个批次的记录数实际的分析
AWS EMR PySpark 连接到 mysql

我正在尝试使用 jdbc 通过 pyspark 连接到 mysql 我可以在 EMR 之外完成此操作但是当我尝试使用 EMR 时 pyspark 无法正确启动我在我的机器上使用的命令 pyspark conf spark executo
将数据作为 RDD 保存回 Cassandra

我试图从 Kafka 读取消息处理数据然后将数据添加到 cassandra 中就像它是 RDD 一样我的麻烦是将数据保存回 cassandra 中 from future import print function from pys
使用Log4j在日志中输出Spark应用程序id

我有一个用于 Spark 应用程序的自定义 Log4j 文件我想输出 Spark 应用程序 ID 以及消息和日期等其他属性因此 JSON 字符串结构如下所示 name time date level thread message app

随机推荐

打开查询日志文件时出错” file=/prometheus/queries.active err="open /prometheus/queries.active: 权限被拒绝

尝试使用非root用户运行prometheus并尝试了许多建议后https github com prometheus prometheus issues 5976 https github com prometheus prometheu
解析值时遇到意外字符错误：。路径 ''，第 1 行，位置 1

我有一个 ASP Net Core 2 1 应用程序我遇到了与下面的链接中提到的相同的错误解析值时遇到意外字符路径第 1 行位置 1 https stackoverflow com questions 57678571 unexp
当手势应用于 self.view 时，我们如何才能使表格视图工作？

我已经在整个视图上应用了手势并且我想与 self view 中的表格视图进行交互我已经应用了自定义手势如下所示 import TouchEvent h import
如何获取泛型类型的实际类型？

有一个具有泛型类型的类 class Action T 创建它的一些实例放入列表中 val list List new Action String new Action Int 迭代一下如何获取实例的实际类型 list foreach a
获取 iPhone GO 按钮来提交表单

有谁知道表单中包含哪些变量可以使 iPhone 虚拟键盘的 GO 按钮提交表单还是不提交表单我一直在尝试缩小场景范围这就是我发现的如果 FORM 只有一个用户输入字段 Go 按钮会自动提交表单如果 FORM 有多个用户输入字段但没
循环遍历字符串以查找多个索引

我试图找出循环字符串并查找某个字母的所有索引的最有效方法我用过 word or phrase indexOf letter 查找某个字母的单个索引但该字母位于 word or phrase多次最有效的方法是构建一个包含所有索引的数组
Swift 如何“按值传递”对象

我对 Swift 还很陌生我创建一个类例如 class Fraction var a Int init a Int self a a func toString gt String return self a 我还在其他类中构建了一个函
动态壁纸是否带有游戏引擎？

我想开发一个动态壁纸经过一番研究后我得出结论有两种选择可以创建一个直接就像 Android Developers 上所说的那样 http developer android com resources articles live
用餐哲学家挨饿的可能性

我需要检查解决哲学家就餐问题的算法是否保证满足以下所有条件不存在僵局的可能性没有挨饿的可能我正在使用信号 http en wikipedia org wiki Semaphore 28programming 29放在筷子上即可解决问题
如何从 Visual Studio 2017 中的 .NET Framework 4.5 控制台应用程序引用 .NET 标准库？

我终于安装了 Visual Studio 2017 2 并试图让我的第一个项目正常运行但遇到了一些问题我希望在这里解决我有一个非常简单的 NET 标准库描述为以下项目文件
ActivatedRoute 订阅第一个子参数观察者

我不确定这是否是实现此目的的最佳方法如果您有其他意见请分享我必须实现一个多收件箱系统用户可以将多封电子邮件按不同的收件箱分组例如 http localhost inbox personal 将显示电子邮件列表personal inb
简单回溯暴力算法最坏情况下有效的数独谜题是什么？

The 简单幼稚的回溯暴力算法数独的直接深度优先搜索是众所周知并已实现的并且似乎不存在不同的实现当我第一次写这个问题时我想说我们可以完全标准化它但措辞很糟糕我认为这个人很好地描述了算法 https stackoverflo
根据 pandas 数据框中的另一列获取子字符串

您好有没有办法根据另一列获取一列的子字符串 import pandas as pd x pd DataFrame name bernard brenden bern digit 2 3 3 x digit name 0 2 bernard
为什么我的 JComponent 没有显示在背景 JFrame 的顶部？

为什么我的 JComponent 没有显示在背景 JFrame 的顶部请检查以下代码 class CounterFrame extends JFrame private static final long serialVersionUID
如何在 Blazor 中使用 TagHelpers？

我创建了一个标签助手并想在我的 Blazor 示例项目中使用它但是当我想使用标签助手时编译器会抱怨 CS0103 The name StartTagHelperWritingScope does not exist in the c
使用方案时，浏览器如何确定 href 中的 URL 是否是相对的？

假设我有以下链接标签 a href Phone number a 浏览器到底如何知道不加载相对位置 tel 15555555从当前服务器知道tel应该被解释为一个计划检测主机相对 URL 或协议相关的 URL 似乎是微不足道的我猜 HT
将函数列表应用于数字

据我了解 Scheme Racket 中的函数如 map foldr 和 filter 可以做一些奇妙的事情例如将函数应用于元素列表是否可以将函数列表应用于单个元素我想生成每个函数产生的值然后找到它们的最大值谢谢对于第一部分
WSO2 EI/ESB：For 循环实现

我想实现一个简单的 for loop 在 WSO2 Integration Studio 中例如我正在实现一个巴士路线 API 每辆巴士有 10 个不同的站点我想从后端服务获取 10 个站点一个正常的 for 循环是 for i 0
“ ”中的服务器错误

我正在遵循一个教程内容如下 1 添加 ASP NET Identity 之前的第一步是禁用应用程序服务器 IIS 的默认身份验证机制因为该框架使用自己的身份验证机制为此请在 Web config 文件的 system web 部分添
将 Spark 设置为 Hive 的默认执行引擎

Hadoop 2 7 3 Spark 2 1 0 和 Hive 2 1 1 我正在尝试将 Spark 设置为配置单元的默认执行引擎我将 SPARK HOME jars 中的所有 jar 上传到 hdfs 文件夹并将 scala libr

将 Spark 设置为 Hive 的默认执行引擎

将 Spark 设置为 Hive 的默认执行引擎 的相关文章

随机推荐

热门标签

将 Spark 设置为 Hive 的默认执行引擎的相关文章