如何使用用户提供的 Hadoop 正确配置 Spark 2.4

2024-04-04

我想使用 Spark 2.4.5（当前稳定的 Spark 版本）和 Hadoop 2.10（2.x 系列中当前稳定的 Hadoop 版本）。此外，我需要访问 HDFS、Hive、S3 和 Kafka。

http://spark.apache.org http://spark.apache.org提供预构建的 Spark 2.4.5，并与 Hadoop 2.6 或 Hadoop 2.7 捆绑在一起。另一种选择是使用 Spark使用用户提供的 Hadoop，所以我尝试了那个。

作为使用的结果使用用户提供的 Hadoop，Spark也不包含Hive库。将会出现错误，如下所示：如何创建具有 Hive 支持的 SparkSession（失败并显示“未找到 Hive 类”）？ https://stackoverflow.com/q/39444493/2390083

当我添加火花蜂巢依赖于火花壳 (火花提交也受到影响）通过使用

spark.jars.packages=org.apache.spark:spark-hive_2.11:2.4.5

in 火花默认值.conf，我收到此错误：

20/02/26 11:20:45 ERROR spark.SparkContext: 
Failed to add file:/root/.ivy2/jars/org.apache.avro_avro-mapred-1.8.2.jar to Spark environment
java.io.FileNotFoundException: Jar /root/.ivy2/jars/org.apache.avro_avro-mapred-1.8.2.jar not found
at org.apache.spark.SparkContext.addJarFile$1(SparkContext.scala:1838)
at org.apache.spark.SparkContext.addJar(SparkContext.scala:1868)
at org.apache.spark.SparkContext.$anonfun$new$11(SparkContext.scala:458)
at org.apache.spark.SparkContext.$anonfun$new$11$adapted(SparkContext.scala:458)
at scala.collection.immutable.List.foreach(List.scala:392)
at org.apache.spark.SparkContext.<init>(SparkContext.scala:458)
at org.apache.spark.SparkContext$.getOrCreate(SparkContext.scala:2520)
at org.apache.spark.sql.SparkSession$Builder.$anonfun$getOrCreate$5(SparkSession.scala:935)
at scala.Option.getOrElse(Option.scala:189)
at org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:926)
at org.apache.spark.repl.Main$.createSparkSession(Main.scala:106)

because 火花壳无法将分类器与捆绑依赖项一起处理，请参阅https://github.com/apache/spark/pull/21339 https://github.com/apache/spark/pull/21339 and https://github.com/apache/spark/pull/17416 https://github.com/apache/spark/pull/17416

分类器问题的解决方法如下所示：

$ cp .../.ivy2/jars/org.apache.avro_avro-mapred-1.8.2-hadoop2.jar .../.ivy2/jars/org.apache.avro_avro-mapred-1.8.2.jar

但 DevOps 不会接受这一点。

完整的依赖项列表如下所示（我添加了换行符以提高可读性）

root@a5a04d888f85:/opt/spark-2.4.5/conf# cat spark-defaults.conf
spark.jars.packages=com.fasterxml.jackson.datatype:jackson-datatype-jdk8:2.9.10,
com.fasterxml.jackson.datatype:jackson-datatype-jsr310:2.9.10,
org.apache.spark:spark-hive_2.11:2.4.5,
org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.5,
org.apache.hadoop:hadoop-aws:2.10.0,
io.delta:delta-core_2.11:0.5.0,
org.postgresql:postgresql:42.2.5,
mysql:mysql-connector-java:8.0.18,
com.datastax.spark:spark-cassandra-connector_2.11:2.4.3,
io.prestosql:presto-jdbc:307

（一切正常 - 除了 Hive）

Spark 2.4.5 和 Hadoop 2.10 的组合是否在任何地方使用？如何？
如何结合Spark 2.4.5 与用户提供的 HadoopHadoop 2.9 或 2.10 ？
是否有必要构建 Spark 来解决 Hive 依赖问题？

似乎没有简单的配置方法Spark 2.4.5 与用户提供的 Hadoop使用Hadoop 2.10.0

由于我的任务实际上是尽量减少依赖问题，所以我选择编译Spark https://spark.apache.org/docs/latest/building-spark.html2.4.5 针对 Hadoop 2.10.0。

./dev/make-distribution.sh \
  --name hadoop-2.10.0 \
  --tgz \
  -Phadoop-2.7 -Dhadoop.version=hadoop-2.10.0 \
  -Phive -Phive-thriftserver \
  -Pyarn

现在 Maven 处理 Hive 依赖项/分类器，并且生成的包可供使用。

我个人认为编译 Spark 实际上比配置更容易Spark 与用户提供的 Hadoop.

到目前为止集成测试没有显示任何问题，Spark可以访问HDFS和S3（MinIO）。

更新2021-04-08

如果你想添加对 Kubernetes 的支持，只需添加-Pkubernetes到参数列表

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用用户提供的 Hadoop 正确配置 Spark 2.4 的相关文章

Oozie SSH 操作

Oozie SSH 操作问题 Issue 我们正在尝试在集群的特定主机上运行一些命令我们为此选择了 SSH Action 我们面对这个 SSH 问题已经有一段时间了这里真正的问题可能是什么请指出解决方案 logs AUTH FAILE
Spark SQL / PySpark 中的逆透视

我手头有一个问题陈述其中我想在 Spark SQL PySpark 中取消透视表我已经浏览了文档我可以看到仅支持pivot 但到目前为止还不支持取消透视有什么方法可以实现这个目标吗让我的初始表如下所示 When I pivotPy
将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
通过 hive 访问 maxmind 的 GeoIP-country.mmdb 数据库时出现异常

我有一个自定义 Hive UDF 来访问 MaxmindGeoIP 国家 mmdb通过 add file pqr mmdb 添加到 Hive 资源的数据库编译好的 UDF 添加为 add jar abc jar 当我运行 hive 查询时
如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时
Spark - scala - 如何检查配置单元中是否存在表

我必须使用 Spark 1 6 2 scala 检查配置单元中是否存在表如果没有我必须创建一个空数据框并将其保存为配置单元表如果存在则覆盖现有表我需要一个返回布尔值的函数基于该函数我可以做出上述决定是否创建新表或覆盖现有表 1
hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
';'预期但发现“导入” - Scala 和 Spark

我正在尝试使用 Spark 和 Scala 来编译一个独立的应用程序我不知道为什么会收到此错误 topicModel scala 2 expected but import found error import org apache sp
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
Spark日期格式问题

我在火花日期格式中观察到奇怪的行为实际上我需要转换日期yy to yyyy 日期转换后日期应为 20yy 我尝试过如下 2040年后失败 import org apache spark sql functions val df Seq
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储

随机推荐

线程冻结主 UI

Hello我目前正在编写一个服务器监控应用程序 Classes public class Server public string SERVERNAME public string ENVIRONMENT public string VER
java.lang.ClassNotFoundException: org.springframework.orm.hibernate4.LocalSessionFactoryBean

我是 Spring 新手这是我的第一个示例 JSF 2 PrimeFaces 3 Spring 和 Hibernate 集成这是pom xml
如何将数组（即列表）列转换为向量

问题的简短版本考虑以下代码片段假设spark已经设置为一些SparkSession from pyspark sql import Row source data Row city Chicago temperatures 1 0 2
MATLAB 错误：“以前似乎被用作函数或命令”

我想创建一个名为 E7stats 的函数它对 csv 文件中包含的第一个期中考试的分数执行简单的统计分析该函数接受一个字符串输入 filename csv 文件的名称并返回一个输出一个 1 2 结构体数组 S 其两个条目都包含四个字
PHP include 导致页面顶部出现空白

我正在制作的网站遇到问题我的页面顶部有一行空白我不知道它是从哪里来的这可能是因为 php 在我的页面中出现了额外的换行符include 或者可能只是一些有问题的CSS 我得到了它我必须承认这是一件非常奇怪的事情 This http
如何总结水晶报表中的公式字段？

如何在水晶报表中的公式字段上添加运行总计或汇总字段 Sample Report Serial No Premium Commission Net Premium Commission 1 10 4 6 2 40 30 10
解决方案资源管理器中的 Visual Studio 心形叠加。这是什么意思？

在解决方案资源管理器中您有时会在类定义节点中看到心形覆盖它意味着什么我相信您指的是信号图标当类型成员是内部 C 或朋友 VB NET 时心形会显示在类型成员上图标的含义是记录在 Microsoft 文档中 https lea
Openpyxl如何通过索引从工作表中获取行

使用 Openpyxl 和 python3 5 我尝试使用下标从 Excel 工作表中获取第一行但出现错误 after getting filename after loading worksheet to get the first r
C# NotifyIcon ShowBalloonTip 超时

在我的 C 2 0 框架应用程序中我使用通知图标控件我想从此控件中显示气球提示但是 showBalloonTip 事件我限制为超时我想永远显示这个气球我尝试使用一个计时器来一次又一次地显示气球但在 vista 中气球有淡入淡
mb_convert_case 未定义函数（Symfony2 FOS/UserBundle）

在我的 Symfony2 应用程序上我收到错误致命错误在第 18 行 Applications MAMP htdocs application vendor bundles FOS UserBundle Util Canonicali
对JPanel函数的关注：paintComponent()

你好我是java编程新手我需要有人向我解释这些代码行 public class drawpanel extends JPanel public void paintComponent Graphics g super paintComp
zend 模型架构

假设我的数据库中有两个表项目和用户我创建了两个扩展 Zend Db Table Abstract 的模型 Model DbTable Users and Model DbTable Projects 现在创建一个实例是一个好的模式吗
如何向 WordPress 添加简单的 jQuery 脚本？

我阅读了 Codex 和一些关于在 WordPress 中使用 jQuery 的博客文章这非常令人沮丧我已经加载了 jQueryfunctions php文件但所有的指南都很糟糕因为他们假设你已经有大量的 WordPress 经验
如何在 gradle 中获取当前选择的构建变体？

我正在使用带有 gradle 2 2 的 Android Studio RC 我的构建变体部分中有一些变体我可以选择我想要构建的变体例如为匈牙利或德国构建的一个我在 gradle 脚本中启动了一些任务例如根据风味变体更改名称但
Backbone.js 中的分页

我知道有一个组件可以实现此目的但根据我所看到的您必须创建一个扩展组件的新集合还有另一种方法可以在主干中进行分页吗我所需要的只是一个上一个和下一个按钮将每页的项目限制为 12 个我一直在 javascript 上创建它对于生产环
尝试在 slack 上为 laravel-botman 启用事件订阅时，如何响应正确的质询值

这不是我之前的问题的重复here https stackoverflow com questions 52850571 connecting slack to botman in laravel on localhost 我正在使用botm
未找到图像或类型未知 Dompdf 0.8.1 和 CodeIgniter

我想从生成的图像将图像加载到 PDF 我已经设置了isRemoteEnabled 为 true和生成的 QRCode 工作正常这是我的代码 this gt load gt library array pdf ciqrcode data
如何解码包含无效字节的字节对象，Python3

在python2中我可以整天生成以字符串格式表示的这些十六进制字节 x00 xaa xff gt gt gt 00 decode hex aa decode hex ff decode hex gt gt gt x00 xaa xff 同
为什么 2 和 4 在 b 之前打印？

function first return new Promise resolve gt console log 2 resolve 3 console log 4 async function f console log 1 let r
如何使用用户提供的 Hadoop 正确配置 Spark 2.4

我想使用 Spark 2 4 5 当前稳定的 Spark 版本和 Hadoop 2 10 2 x 系列中当前稳定的 Hadoop 版本此外我需要访问 HDFS Hive S3 和 Kafka http spark apache org

如何使用用户提供的 Hadoop 正确配置 Spark 2.4

如何使用用户提供的 Hadoop 正确配置 Spark 2.4 的相关文章

随机推荐

热门标签