Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

2024-05-05

我在跑蜂巢2.1.1，Ubuntu 16.04 上的 hadoop 2.7.3。

根据Hive on Spark：入门 https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started，它说

安装/构建兼容版本。 Hive 根 pom.xml 的定义构建/测试的 Spark 版本和。

我检查了pom.xml，它显示spark版本是1.6.0。

<spark.version>1.6.0</spark.version>

But Hive on Spark：入门 https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started还说

Spark 2.0.0 之前：./make-distribution.sh --name “hadoop2-没有-hive”--tgz “-Pyarn，hadoop 提供，hadoop-2.4，parquet 提供”

自从火花 2.0.0: ./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided"

所以现在我很困惑，因为我运行的是 hadoop 2.7.3。我必须将 hadoop 降级到 2.4 吗？

我应该使用哪个版本的 Spark？ 1.6.0 还是 2.0.0？

谢谢你！

我目前正在使用 Spark 2.0.2 与 hadoop 2.7.3 和 hive 2.1，并且工作正常。我认为 hive 将支持 Spark 1.6.x 和 2.x 这两个版本，但我建议您使用 Spark 2.x，因为它是最新版本。

关于为什么使用 Spark 2.x 的一些激励链接https://docs.cloud.databricks.com/docs/latest/sample_applications/04%20 Apache%20Spark%202.0%20 示例/03%20Performance%20 Apache%20(Spark%202.0%20vs%201.6).html https://docs.cloud.databricks.com/docs/latest/sample_applications/04%20Apache%20Spark%202.0%20Examples/03%20Performance%20Apache%20(Spark%202.0%20vs%201.6).html

Apache Spark 与 Apache Spark 2 https://stackoverflow.com/questions/40168779/apache-spark-vs-apache-spark-2

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark 的相关文章

Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
如何创建 HIVE 表来读取分号分隔值

我想创建一个 HIVE 表该表将以分号分隔的值读取但我的代码不断给出错误有没有人有什么建议 CREATE TABLE test details Time STRING Vital STRING sID STRING PARTITION
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
Spark Scala Cassandra 连接器删除所有行失败，并出现 IllegalArgumentException 要求失败异常

创建表 CREATE TABLE test word groups group text word text count int PRIMARY KEY group word 插入数据 INSERT INTO test word group
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
Hive：如何分解嵌入 CSV 文件中的 JSON 列？

从 CSV 文件带有标题和管道分隔符中我得到了以下两个内容其中包含一个 JSON 列内部有一个集合如下所示第一种情况使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
Pig 10.0 - 将元组分组并在 foreach 中合并包

我在用着Pig 10 0 我想在 foreach 中合并包假设我有以下内容visitors alias a b 1 2 3 4 a d 1 3 6 a e 7 z b 1 2 3 我想对第一个字段上的元组进行分组并将包与一组语义合并以获
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
无法在 Hadoop Map-Reduce 作业中加载 OpenNLP 句子模型

我正在尝试将 OpenNLP 集成到 Hadoop 上的 Map Reduce 作业中从一些基本的句子分割开始在地图函数中运行以下代码 public AnalysisFile analyze String content InputS
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
Apache hadoop 版本 2.0 与 0.23

Hadoop 的版本和发行版太多让我很困惑我有几个问题 Apache Hadoop 1 x 是从 0 20 205 开始的 Apache Hadoop 2 0 是从 0 22 还是 0 23 开始根据这个blogpost http b
从 Spark 访问 Hdfs 会出现令牌缓存错误 Can't get Master Kerberosprincipal for use as renewer

我正在尝试运行测试 Spark 脚本以便将 Spark 连接到 hadoop 脚本如下 from pyspark import SparkContext sc SparkContext local Simple App file sc t
使用什么工具来可视化逻辑和物理查询计划？

我很熟悉explain 还有 WebUI 我很好奇是否有任何工具可以生成优化前后逻辑物理计划的树结构图像也就是返回的信息explain 作为图像 PNG 或 JPG 之类的图片我自己从未听说过但您可以使用 Web UI 查看物理计划
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
<问题> Hive 中的浮点数据类型

初始化数据 CREATE TABLE test test data user VARCHAR 10 amount FLOAT TBLPROPERTIES transactional true INSERT INTO test test da

随机推荐

旋转UIImage自定义角度

我想以自定义角度旋转 UIImage 不是 UIImageView 我跟着这个帖子 https stackoverflow com questions 917713 uiimage rotation custom degrees但这对我不起
SSIS 脚本任务在服务器上失败，并出现错误“无法加载脚本以执行”

我有 3 个带有脚本任务的 SSIS 包它们都执行非常相似的操作查询 SQL Server 数据库循环遍历结果然后为每一行调用 SOAP Web 服务这些包在本地运行良好并且在开发和 QA 服务器上运行良好在生产服务器上 1
Rails - 将模块包含到控制器中，以在视图中使用

我对 Rails 很陌生我尝试设置一个要在视图中使用的模块文件所以我相信正确的行为是将模块定义为控制器中的助手瞧它应该可以工作然而对我来说情况并非如此这是结构 lib functions form manager rb 表单管
如何使用哈希表在最小堆上实现 O(1) 删除

在某处阅读以下声明可以使用附加的哈希表来快速删除最小堆问题 gt 如何组合priority queue and unordered map这样我就可以实现上面的想法了 include
在 Mathematica 中使用 f@expr 和 expr // f 得到不同的结果

我正在玩Prefix and Postfix运算符 and 分别我遇到了以下问题给定以下代码它们以完全相同的方式进行评估 Hold MatrixPlot Sort data FullForm Hold MatrixPlot Sort
Java心跳设计

我需要在我的 Java 项目上实现一个心跳系统 3 5 个客户端和 1 个服务器但我有一些问题 1 客户端需要有 2 个套接字吗 1 用于心跳 1 用于接收我的软件的正常消息 2 我看到在特定情况下当客户端滞后时客户端不会收到消息如
angular.js 的智能感知在 javascript 文件中不起作用

我使用的是 Visual Studio 2013 它支持 Angular js 的 Intellisense 当我在 HTML5 文件的脚本标记内创建 Angular js 模块时 Intellisense 确实可以工作但是当我尝试在
emacs 的最佳 java 工具 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
无法向 kafka 主题发送消息

我正在使用 Kafka Play 以及 Scala 这是我的代码我想在其中发送消息到kafka服务器主题名称是测试主题尽管我没有在主题中看到我发送的消息但我没有收到任何错误这里有什么问题吗 import kafka produc
Spark - java.lang.OutOfMemoryError：请求的数组大小超出 VM 限制

我正在尝试对 Cloudera 的 Spark 2 1 0 中的数据帧进行 groupBy 操作该集群位于总 RAM 约为 512GB 的 7 节点集群上我的代码如下 ndf ndf repartition 20000 by user
Redis SYNC 套接字上的错误情况：连接被拒绝

在我的 django 应用程序中使用 celery 和 redis 一切都工作正常直到我遇到了问题 redis 文件的位置已更改 redis 无法访问它们经过查找原来这是由于网络随机攻击造成的需要添加confg 我添加文件后一段时
pyqt5调用url时处于无响应状态

我刚刚在 pyqt 中实现了登录但在调用 url 和获取响应之间 qt 窗口显示无响应状态谁能建议我如何避免不响应状态 code class Login QDialog def init self height width parent
Selenium Webdriver sessionId 或检查所有浏览器窗口是否已关闭

有没有办法查看所有浏览器窗口是否都已关闭我发现如果您在 WebDriver 上调用 driver quit 或 driver close 则 sessionId 变为 null 有办法检查吗我不想调用已关闭或退出的驱动程序因为它会引发
JavaScript 闭包与匿名函数

我和我的一个朋友目前正在讨论 JS 中什么是闭包什么不是我们只是想确保我们真正正确地理解它我们以这个例子为例我们有一个计数循环想要在控制台上延迟打印计数器变量因此我们使用setTimeout and closures捕获计数器变
主键删除需要多长时间？

画一个简单的表结构 Table1 Table2 ID lt ID Name gt Table1ID Name Table1有几百万行例如 350 万行我通过主键发出删除 DELETE FROM Table1 WHERE ID 100 中
使用 PowerShell 从文本段落中提取 6 位数字字符串会产生空白数据

尝试使用 PowerShell 从一段文本中提取 6 位数字字符串但它仅在一种情况下有效 6 位数字字符串位于 Windows 剪贴板中的一段文本内在我的代码中我期望变量 Matches 0 是我要查找的 6 位数字但结果始终为空
在真实设备上通过命令行实现 UIAutomation

我知道从Xcode 4 2可以运行UIAutomation通过命令行编写脚本我已经尝试过这个并且在模拟器中对我来说工作得非常好我想知道如何在实际设备中运行此命令我搜索并获取了在设备上运行的命令 instruments w
Nginx - 自定义 404 页面

Nginx PHP 在 fastCGI 上对我来说非常有用当我输入不存在的 PHP 文件的路径时我不会得到默认的 404 错误页面任何无效的 html 文件都会出现该错误页面而只会得到未指定输入文件如何自定义此 404 错误页
为什么要分离接口和实现？

在生产代码中我经常看到定义如下的类 public interface SomeComponent Some methods public class SomeComponentImpl implements SomeComponent S
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark

Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark 的相关文章

随机推荐

热门标签