我在跑蜂巢2.1.1,Ubuntu 16.04 上的 hadoop 2.7.3。
根据Hive on Spark:入门 https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started, 它说
安装/构建兼容版本。 Hive 根 pom.xml 的
定义构建/测试的 Spark 版本
和。
我检查了pom.xml,它显示spark版本是1.6.0。
<spark.version>1.6.0</spark.version>
But Hive on Spark:入门 https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started还说
Spark 2.0.0 之前:./make-distribution.sh --name
“hadoop2-没有-hive”--tgz
“-Pyarn,hadoop 提供,hadoop-2.4,parquet 提供”
自从火花
2.0.0: ./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided"
所以现在我很困惑,因为我运行的是 hadoop 2.7.3。我必须将 hadoop 降级到 2.4 吗?
我应该使用哪个版本的 Spark? 1.6.0 还是 2.0.0?
谢谢你!
我目前正在使用 Spark 2.0.2 与 hadoop 2.7.3 和 hive 2.1,并且工作正常。我认为 hive 将支持 Spark 1.6.x 和 2.x 这两个版本,但我建议您使用 Spark 2.x,因为它是最新版本。
关于为什么使用 Spark 2.x 的一些激励链接https://docs.cloud.databricks.com/docs/latest/sample_applications/04%20 Apache%20Spark%202.0%20 示例/03%20Performance%20 Apache%20(Spark%202.0%20vs%201.6).html https://docs.cloud.databricks.com/docs/latest/sample_applications/04%20Apache%20Spark%202.0%20Examples/03%20Performance%20Apache%20(Spark%202.0%20vs%201.6).html
Apache Spark 与 Apache Spark 2 https://stackoverflow.com/questions/40168779/apache-spark-vs-apache-spark-2
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)