clouderacdh

Spark：如何从spark shell运行spark文件

我正在使用CDH 5 2 我能够使用火花外壳运行命令如何运行包含 Spark 命令的文件 file spark 有没有办法在没有 sbt 的情况下在 CDH 5 2 中运行编译 scala 程序在命令行中您可以使用 spark sh

scala apachespark clouderacdh clouderamanager

Hive中group by后是否可以连接字符串字段

我正在评估 Hive 需要在 group by 之后进行一些字符串字段连接我找到了一个名为 concat ws 的函数但看起来我必须显式列出所有要连接的值我想知道是否可以在 Hive 中使用 concat ws 做这样的事情这是一个

hive clouderacdh

HDFS容量：如何阅读“dfsadmin报告”

我使用的是 Hadoop 2 6 0 当我运行 hdfs dfsadmin report 时我得到类似这样的信息简化 Configured Capacity 3 TB Present Capacity 400GB DFS Remaini

Hadoop clouderacdh

是否可以直接从文件加载镶木地板表？

如果我有一个二进制数据文件可以转换为 csv 格式有什么方法可以直接从中加载镶木地板表吗许多教程显示将 csv 文件加载到文本表然后从文本表加载到镶木地板表从效率的角度来看是否可以像我已有的那样直接从二进制文件加载镶木地板表理

Hadoop clouderacdh impala parquet

java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0

我无法解决这个异常我已经阅读了 hadoop 文档以及我能找到的所有相关的 stackoverflow 问题我的 fileSystem mkdirs 抛出 Exception in thread main java lang Unsat

Java Maven Hadoop clouderacdh

hadoop namenode端口正在使用

这实际上是一个备用 HA 名称节点它的配置与主要和hdfs namenode bootstrapStandby已成功运行它开始出现在配置文件中定义的标准 HTTP 端口 50070 上

Hadoop highavailability clouderacdh standby

我的 cdh5.2 集群在运行 hbase MR 作业时出现 FileNotFoundException

我的 cdh5 2 集群运行 hbase MR 作业时出现问题例如我将 hbase 类路径添加到 hadoop 类路径中 vi etc hadoop conf hadoop env sh 添加行 export HADOOP CLASSP

Java Hadoop MapReduce Hbase clouderacdh

如何高效更新文件修改频繁的Impala表

我们有一个基于 Hadoop 的解决方案 CDH 5 15 我们可以在 HDFS 的某些目录中获取新文件在这些目录的顶部我们有 4 5 个 Impala 2 1 表在 HDFS 中写入这些文件的过程是 Spark Structured

Hadoop impala SparkStructuredStreaming clouderacdh

Cloudera 5.1下作业在LocalJobRunner中保持运行

需要一些快速帮助我们的作业在 MapR 下运行良好但是当我们在 Cloudera 5 1 上启动相同的作业时它继续以本地模式运行我确信这是某种配置问题它是哪个配置设置 14 08 22 12 16 58 INFO mapreduc

Hadoop MapReduce Cloudera clouderacdh

构建 Apache Zeppelin 时出现错误

我已经用cloudera 设置了hadoop 我想安装 zeppelin 来连接 hive 并为我的查询构建 UI 使用以下命令构建 zeppelin 命令时 sudo mvn clean package Pspark 1 3 Dspark

Maven Build clouderacdh apachezeppelin

Spark Streaming 应用程序失败并出现 KafkaException：字符串超出最大大小或出现 IllegalArgumentException

TL DR 我非常简单的 Spark Streaming 应用程序在驱动程序中失败并显示 KafkaException 字符串超出最大大小我在执行程序中看到了相同的异常但我还在执行程序日志的某处发现了 IllegalArgumentE

ApacheKafka SparkStreaming hadoopyarn clouderacdh apachespark16

如何使用 HUE 查找 CDH（Cloudera 的发行版，包括 Apache Hadoop）版本

我只能访问 HUE 并且正在尝试使用 HUE 找出 CDH 版本你能帮我吗我没有找到直接的答案但这就是我在 Hue 中找到 CDH 版本的方法我的CDH版本是5 14 2

Cloudera clouderacdh HUE

Spark 2.x + Tika：java.lang.NoSuchMethodError：org.apache.commons.compress.archivers.ArchiveStreamFactory.detect

我正在尝试解决 Apache Tika gt v 1 14 解析作业的 Spark submit 类路径运行时问题问题似乎涉及 Spark Submit 类路径与我的 uber jar 平台 CDH 5 15 Spark 2 3 通过 C

apachespark apachetika clouderacdh

有没有办法用带参数的sql脚本运行impala shell？

有没有办法使用带参数的 SQL 脚本运行 impala shell 例如 impala shell f home john sql load sql dir1 dir2 dir3 data file 我收到错误错误无法解析参数 f ho

Hadoop clouderacdh impala

带 --jars 的 Spark-Submit YARN-CLASS 不起作用？

我正在尝试通过以下命令向 CDH 纱线集群提交 Spark 作业我尝试了几种组合但都不起作用我现在所有的 poi jar 都位于我的本地 root 以及 HDFS user root lib 中因此我尝试了以下操作 spark su

Java Hadoop apachespark hadoopyarn clouderacdh

如何与 hadoop 2.x 并行运行 MapReduce 任务？

我希望我的地图和减少任务并行运行然而尽管尝试了所有的技巧它们仍然按顺序运行我读自如何在 Elastic MapReduce 上的 Hadoop 2 4 0 中设置每个节点并发运行任务的精确最大数量 https stackoverfl

Java Hadoop MapReduce Bigdata clouderacdh

Cloudera Manager 有其他选择吗？（CDH）[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案正如Cloudera官方博客所说从6 3 3开始就没有免费版本的CDH 他们会让Cloudera M

Hadoop clouderacdh clouderamanager

排除CDH中spark-core的依赖

我正在使用 Structured Spark Streaming 写入来自 Kafka 的 HBase 数据我的集群发行版是 Hadoop 3 0 0 cdh6 2 0 我使用的是 Spark 2 4 0 我的代码如下 val df sp

apachespark Hadoop ApacheKafka Hbase clouderacdh

我可以在 CDH 中安装多个 Spark 版本吗？

我使用的是cdh5 1 0 它已经安装了默认的spark 但是我想使用 Spark 1 3 我也可以将此版本安装到cdh5 1 0吗如何才能设置这些呢新版本的spark也会通过Cloudera manager监控吗是的您可以运行您

apachespark clouderacdh

Namenode HA（UnknownHostException：nameservice1）

我们通过 Cloudera Manager 启用 Namenode 高可用性使用 Cloudera Manager gt gt HDFS gt gt 操作 gt 启用高可用性 gt gt 选定的备用名称节点和日志节点然后名称服务1 整个

Hadoop HDFS Cloudera clouderamanager clouderacdh