Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Spark:如何从spark shell运行spark文件
我正在使用CDH 5 2 我能够使用火花外壳运行命令 如何运行包含 Spark 命令的文件 file spark 有没有办法在没有 sbt 的情况下在 CDH 5 2 中运行 编译 scala 程序 在命令行中 您可以使用 spark sh
scala
apachespark
clouderacdh
clouderamanager
Hive中group by后是否可以连接字符串字段
我正在评估 Hive 需要在 group by 之后进行一些字符串字段连接 我找到了一个名为 concat ws 的函数 但看起来我必须显式列出所有要连接的值 我想知道是否可以在 Hive 中使用 concat ws 做这样的事情 这是一个
hive
clouderacdh
HDFS容量:如何阅读“dfsadmin报告”
我使用的是 Hadoop 2 6 0 当我运行 hdfs dfsadmin report 时 我得到类似这样的信息 简化 Configured Capacity 3 TB Present Capacity 400GB DFS Remaini
Hadoop
clouderacdh
是否可以直接从文件加载镶木地板表?
如果我有一个二进制数据文件 可以转换为 csv 格式 有什么方法可以直接从中加载镶木地板表吗 许多教程显示将 csv 文件加载到文本表 然后从文本表加载到镶木地板表 从效率的角度来看 是否可以像我已有的那样直接从二进制文件加载镶木地板表 理
Hadoop
clouderacdh
impala
parquet
java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0
我无法解决这个异常 我已经阅读了 hadoop 文档以及我能找到的所有相关的 stackoverflow 问题 我的 fileSystem mkdirs 抛出 Exception in thread main java lang Unsat
Java
Maven
Hadoop
clouderacdh
hadoop namenode端口正在使用
这实际上是一个备用 HA 名称节点 它的配置与主要和hdfs namenode bootstrapStandby已成功运行 它开始出现在配置文件中定义的标准 HTTP 端口 50070 上
Hadoop
highavailability
clouderacdh
standby
我的 cdh5.2 集群在运行 hbase MR 作业时出现 FileNotFoundException
我的 cdh5 2 集群运行 hbase MR 作业时出现问题 例如 我将 hbase 类路径添加到 hadoop 类路径中 vi etc hadoop conf hadoop env sh 添加行 export HADOOP CLASSP
Java
Hadoop
MapReduce
Hbase
clouderacdh
如何高效更新文件修改频繁的Impala表
我们有一个基于 Hadoop 的解决方案 CDH 5 15 我们可以在 HDFS 的某些目录中获取新文件 在这些目录的顶部 我们有 4 5 个 Impala 2 1 表 在 HDFS 中写入这些文件的过程是 Spark Structured
Hadoop
impala
SparkStructuredStreaming
clouderacdh
Cloudera 5.1下作业在LocalJobRunner中保持运行
需要一些快速帮助 我们的作业在 MapR 下运行良好 但是当我们在 Cloudera 5 1 上启动相同的作业时 它继续以本地模式运行 我确信这是某种配置问题 它是哪个配置设置 14 08 22 12 16 58 INFO mapreduc
Hadoop
MapReduce
Cloudera
clouderacdh
构建 Apache Zeppelin 时出现错误
我已经用cloudera 设置了hadoop 我想安装 zeppelin 来连接 hive 并为我的查询构建 UI 使用以下命令构建 zeppelin 命令时 sudo mvn clean package Pspark 1 3 Dspark
Maven
Build
clouderacdh
apachezeppelin
Spark Streaming 应用程序失败并出现 KafkaException:字符串超出最大大小或出现 IllegalArgumentException
TL DR 我非常简单的 Spark Streaming 应用程序在驱动程序中失败 并显示 KafkaException 字符串超出最大大小 我在执行程序中看到了相同的异常 但我还在执行程序日志的某处发现了 IllegalArgumentE
ApacheKafka
SparkStreaming
hadoopyarn
clouderacdh
apachespark16
如何使用 HUE 查找 CDH(Cloudera 的发行版,包括 Apache Hadoop)版本
我只能访问 HUE 并且正在尝试使用 HUE 找出 CDH 版本 你能帮我吗 我没有找到直接的答案 但这就是我在 Hue 中找到 CDH 版本的方法 我的CDH版本是5 14 2
Cloudera
clouderacdh
HUE
Spark 2.x + Tika:java.lang.NoSuchMethodError:org.apache.commons.compress.archivers.ArchiveStreamFactory.detect
我正在尝试解决 Apache Tika gt v 1 14 解析作业的 Spark submit 类路径运行时问题 问题似乎涉及 Spark Submit 类路径与我的 uber jar 平台 CDH 5 15 Spark 2 3 通过 C
apachespark
apachetika
clouderacdh
有没有办法用带参数的sql脚本运行impala shell?
有没有办法使用带参数的 SQL 脚本运行 impala shell 例如 impala shell f home john sql load sql dir1 dir2 dir3 data file 我收到错误 错误 无法解析参数 f ho
Hadoop
clouderacdh
impala
带 --jars 的 Spark-Submit YARN-CLASS 不起作用?
我正在尝试通过以下命令向 CDH 纱线集群提交 Spark 作业 我尝试了几种组合 但都不起作用 我现在所有的 poi jar 都位于我的本地 root 以及 HDFS user root lib 中 因此我尝试了以下操作 spark su
Java
Hadoop
apachespark
hadoopyarn
clouderacdh
如何与 hadoop 2.x 并行运行 MapReduce 任务?
我希望我的地图和减少任务并行运行 然而 尽管尝试了所有的技巧 它们仍然按顺序运行 我读自如何在 Elastic MapReduce 上的 Hadoop 2 4 0 中设置每个节点并发运行任务的精确最大数量 https stackoverfl
Java
Hadoop
MapReduce
Bigdata
clouderacdh
Cloudera Manager 有其他选择吗? (CDH)[关闭]
Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 正如Cloudera官方博客所说 从6 3 3开始就没有免费版本的CDH 他们会让Cloudera M
Hadoop
clouderacdh
clouderamanager
排除CDH中spark-core的依赖
我正在使用 Structured Spark Streaming 写入来自 Kafka 的 HBase 数据 我的集群发行版是 Hadoop 3 0 0 cdh6 2 0 我使用的是 Spark 2 4 0 我的代码如下 val df sp
apachespark
Hadoop
ApacheKafka
Hbase
clouderacdh
我可以在 CDH 中安装多个 Spark 版本吗?
我使用的是cdh5 1 0 它已经安装了默认的spark 但是 我想使用 Spark 1 3 我也可以将此版本安装到cdh5 1 0吗 如何才能设置这些呢 新版本的spark也会通过Cloudera manager监控吗 是的 您可以运行您
apachespark
clouderacdh
Namenode HA(UnknownHostException:nameservice1)
我们通过 Cloudera Manager 启用 Namenode 高可用性 使用 Cloudera Manager gt gt HDFS gt gt 操作 gt 启用高可用性 gt gt 选定的备用名称节点和日志节点 然后名称服务1 整个
Hadoop
HDFS
Cloudera
clouderamanager
clouderacdh
1
2
»