Cloudera

Impala 表中的压缩

我想了解 Impala 表中的压缩但找不到可供研究的材料有哪些不同的技术以及我在哪里可以找到研究它的材料主要技术为compaction是为了避免small file problem这取决于您的用例例如您可能有一个将小文件写入的进程

Cloudera impala

Hive：转换“yyyy-MM-dd'T'HH:mm:ss.SSS'Z'”中缺少秒数的字符串日期时间

我使用以下代码将字符串日期时间变量转换为日期时间但转换后的字符串缺少 SSS 部分使用的代码 cast FROM UNIXTIME UNIX TIMESTAMP oldtime yyyy MM dd T HH mm ss SSS Z y

datetime Hadoop hive HiveQL Cloudera

Hadoop YARN 作业陷入映射 0% 并减少 0%

我正在尝试运行一个非常简单的作业来测试我的 hadoop 设置所以我尝试使用 Word Count Example 它陷入了 0 所以我尝试了一些其他简单的作业并且每个作业都陷入了困境 52191 0003 14 07 14 23 55

Hadoop MapReduce Cloudera hadoopyarn

如何使用 CDH4 和 Yarn 查看 Hadoop 作业历史记录和日志？

我使用 Yarn 下载了 Hadoop 的 CDH4 tar 作业运行良好但我不知道在哪里查看作业日志在 MRv1 中我只需访问 JobTracker Web 应用程序它就有工作历史记录也可以从这里访问各个作业的日志或者转到lo

configuration Hadoop Cloudera hadoopyarn

如何解决hadoop中的“文件只能复制到0个节点，而不是1个”？

我有一个简单的 hadoop 作业可以抓取网站并将其缓存到 HDFS 映射器检查 HDFS 中是否已存在 URL 如果存在则使用它否则下载页面并将其保存到 HDFS 如果下载页面时遇到网络错误 404 等则完全跳过 URL 不会写入

Hadoop Cloudera

无法编译 WordCount.java

mark maestro1 usr lib hadoop wordcount classes javac classpath usr lib hadoop hadoop common 2 0 0 cdh4 0 1 jar usr lib h

Java javac Cloudera wordcount

HDFS 作为 cloudera 快速入门 docker 中的卷

我对 hadoop 和 docker 都很陌生我一直致力于扩展 cloudera quickstart docker 镜像 docker 文件并希望从主机挂载一个目录并将其映射到 hdfs 位置以便提高性能并将数据保存在本地当我在任

Hadoop Docker HDFS Cloudera Bigdata

VM cloudera - 用户cloudera和权限？

我下载并安装了 VM Cloudera 4 4 来使用 Hadoop 我已经在我的工作平台上建立了一个集群所以我知道一点 hadoop 是如何工作的所以我认为我的问题来自于我对linux以及他的用户和群体的误解使用蜂巢我尝试使用 s

Hadoop permissions hive Cloudera

Cloudera 5.1下作业在LocalJobRunner中保持运行

需要一些快速帮助我们的作业在 MapR 下运行良好但是当我们在 Cloudera 5 1 上启动相同的作业时它继续以本地模式运行我确信这是某种配置问题它是哪个配置设置 14 08 22 12 16 58 INFO mapreduc

Hadoop MapReduce Cloudera clouderacdh

使用主机系统上的客户端访问在虚拟机中运行的 HBase

我尝试使用客户端程序将一些数据写入hbase HBase Hadoop 在 Cloudera ubuntu 的预配置虚拟机中运行客户端运行在托管虚拟机的系统上并直接在虚拟机中运行客户端所以现在想使用vm外的客户端来访问vm上的服务器

Hadoop Hbase VirtualBox Cloudera

HDFS 文件系统的 URL

我在 HDFS 中有一些数据 user Cloudera Test 我可以通过运行很好地查看记录hdfs dfs cat Test 现在同一个文件我需要在 scala 中将其读取为 RDD 我在 scala shell 中尝试了以下操作

scala Hadoop Cloudera Bigdata

如何在Hadoop中设置数据块大小？改变它有好处吗？

如果我们可以更改 Hadoop 中的数据块大小请告诉我如何操作更改块大小是否有利如果是请告诉我为什么以及如何更改如果没有请告诉我为什么以及如何您可以随时更改块大小除非dfs blocksize参数在 hdfs site xm

Hadoop HDFS Bigdata Cloudera hortonworksdataplatform

hdfs - ls：本地异常失败：com.google.protobuf.InvalidProtocolBufferException：

我正在尝试使用以下内容列出我在 hdfs 中的目录 ubuntu ubuntu hadoop fs ls hdfs 127 0 0 1 50075 ls Failed on local exception com google protob

Hadoop HDFS Cloudera

将 Solr HDFS 数据复制到另一个集群

我有一个 solr 云 v 4 10 安装位于 Cloudera CDH 5 4 2 HDFS 之上有 3 个 solr 实例每个实例托管每个核心的一个分片我正在寻找一种将 solr 数据从生产集群增量复制到开发集群的方法有 3

Hadoop Solr HDFS Cloudera

在没有cloudera manager的情况下安装cloudera impala

请提供在没有cloudera manager的情况下在ubuntu中安装imapala的链接无法使用官方链接安装无法使用这些查询找到 impala 包 sudo apt get install impala Binaries for d

Hadoop hive Cloudera impala

是否可以更改 HIVE 中的分区元数据？

这是我之前提出的问题的延伸如何比较具有不同数据类型组的两列 https stackoverflow com questions 58240566 how to compare two columns with different data

sql Hadoop hive Cloudera hivemetastore

如何使用 HUE 查找 CDH（Cloudera 的发行版，包括 Apache Hadoop）版本

我只能访问 HUE 并且正在尝试使用 HUE 找出 CDH 版本你能帮我吗我没有找到直接的答案但这就是我在 Hue 中找到 CDH 版本的方法我的CDH版本是5 14 2

Cloudera clouderacdh HUE

Cloudera 5.6：Parquet 不支持日期。参见 HIVE-6384

我目前正在使用 Cloudera 5 6 尝试根据另一个表在 hive 表中创建镶木地板格式表但遇到错误 create table sfdc opportunities sandbox parquet like sfdc opportun

hive Cloudera parquet

Hive 执行钩子

我需要在 Apache Hive 中挂钩自定义执行挂钩如果有人知道该怎么做请告诉我我当前使用的环境如下 Hadoop Cloudera 版本 4 1 2 操作系统 Centos 谢谢阿伦有多种类型的挂钩具体取决于您要在哪个阶段注

Hadoop hive Bigdata Cloudera

无法启动 CDH4 辅助名称节点：NameNode 地址的 URI 无效

我一直在尝试设置 hadoop 的 CDH4 安装我有 12 台机器标记为 hadoop01 hadoop12 名称节点作业跟踪器和所有数据节点都启动良好我可以查看 dfshealth jsp 并看到它找到了所有数据节点但是每当

Hadoop HDFS Cloudera