Hadoop2

hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re

Hadoop MapReduce Hadoop2 reducers Bigdata

Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束

Hadoop HDFS Hadoop2 webhdfs

Hadoop：读取ORC文件并放入RDBMS中？

我有一个以 ORC 文件格式存储的配置单元表我想将数据导出到 Teradata 数据库我研究了 sqoop 但找不到导出 ORC 文件的方法有没有办法让 sqoop 为 ORC 工作或者有什么其他工具可以用来导出数据 Thanks

hive Hadoop2 SQOOP

Hadoop安装问题：

我跟着this http www bogotobogo com Hadoop BigData hadoop Install on ubuntu single node cluster phpHadoop 安装教程不幸的是当我运行全部启动

Hadoop installation Hadoop2

如何处理 YARN MapReduce 作业的容器故障？

YARN 中如何处理软件硬件故障具体来说如果容器发生故障崩溃会发生什么容器和任务失败由节点管理器处理当容器失败或死亡时节点管理器会检测到失败事件并启动一个新容器来替换失败的容器并在新容器中重新启动任务执行如果应用程序主机发

Hadoop MapReduce hadoopyarn Hadoop2

Hadoop namenode 内存使用混乱

我对 Hadoop namenode 内存计算有一个愚蠢的疑问在 Hadoop 书籍明确指南中提到为由于名称节点将文件系统元数据保存在内存中因此文件系统中文件数量的限制由名称节点上的内存量决定根据经验每个文件目录和块大约需要

Hadoop Hadoop2

如何使用用户提供的 Hadoop 正确配置 Spark 2.4

我想使用 Spark 2 4 5 当前稳定的 Spark 版本和 Hadoop 2 10 2 x 系列中当前稳定的 Hadoop 版本此外我需要访问 HDFS Hive S3 和 Kafka http spark apache org

apachespark Hadoop hive Hadoop2

无法正常启动hadoop datanode

我正在尝试安装 hadoop 2 2 0 在启动 dataenode 服务时遇到以下错误请帮助我解决此问题提前致谢 2014 03 11 08 48 16 406 INFO org apache hadoop hdfs server c

Hadoop Hadoop2

Spark 中打开的文件太多，中止 Spark 作业

在我的应用程序中我正在读取 40 GB 的文本文件这些文件完全分布在 188 个文件中我拆分此文件并使用 rdd 对在 Spark 中每行创建 xml 文件对于 40 GB 的输入它将创建数百万个小 xml 文件这是我的要求一

apachespark amazons3 apachesparksql Hadoop2 amazonemr

在 Spark 中，广播是如何工作的？

这是一个非常简单的问题在 Spark 中 broadcast可用于有效地将变量发送给执行器这是如何运作的更确切地说何时发送值我一打电话就发送broadcast 或者何时使用这些值数据到底发送到哪里发送给所有执行者还是只发送给

apachespark Hadoop2 Bigdata

如何从mapreduce中的reducer输出中删除r-00000扩展

我能够正确重命名我的减速器输出文件但 r 00000 仍然存在我在我的减速器类中使用了 MultipleOutputs 这是详细信息不确定我缺少什么或我需要做什么额外的事情 public class MyReducer extends

Hadoop MapReduce Hadoop2

hdfs 命令在 hadoop 中已弃用

我正在关注这个程序 http www codeproject com Articles 757934 Apache Hadoop for Windows Platform YouTube 链接 https www youtube com w

Java Hadoop hadoopstreaming Hadoop2 hadoopplugins

WEBHDFS REST API 将文件从 Windows 服务器/本地文件夹/桌面复制/移动到 HDFS

使用 WEBHDFS REST API 调用我可以将文件从 Windows 计算机即 Windows 服务器或 Windows 本地文件夹或桌面传输或复制到 Hadoop HDFS 文件系统吗如果是有任何示例命令信息吗我已经尝试

cURL HDFS Hadoop2 jirarestapi webhdfs

将 Spark 设置为 Hive 的默认执行引擎

Hadoop 2 7 3 Spark 2 1 0 和 Hive 2 1 1 我正在尝试将 Spark 设置为配置单元的默认执行引擎我将 SPARK HOME jars 中的所有 jar 上传到 hdfs 文件夹并将 scala libr

Hadoop apachespark hive Hadoop2

高效查询Hbase

我使用 Java 作为查询 Hbase 的客户端我的 Hbase 表设置如下 ROWKEY HOST EVENT 21 1465435 host hst com clicked 22 1463456 hlo wrld com dragge

Java Hadoop MapReduce Hbase Hadoop2

Spark2 + YARN - 准备 AM 容器时出现 nullpointerException

我正在尝试跑步 pyspark master yarn 火花版本 2 0 0 Hadoop版本 2 7 2 Hadoop 纱线 Web 界面是成功启动发生的情况是这样的 16 08 15 10 00 12 DEBUG Client Us

apachespark PySpark hadoopyarn Hadoop2

将 1GB 数据加载到 hbase 需要 1 小时

我想将 1GB 1000 万条记录的 CSV 文件加载到 Hbase 中我为它编写了 Map Reduce 程序我的代码运行良好但需要 1 小时才能完成最后一个Reducer 花费了半个多小时的时间有人可以帮我吗我的代码如下

Java Hadoop MapReduce Hbase Hadoop2

在 Spark Java 中将文本文件转换为序列格式

在 Spark Java 中如何将文本文件转换为序列文件以下是我的代码 SparkConf sparkConf new SparkConf setAppName txt2seq sparkConf setMaster local set

Hadoop apachespark Hadoop2 sequencefile

无法连接到 http://localhost:50030/ - Hadoop 2.6.0 Ubuntu 14.04 LTS

我在 Ubuntu 14 04 LTS 机器上安装了 Hadoop 2 6 0 我能够成功连接到http localhost 50070 我正在尝试连接到http locahost 50030 我的中有以下内容mapred site xml

Ubuntu Hadoop Hadoop2

Spark-submit如何设置user.name

想要设置 mapreduce job user name myuser Tried spark submit class com MyClass conf mapreduce job user name myuser conf spark

Hadoop apachespark Hadoop2