HDFS

无法使用 PDI 步骤连接到 HDFS

我已经配置成功了Hadoop 2 4 in an Ubuntu 14 04 虚拟机 from a 视窗8系统 Hadoop 安装工作绝对正常而且我还可以从 Windows 浏览器查看 Namenode 附图如下所以我的主机名是 ubu

Hadoop HDFS pentaho dataintegration

Cat 文件与 HDFS 中的模式不匹配？

我正在尝试 cat 与 hadoop HDFS 中的以下模式不匹配的文件 hdfs dfs cat gz 如何捕获所有不以 gz 结尾的文件编辑抱歉但我需要在 Hadoop 中管理文件显然 hdfs 附带的命令非常少编辑2 所有文

Hadoop HDFS

远程执行hadoop作业时出现异常

我正在尝试在远程 hadoop 集群上执行 Hadoop 作业下面是我的代码 Configuration conf new Configuration conf set fs default name hdfs server 9000 c

Hadoop MapReduce HDFS

如何为 HDFS 递归列出子目录？

我在 HDFS 中递归创建了一组目录如何列出所有目录对于普通的 UNIX 文件系统我可以使用以下命令来做到这一点 find path type d print 但我想为 HDFS 得到类似的东西递归列出目录内容hadoop dfs

list Hadoop find HDFS

HDFS 在大量小文件和 128 Mb 块大小上的行为

我有很多多达数十万个小文件每个文件 10 100 Kb 我的 HDFS 块大小等于 128 MB 我的复制因子等于 1 为每个小文件分配 HDFS 块有什么缺点吗我见过相当矛盾的答案答案说最小的文件占用整个块 https stac

Hadoop HDFS

如何在linux中的hdfs超级组中添加用户？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在研究 hdfs 然后我发现某些内容没有为超级用户执行权限检查如果我的 linux 用户是 sandy 并且我想将 sandy 添加

Linux Hadoop HDFS

如何将 Jar 文件传递到 OOZIE shell 节点中的 shell 脚本

您好我在 oozie shell 操作工作流程中执行的脚本中运行 java 程序时遇到以下错误 Stdoutput 2015 08 25 03 36 02 636 INFO pool 1 thread 1 ProcessExecute j

Java shell Hadoop HDFS oozie

HBase如何实现对HDFS的随机访问？

鉴于HBase是一个数据库其文件存储在HDFS中那么它如何实现对HDFS中单个数据的随机访问呢这是通过什么方法实现的呢 From Apache HBase 参考指南 http hbase apache org book archite

Hadoop Hbase HDFS

使用 FSDataOutputStream 将不需要的字符从 java REST-API 写入 HadoopDFS

我们构建了一个 java REST API 来接收事件数据例如单击购买按钮并将该数据写入 HDFS 本质上我们为发送数据以 JSON 形式的每个主机打开流或者使用现有的流使用时间戳事件名称和主机名丰富数据并将其写入 FS

Java specialcharacters HDFS DataOutputStream

使用 PySpark 在 HDFS 中保存并附加文件

我在 PySpark 中有一个名为df 我已经注册了这个df as a temptable像下面这样 df registerTempTable mytempTable date datetime now strftime Y m d H M

apachespark PySpark apachesparksql HDFS

Spark 作业在 YARN 模式下失败

我有一个用 Scala 编写的 Spark 程序它从 HDFS 读取 CSV 文件计算新列并将其保存为 parquet 文件我正在 YARN 集群中运行该程序但每次我尝试启动它时执行程序都会在某个时候失败并出现此错误您能帮我找出

scala Hadoop apachespark HDFS hadoopyarn

Hadoop 顺序数据访问

根据 Hadoop 权威指南 HDFS 是一个文件系统设计用于存储非常大的文件流式或顺序数据访问模式什么是流式或顺序数据访问它如何减少磁盘的寻道时间这并不是 Hadoop 特有的顺序访问模式是指按顺序读取数据通常是从开始到结束

Hadoop HDFS

hadoop 连接在端口 9000 上被拒绝

我想设置一个伪分布式模式的hadoop集群进行开发由于端口 9000 上的连接被拒绝尝试启动 hadoop 集群失败这些是我的配置非常标准站点核心 xml

Java Ubuntu Hadoop HDFS

为什么map任务总是运行在单节点上

我有一个具有 4 个节点的完全分布式 Hadoop 集群当我将作业提交给 Jobtracker 时 Jobtracker 认为 12 个映射任务对我的工作来说很酷但奇怪的事情发生了这 12 个映射任务始终在单个节点上运行而不是在整个

Hadoop MapReduce HDFS

如何从java通过hdfs协议访问hadoop？

我找到了一种通过以下方式连接到hadoop的方法hftp 并且工作正常只读 uri hftp 172 16 xxx xxx 50070 System out println uri uri Configuration conf new C

SSH Hadoop HDFS

如何将位于 HDFS 上的类型安全配置文件添加到 Spark-Submit（集群模式）？

我有一个 Spark Spark 1 5 2 应用程序它将数据从 Kafka 流式传输到 HDFS 我的应用程序包含两个 Typesafe 配置文件来配置某些内容例如 Kafka 主题等现在我想在集群中使用spark submit 集

Hadoop apachespark HDFS typesafe

如何访问Hadoop HDFS中的文件？

我的 Hadoop HDFS 中有一个 jar 文件包含我想要修改的 Java 项目我想在 Eclipse 中打开它当我打字时hdfs dfs ls user 我可以看到 jar 文件在那里但是当我打开 Eclipse 并尝试导入

Linux eclipse Hadoop HDFS

访问 HDFS 中文件的 URI

我已经使用 Ambari 设置了一个包含 3 个节点的集群现在我想使用客户端应用程序访问 HDFS 中的文件我可以在 Ambari 的数据节点下找到所有节点 URI 我需要使用什么 URI 端口来访问文件我使用的是默认安装过程默认端

HDFS ambari

将文件从 HDFS 复制到本地计算机

我在尝试将文件从 HDFS 文件系统下载到本地系统时遇到问题即使相反的操作没有问题注意文件存在于 HDFS 文件系统的指定路径上这是一个代码片段 Configuration conf new Configuration conf

Java Hadoop HDFS

如何更改 Spark 程序的 HDFS 复制因子？

我需要将 Spark 程序的 HDFS 复制因子从 3 更改为 1 在搜索时我想出了 spark hadoop dfs replication 属性但是通过查看https spark apache org docs latest con

scala Hadoop apachespark HDFS