HDFS

如何将位于 HDFS 上的类型安全配置文件添加到 Spark-Submit（集群模式）？

我有一个 Spark Spark 1 5 2 应用程序它将数据从 Kafka 流式传输到 HDFS 我的应用程序包含两个 Typesafe 配置文件来配置某些内容例如 Kafka 主题等现在我想在集群中使用spark submit 集

Hadoop apachespark HDFS typesafe

如何访问Hadoop HDFS中的文件？

我的 Hadoop HDFS 中有一个 jar 文件包含我想要修改的 Java 项目我想在 Eclipse 中打开它当我打字时hdfs dfs ls user 我可以看到 jar 文件在那里但是当我打开 Eclipse 并尝试导入

Linux eclipse Hadoop HDFS

访问 HDFS 中文件的 URI

我已经使用 Ambari 设置了一个包含 3 个节点的集群现在我想使用客户端应用程序访问 HDFS 中的文件我可以在 Ambari 的数据节点下找到所有节点 URI 我需要使用什么 URI 端口来访问文件我使用的是默认安装过程默认端

HDFS ambari

将文件从 HDFS 复制到本地计算机

我在尝试将文件从 HDFS 文件系统下载到本地系统时遇到问题即使相反的操作没有问题注意文件存在于 HDFS 文件系统的指定路径上这是一个代码片段 Configuration conf new Configuration conf

Java Hadoop HDFS

如何更改 Spark 程序的 HDFS 复制因子？

我需要将 Spark 程序的 HDFS 复制因子从 3 更改为 1 在搜索时我想出了 spark hadoop dfs replication 属性但是通过查看https spark apache org docs latest con

scala Hadoop apachespark HDFS

gzip 文件如何存储在 HDFS 中

HDFS存储支持压缩格式来存储压缩文件我知道 gzip 压缩不支持夹板现在假设该文件是一个 gzip 压缩文件其压缩大小为 1 GB 现在我的问题是该文件将如何存储在 HDFS 中块大小为 64MB 由此link http com

Algorithm Hadoop Compression HDFS gzip

格式化 HDFS 时出现 UnknownHostException

我已经使用以下命令在伪分布式模式下在 CentOS 6 3 64 位上安装了 CDH4指示 https ccp cloudera com display CDH4DOC Installing CDH4 on a Single Linux N

Exception Hadoop HDFS

hadoop/hdfs/name 处于不一致状态：存储目录(hadoop/hdfs/data/)不存在或不可访问

我已经尝试了 stackoverflow 上提供的有关此主题的所有不同解决方案但没有帮助再次询问具体的日志和详细信息任何帮助表示赞赏我的 Hadoop 集群中有 1 个主节点和 5 个从节点 ubuntu用户和ubuntu组是所有者

Hadoop HDFS Nodes

如何使用pyspark从HDFS读取docx/pdf文件？

我想使用 pyspark 从 Hadoop 文件系统读取 DOCX PDF 文件目前我正在使用 pandas API 但在 pandas 中我们有一些限制我们只能读取 CSV JSON XLSX 和 HDF5 它不支持任何其他格式目前

python pandas DataFrame PySpark HDFS

HDFS如何计算可用块？

假设块大小为 128MB 则集群有 10GB 因此大约 80 个可用块假设我创建了 10 个小文件这些文件总共占用磁盘上 128MB 块文件校验和复制和 10 个 HDFS 块如果我想向HDFS添加另一个小文件那么HDFS使用

Hadoop HDFS

无法创建目录 /home/hadoop/hadoopinfra/hdfs/namenode/current

我收到错误 Cannot create directory home hadoop hadoopinfra hdfs namenode current 尝试在我的本地 Mac 上安装 hadoop 时这可能是什么原因仅供参考我将我的

Hadoop HDFS

如何更有效地从spark重命名hdfs中的文件？

我有 450K JSON 我想根据某些规则在 hdfs 中重命名它们为了简单起见我只添加一个后缀 finished给他们每个人 A 成功地做到了这一点代码如下 import org apache hadoop fs val hdfs

scala apachespark HDFS

Namenode-HDFS 出现“连接被拒绝”错误（Hadoop 问题）

当我们看到使用时我的所有节点都已启动并运行jps命令但我仍然无法连接到 hdfs 文件系统每当我点击Browse the filesystem在 Hadoop Namenode localhost 8020 页面上我得到的错误是Co

Hadoop HDFS

WEBHDFS REST API 将文件从 Windows 服务器/本地文件夹/桌面复制/移动到 HDFS

使用 WEBHDFS REST API 调用我可以将文件从 Windows 计算机即 Windows 服务器或 Windows 本地文件夹或桌面传输或复制到 Hadoop HDFS 文件系统吗如果是有任何示例命令信息吗我已经尝试

cURL HDFS Hadoop2 jirarestapi webhdfs

是否可以将 Flume 标头写入 HDFS 接收器并删除主体？

text with headers 序列化器 HDFS 接收器序列化器允许保存 Flume 事件标头而不是丢弃它们输出格式由标头后跟空格和正文有效负载组成我们想删除正文并仅保留标题对于 HBase 接收器 RegexHbaseEv

HDFS flume serialization flumeng sink

HDFS 复制因子更改

如果集群中的复制因子发生变化例如从 5 更改为 3 并且集群重新启动旧文件块会发生什么情况它们是否会被视为过度复制并被删除或者复制因子仅适用于新文件这意味着旧文件块被复制 5 次新文件块重新启动后被复制 3 次如果集群不重

HDFS

如何将 RDD 保存到 HDFS 中并稍后将其读回？

我有一个 RDD 其元素类型为 Long String 由于某种原因我想将整个 RDD 保存到 HDFS 中然后在 Spark 程序中读回该 RDD 可以这样做吗如果是这样怎么办有可能的在RDD中你有saveAsObjectFi

scala apachespark HDFS RDD Bigdata

HDFS 作为 cloudera 快速入门 docker 中的卷

我对 hadoop 和 docker 都很陌生我一直致力于扩展 cloudera quickstart docker 镜像 docker 文件并希望从主机挂载一个目录并将其映射到 hdfs 位置以便提高性能并将数据保存在本地当我在任

Hadoop Docker HDFS Cloudera Bigdata

从 hdfs 读取 ocr 文件后令人难以置信地触发数据帧

我在 Ambari 上使用 Spark 2 1 1 和 hadoop 2 6 时遇到问题我首先在本地计算机上测试了我的代码单节点本地文件一切都按预期工作 from pyspark sql import SparkSession sp

Hadoop apachespark PySpark HDFS hadoopyarn

Hadoop - 重新启动数据节点和任务跟踪器

我想关闭单个数据节点和任务跟踪器以便我在mapred site xml中所做的一些新更改生效例如mapred reduce child java opts等我该怎么做但是我不想关闭整个集群因为我有正在运行的活动作业另外如何确

Hadoop HDFS