HDFS

Hadoop java.io.IOException：Mkdirs 无法创建 /some/path

当我尝试运行我的作业时出现以下异常 Exception in thread main java io IOException Mkdirs failed to create some path at org apache hadoop u

Hadoop HDFS IOException

Spark SQL saveAsTable 返回空结果

我使用以下代码在 Spark SQL 中创建插入数据到 Hive 表中 val sc SparkSession builder appName App master local 2 config spark sql warehouse d

Hadoop apachespark hive HDFS apachesparksql

Kafka 到 hdfs3 接收器缺少所需配置“confluence.topic.bootstrap.servers”，该配置没有默认值

Status 我的HDFS是通过ambari HDP安装的我目前正在尝试将 kafka 主题加载到 HDFS 接收器中 Kafka 和 HDFS 安装在同一台机器 x x x x 上除了根据我的需要更改一些端口之外我没有对默认设置进行

ApacheKafka HDFS apachekafkaconnect confluentplatform

HDFS 复制 - 数据存储

我是 hadoop 的相对新手希望更好地了解复制在 HDFS 中的工作原理假设我有一个 10 节点系统每个节点 1 TB 总容量为 10 TB 如果复制因子为 3 则每个文件有 1 个原始副本和 3 个副本所以本质上我的存储中只

Hadoop HDFS

Hadoop kerberos 票证自动续订

我在使用以下命令从 HDFS 下载大文件夹时遇到一些问题 hadoop fs get path to hdfs big folder 该文件夹很大几乎 3TB kerberos 票证的生命周期为 10 小时可续订生命周期为 7 天下载

Hadoop HDFS kerberos

HDFS 文件如何存储在底层操作系统文件系统上？

HDFS 是 Hadoop 中的逻辑文件系统块大小为 64MB HDFS 上的文件保存在底层操作系统文件系统上例如块大小为 4KiB 的 ext4 据我所知对于本地文件系统上的文件操作系统使用4KiB块的物理硬盘的起始柱面和结束柱面

Hadoop HDFS

Jobtracker API 错误 - 调用 localhost/127.0.0.1:50030 因本地异常而失败：java.io.EOFException

我正在尝试使用 Java 连接我的 jobtracker 下面显示的是我试图执行的程序 public static void main String args throws IOException Configuration conf ne

Java Hadoop MapReduce HDFS

多个文件是否存储在一个块中？

当我将许多小文件存储到 HDFS 中时它们会存储在单个块中吗在我看来根据此讨论这些小文件应该存储到单个块中 HDFS 块大小与实际文件大小引用自Hadoop 权威指南 HDFS 存储小文件效率低下因为每个文件都存储在一个块中并

Hadoop HDFS

缺少换行符？

我已将文件从 HDFS 复制到本地文件系统全部在 RH linux 上但是在复制之后如果我cat该文件我看到以下内容 me ac12 cat file copy 0 name string 1 phone string 2 age

Linux shell HDFS

是否可以限制 MapReduce 作业访问远程数据？

我们有特定的算法想要与 HDFS 集成该算法要求我们在本地访问数据该工作将专门在Mapper 然而我们确实希望在分发文件方面利用 HDFS 提供可靠性和条带化执行计算后我们将使用Reducer只是发回答案而不执行任何额外的工作

Java Hadoop MapReduce HDFS distributedcomputing

IllegalArgumentException，从 s3 而不是 hdfs 指定输入/输出时出现错误的 FS

我一直在本地集群上运行 Spark 作业该集群具有 hdfs 从中读取输入并写入输出现在我已经设置了一个 AWS EMR 和一个 S3 存储桶其中有我的输入并且我希望我的输出也写入 S3 错误用户类抛出异常 java lang I

amazonwebservices amazons3 filesystems HDFS

如何在 Hadoop/Hive 中搜索具有给定列名的所有表并返回哪些表具有该列名？

我正在寻找 HDFS Hive 中包含给定列名的所有表截至目前我想没有直接的方法可以找到配置单元中具有特定列的表但我建议使用 hive 元存储来实现此目的如果它能满足您的要求的话如果您的 hive 元存储在 mysql 中配置则

Hadoop hive HDFS

如何使用 Hive 确定 HDFS 中的文件大小

我正在使用的工作区设置为 Hive 1 1 0 和 CDH 5 5 4 我进行了一个查询得到了 22 个分区的结果保存在此分区目录中的文件始终是唯一的大小从 20MB 到 700MB 不等据我了解这与查询过程中使用的reducer

Hadoop hive HDFS

Flume-ng 拖尾文件

我试图了解如何使用 Flume ng 尾部文件以便可以将数据推送到 HDFS 中在第一个实例中我设置了一个简单的conf文件 tail1 sources source1 tail1 sinks sink1 tail1 channels

HDFS tail flume

HDFS Thrift服务器返回本地FS的内容，而不是HDFS

我正在使用 Thrift 访问 HDFS 这是 HDFS 上预期的也是正确的内容 hadoop hdp namenode 01 hadoop fs ls Found 3 items drwxr xr x hadoop supergrou

php Hadoop Thrift HDFS

Hadoop HDFS：读取正在写入的序列文件

我使用的是 Hadoop 1 0 3 我将日志写入 HDFS 中的 Hadoop 序列文件在每组日志后调用syncFS 但我从不关闭该文件除非我执行每日滚动我想保证的是当文件仍在写入时读者就可以使用该文件我可以通过 FSData

Hadoop HDFS sequencefile

如何枚举HDFS目录中的文件

如何枚举HDFS目录中的文件这是为了使用 Scala 枚举 Apache Spark 集群中的文件我看到有 sc textfile 选项但它也会读取内容我只想读取文件名我实际上尝试了 listStatus 但没有成功得到下面的错

scala Hadoop apachespark HDFS

Spark 工作负载需要 HDFS 吗？

HDFS 不是必需的但在某些地方会出现建议为了帮助评估运行 HDFS 所花费的精力将 HDFS 用于 Spark 工作负载有哪些好处最短的答案是不你不需要它即使没有 HDFS 您也可以分析数据但当然您需要在所有节点上复制数据

Hadoop apachespark HDFS mesos mesosphere

将文件存储在 HDFS 上的命令

介绍一个 Hadoop NameNode 和三个 DataNode 已安装并正在运行下一步是向 HDFS 提供文件已执行以下命令 hadoop fs copyFromLocal ubuntu 14 04 desktop amd64 i

Linux file Hadoop HDFS

使用Java API将数据上传到HDFS

我已经搜索了一段时间但似乎没有一个解决方案适合我非常简单我想使用 Java API 将数据从本地文件系统上传到 HDFS Java 程序将在已配置为通过 shell 与远程 Hadoop 集群通信的主机上运行即hdfs dfs ls

Java Hadoop HDFS