HDFS

Spark 作业失败，因为 HDFS 正在缓存 jar

我将 Scala Spark jar 上传到 HDFS 以在我们的集群上测试它们跑步后我经常意识到需要做出改变因此我在本地进行更改然后将新 jar 推送回 HDFS 然而经常并非总是当我这样做时 hadoop 会抛出一个错误

Hadoop apachespark HDFS

如何将数据从一个HDFS复制到另一个HDFS？

我有两个 HDFS 设置想要将一些表从 HDFS1 复制而不是迁移或移动到 HDFS2 如何将数据从一个HDFS复制到另一个HDFS 是否可以通过 Sqoop 或其他命令行 DistCp 分布式复制是用于在集群之间复制数据的工具它

Hadoop HDFS Bigdata SQOOP

Hadoop：生成 SequenceFile 的示例过程，其中包含要在 map/reduce 中处理的图像二进制文件

下列的Hadoop 如何访问许多照片图像以进行map reduce处理 https stackoverflow com questions 8752772 hadoop how to access many photo images t

Hadoop MapReduce HDFS

关于 LoadFunc 的示例和更多说明

在哪里可以找到有关 LoadFunc 的更多信息示例除了http web archive org web 20130701024312 http ofps oreilly com titles 9781449302641 load an

Hadoop apachepig HDFS

Spark迭代HDFS目录

我在 HDFS 上有一个目录我想迭代这些目录有没有简单的方法可以使用 SparkContext 对象对 Spark 执行此操作您可以使用org apache hadoop fs FileSystem https hadoop apac

Hadoop HDFS apachespark

按 Spark 键写入多个输出 - 一个 Spark 作业

如何在单个作业中使用 Spark 写入依赖于密钥的多个输出有关的按键写入多个输出 Scalding Hadoop 一个 MapReduce 作业 https stackoverflow com questions 23994383 wr

scala Hadoop output HDFS apachespark

在 AWS 上使用 Apache-Spark 加载数据

我正在 Amazon Web Service AWS EC2 上使用 Apache Spark 来加载和处理数据我创建了一个主节点和两个从节点在主节点上我有一个目录data包含所有要处理的csv格式的数据文件现在在我们提交驱动程序

amazonwebservices amazonec2 apachespark filesystems HDFS

客户端机器上的hadoop api配置

超级菜鸟我有一台带有 cdh3u1 伪发行版的服务器计算机以及一台带有使用 cdh3u1 API 的 java 应用程序的客户端计算机如何配置客户端与服务器通信我已经搜索了几个小时但找不到客户端配置文件在哪里对我来说 hdf

Hadoop HDFS

HDFS如何管理块大小？

我的文件大小为 65MB 默认 hdfs 块大小 64MB 那么将分配多少个 64MB 块给我的文件是 1 64MB 块 1 1MB 块还是 2 64MB 块如果是 2 64MB 块剩下的 63MB 会被浪费还是会分配给其他文件块大

Hadoop HDFS

Hive 将 ORC 文件分割成小部分

create table n data MARKET string CATEGORY string D map

hive HDFS

使用 s3distcp 将文件从 amazon s3 复制到 hdfs 失败

我正在尝试使用 EMR 中的工作流程将文件从 s3 复制到 hdfs 当我运行以下命令时作业流程成功启动但在尝试将文件复制到 HDFS 时出现错误我是否需要设置任何输入文件权限 Command elastic mapreduce jo

Hadoop amazons3 HDFS elasticmapreduce

在接收器发生故障后，如何强制 Flume-NG 处理积压的事件？

我正在尝试设置 Flume NG 从一组服务器主要运行 Tomcat 实例和 Apache Httpd 收集各种日志并将它们转储到 5 节点 Hadoop 集群上的 HDFS 中设置如下所示每个应用程序服务器将相关日志跟踪到一个执行

Hadoop HDFS flume

为什么 Impala 花费大量时间打开 HDFS 文件（TotalRawHdfsOpenFileTime）？

我发现我的Impala swarm表现不稳定正常情况下只需要几秒不到10s 就可以完成一个查询但偶尔会需要40s以上而且这种情况会持续几分钟当偏偏根据配置文件 TotalRawHdfsOpenFileTime 非常高这意味着大

HDFS OLAP impala namenode

从java获取HDFS的文件夹大小

我必须确定 HDFS 文件夹的大小其中包含来自 java 的子目录从命令行我们可以使用 dus 选项但是任何人都可以帮助我如何使用 java 获得相同的选项 The getSpaceConsumed 函数在ContentSummary

HDFS

使用 Pandas 提高大型 HDFStore 表的查询性能

我有一个大型约 1 6 亿行数据框我已将其存储到磁盘中如下所示 def fillStore store tablename files glob glob 201312 csv names ts c id f id resp id

python pandas HDFS largedata

如何将pyspark数据帧写入HDFS，然后如何将其读回数据帧？

我有一个非常大的 pyspark 数据框所以我想对其子集进行预处理然后将它们存储到hdfs 后来我想把它们全部读完并合并在一起谢谢将 DataFrame 写入 HDFS Spark 1 6 df write save target

python Hadoop PySpark HDFS apachesparksql

Spark数据集写入的区别

我在用着Spark Java 我需要知道以下写入 Hadoop 方法之间是否有任何差异性能等 ds write mode mode format orc save path Or ds write mode mode orc path T

apachespark Hadoop HDFS

hadoop fs -put 和 hadoop fs -copyFromLocal 之间的区别

put and copyFromLocal被记录为相同的而大多数示例使用详细变体 copyFromLocal 为什么同样的事情 get and copyToLocal copyFromLocal类似于 put命令除了源是仅限于本地文件

Hadoop HDFS

Systemd Hdfs 服务 [hadoop] - 启动

我创建了一个服务来启动和停止与我的 Spark 集群关联的 hdfs 服务 Unit Description Hdfs service Service Type simple WorkingDirectory home hduser Exe

Hadoop HDFS systemd

Spark Streaming - java.io.IOException：租赁超时 0 秒已过期

我有 Spark Streaming 应用程序使用 HDFS 上的检查点写入有谁知道解决方案吗之前我们使用 kinit 来指定主体和密钥表并得到了通过以下方式指定这些的建议spark submit命令代替kinit但仍然出现此错误并

apachespark HDFS SparkStreaming kerberos Cloudera