HDFS

Hadoop 中的分割大小与块大小

Hadoop 中的分割大小和块大小之间有什么关系当我读到this http willddy github io 2012 08 25 Hadoop Split and Block html 分割大小必须是块大小的n倍 n是整数并且n gt

Hadoop MapReduce HDFS

尝试在 h5py 中打开 pandas 创建的 hdf 时缺少列

这就是我的数据框的样子第一列是一个整数第二列是 512 个整数的单个列表 IndexID Ids 1899317 0 47715 1757 9 38994 230 12 241 12228 22861131 0 48156 154 63

pandas HDFS HDF5 h5py pytables

Hadoop 块大小 vs 分割 vs 块大小

我对 Hadoop 的概念有点困惑有什么区别Hadoop Chunk size Split size and Block size 提前致谢块大小和块大小是一样的分体尺寸可能不同于块块 size 地图缩减算法不适用于文件的物理块它

Hadoop HDFS

崩溃的 HDFS 客户端 - 如何关闭剩余的打开文件？

我的 Hadoop 应用程序遇到一些问题每当我的客户端在未关闭文件的情况下退出例如由于崩溃时 Hadoop 中就会有打开的文件从未关闭当我尝试重新启动客户端时重新打开这些文件以附加数据时会失败请参阅下面的异常消息有没有一种好方

Hadoop append HDFS

什么是“HDFS 写入管道”？

当我阅读 hadoop 权威指南时我坚持以下句子写入reduce输出确实会消耗网络带宽但仅作为与普通 HDFS 写入管道消耗的量差不多问题 1 能帮我更详细地理解上面这句话吗 2 HDFS写入管道是什么意思当文件写入 HDFS

Hadoop HDFS

无法使用本地 hadoop 连接 azure blob 存储

在尝试连接时本地hadoop与AZURE BLOB存储即使用作为 HDFS 的 Blob 存储和 Hadoop 版本 2 7 1 它抛出异常这里我已经通过设置属性成功形成了本地集群

Java Azure Hadoop HDFS

PySpark：使用 newAPIHadoopFile 从多行记录文本文件中读取、映射和减少

我正在尝试解决一个类似于这个帖子 https stackoverflow com questions 31227363 creating spark data structure from multiline record 我的原始数据是一

python Hadoop HDFS PySpark customformatting

如何在 Amazon EMR 上重新启动 HDFS

我对 Amazon EMR 集群上的 HDFS 设置进行了一些更改我想重新启动名称节点和数据节点以使更改生效我无法在名称节点主节点和数据节点上找到任何启动和停止脚本来执行此操作应该怎样重启集群呢在 EMR4 上在主控主机上运

Hadoop HDFS EMR

解析数百万个小 XML 文件

我有 1000 万个小 XML 文件 300KB 500KB 我在 Mapreduce 中使用 Mahaout 的 XML 输入格式来读取数据并使用 SAX 解析器进行解析但处理速度非常慢使用输入文件的压缩 lzo 有助于提高性能吗

xml Hadoop MapReduce HDFS

全新安装时的 HDFS 空间使用情况

我刚刚安装了 HDFS 并启动了该服务并且已使用空间已经超过800MB 它代表什么 hdfs dfs df h Filesystem Size Used Available Use hdfs quickstart cloudera 802

Hadoop HDFS Bigdata

无法使用 scala 将字符串写入 hdfs 文件

我编写了一些代码在 hdfs 中创建一个文件并向其写入字节这是代码 def write uri String filePath String data String Unit System setProperty HADOOP USER

scala file HDFS

如何将小型 ORC 文件组合或合并为较大的 ORC 文件？

SO 和网络上的大多数问题答案都讨论使用 Hive 将一堆小 ORC 文件合并为一个较大的文件但是我的 ORC 文件是按天分隔的日志文件我需要将它们分开我只想每天汇总 ORC 文件 HDFS 中的目录我最有可能需要用 Java

Java hive HDFS ORC

如何在Hadoop中设置数据块大小？改变它有好处吗？

如果我们可以更改 Hadoop 中的数据块大小请告诉我如何操作更改块大小是否有利如果是请告诉我为什么以及如何更改如果没有请告诉我为什么以及如何您可以随时更改块大小除非dfs blocksize参数在 hdfs site xm

Hadoop HDFS Bigdata Cloudera hortonworksdataplatform

Hadoop put 性能 - 大文件（20GB）

我正在使用 hdfs put 将一个 20GB 的大文件加载到 hdfs 中目前该过程运行 4 分钟我正在尝试缩短将数据加载到 hdfs 的写入时间我尝试利用不同的块大小来提高写入速度但得到以下结果 512M blocksize 4

Hadoop HDFS largefiles

为什么 Dockerized Hadoop 数据节点注册了错误的 IP 地址？

我有 Hadoop 2 7 1 名称节点和数据节点的单独 Docker 1 9 1 映像我可以从中创建容器并让它们通过用户定义的 Docker 网络进行通信然而数据节点似乎报告自己拥有网络网关的 IP 地址而不是它自己的 IP 地

Java Hadoop Docker HDFS

将 Hadoop 中的文件获取到 Web 应用程序中

我是 Hadoop 新手现在我正在尝试在 eclipse 中做一个应用程序我想在其中使用 HDFS 中存在的数据如果我们想用Java连接数据库我们有JDBC连接那么我需要做什么才能直接连接HDFS呢在 Hadoop 中首先

eclipse Hadoop HDFS

hdfs - ls：本地异常失败：com.google.protobuf.InvalidProtocolBufferException：

我正在尝试使用以下内容列出我在 hdfs 中的目录 ubuntu ubuntu hadoop fs ls hdfs 127 0 0 1 50075 ls Failed on local exception com google protob

Hadoop HDFS Cloudera

Hadoop 框架中使用的属性的完整列表

我正在对 Hadoop 框架进行一些研究我想问一下框架中可以使用的属性例如 io sort mb io sort record percent etc 我可以参考这个框架的整个属性列表吗非常希望有人能帮助我另外我想问一下 io s

Java Hadoop Dictionary MapReduce HDFS

将 Solr HDFS 数据复制到另一个集群

我有一个 solr 云 v 4 10 安装位于 Cloudera CDH 5 4 2 HDFS 之上有 3 个 solr 实例每个实例托管每个核心的一个分片我正在寻找一种将 solr 数据从生产集群增量复制到开发集群的方法有 3

Hadoop Solr HDFS Cloudera

是否可以将数据导入Hive表而不复制数据

我将日志文件以文本形式存储在 HDFS 中当我将日志文件加载到 Hive 表中时所有文件都会被复制我可以避免所有文本数据存储两次吗编辑我通过以下命令加载它 LOAD DATA INPATH user logs mylogfile

Hadoop hive HDFS