HDFS

更新 hadoop HDFS 文件

我是 Hadoop 的新手我一直读到 HDFS 主要是一次写入多次读取我有一个用例我可能需要对 HDFS 中存储的文件进行修改我一直在研究是否有任何方法可以做到这一点我的问题是是否可以将 HDFS 文件加载到 HBase 中

Hadoop HDFS

本文中的“本地数据缓存”是什么意思？

摘自以下正文 http developer yahoo com hadoop tutorial module2 html 它提到顺序可读的大文件不适合本地缓存但我不明白本地是什么意思我认为有两个假设一是Client缓存来自HDFS的数

Hadoop HDFS

无法启动 CDH4 辅助名称节点：NameNode 地址的 URI 无效

我一直在尝试设置 hadoop 的 CDH4 安装我有 12 台机器标记为 hadoop01 hadoop12 名称节点作业跟踪器和所有数据节点都启动良好我可以查看 dfshealth jsp 并看到它找到了所有数据节点但是每当

Hadoop HDFS Cloudera

如何在 Windows 上为 python 3.7 正确设置 pyarrow

我一直在尝试通过 pip 安装 pyarrow pip install pyarrow 并且正如 Yagav 所建议的 py 3 7 m pip install user pyarrow 和康达 conda install c conda

python Windows Hadoop HDFS pyarrow

Hadoop - Map-Reduce 任务如何知道要处理文件的哪一部分？

我已经开始学习 hadoop 目前我正在尝试处理结构不太好的日志文件因为我通常用于 M R 键的值通常位于文件的顶部一旦所以基本上我的映射函数将该值作为键然后扫描文件的其余部分以聚合需要减少的值因此假日志可能如下所示 log

Hadoop MapReduce filesystems block HDFS

HBase - WAL 和 MemStore 之间有什么区别？

我正在尝试理解HBase建筑学我可以看到两个不同的术语用于同一目的 Write Ahead Logs and Memstore 两者都用于存储尚未持久化的新数据permanent storage 有什么区别WAL和内存存储 Update

Hadoop Architecture Hbase HDFS

如何在java客户端中获取HDFS服务器元数据信息？

我需要构建一个实用程序类来测试与 HDFS 的连接测试应显示 HDFS 的服务器端版本和任何其他元数据虽然有很多可用的客户端演示但没有关于提取服务器元数据的内容有人可以帮忙吗请注意我的客户端是远程 java 客户端没有 had

Java Hadoop connection client HDFS

sqoop导入多个表

我们正在使用 Cloudera CDH 4 并且能够按预期将表从 Oracle 数据库导入到我们的 HDFS 仓库中问题是我们的数据库中有数十万张表而 sqoop 一次只支持导入一张表有哪些选项可用于将多个表导入 HDFS 或 Hiv

Hadoop hive HDFS SQOOP

Hadoop：如何将减速器输出合并到单个文件？ [复制]

这个问题在这里已经有答案了我知道 shell 中的 getmerge 命令可以完成这项工作但是如果我想在作业结束后通过 HDFS API for java 合并这些输出我该怎么办我真正想要的是 HDFS 上的单个合并文件我唯一能

Java Hadoop MERGE MapReduce HDFS

使用 avro-tools 连接 Avro 文件

我正在尝试将 avro 文件合并为一个大文件问题是concat命令不接受通配符 hadoop jar avro tools jar concat input part output bigfile avro I get 线程 main 中

Hadoop HDFS Avro avrotools

合并hdfs文件

我在 HDFS 中有 1000 多个可用文件命名约定为1 fileName txt to N fileName txt 每个文件的大小为 1024 MB 我需要将这些文件合并到一个 HDFS 中并保持文件的顺序说5 FileName

Hadoop HDFS

Flume的Spool Dir可以在远程机器上吗？

每当新文件到达特定文件夹时我就尝试将文件从远程计算机获取到我的 hdfs 我在flume中遇到了spool dir的概念如果spool dir位于运行flume代理的同一台机器上那么它工作得很好有什么方法可以在远程计算机中配置假脱机

Hadoop HDFS Bigdata flume spool

获取 HDFS 中 parquet 文件的大小，以便在 Scala 中使用 Spark 重新分区

我在 HDFS 上有许多 parquet 文件目录每个目录包含数千个小大多数使用以下代码我可以将本地镶木地板文件重新分区为更少数量的部分 val pqFile sqlContext read parquet file home ha

scala Hadoop apachespark HDFS parquet

写入 Hadoop 中 HDFS 中的文件

我一直在寻找一个磁盘密集型 Hadoop 应用程序来测试 Hadoop 中的 I O 活动但我找不到任何此类应用程序可以使磁盘利用率保持在上述水平例如 50 或者某些此类应用程序实际上使磁盘保持繁忙我尝试了 randomwriter

Hadoop HDFS wordcount

使用带有子进程、Pipe、Popen 的 python 从 hdfs 读取/写入文件会出现错误

我正在尝试在 python 脚本内读取打开和写入 hdfs 中的文件但有错误有人可以告诉我这里出了什么问题吗代码完整 sample py usr bin python from subprocess import Popen P

python Hadoop HDFS popen hadoopstreaming

hadoop 空指针异常

我正在尝试设置一个hadoop的多节点集群迈克尔诺尔的方式 http www michael noll com tutorials running hadoop on ubuntu linux multi node cluster 使用两

Hadoop NullPointerException HDFS

Hadoop 如何执行输入拆分？

这是一个涉及Hadoop HDFS的概念问题假设您有一个包含 10 亿行的文件为了简单起见让我们考虑每行的形式

Hadoop MapReduce HDFS

如何在两个 MapReduce 作业之间传递变量

我已经链接了两个 Map reduce 作业 Job1 将只有一个减速器我正在计算一个浮点值我想在 Job2 的减速器中使用这个值这是我的主要方法设置 public static String GlobalVriable public

Hadoop MapReduce HDFS

Hadoop安装：Namenode无法启动

目前我正在尝试在我的 ubuntu 14 10 32 位 utopic 上安装 hadoop 2 6 0 我按照这里的说明进行操作 http www itzgeek com how tos linux ubuntu how tos inst

Hadoop HDFS

清除 HDFS 后，某些数据节点仍然显示已使用的块池

Hadoop版本 2 7 3 数据节点 32 区块大小 512m 复制 3 我使用命令清除了HDFS中的所有数据 hdfs dfs rm r 清除HDFS集群后少数数据节点仍然显示Block pool used 尽管块数为零 The sc

Hadoop HDFS hadoop273