写入 Hadoop 中 HDFS 中的文件

2024-01-06

我一直在寻找一个磁盘密集型 Hadoop 应用程序来测试 Hadoop 中的 I/O 活动，但我找不到任何此类应用程序可以使磁盘利用率保持在上述水平（例如 50%），或者某些此类应用程序实际上使磁盘保持繁忙。我尝试了 randomwriter，但令人惊讶的是这并不是磁盘 I/O 密集型。

因此，我编写了一个小程序来在 Mapper 中创建一个文件并向其中写入一些文本。该应用程序运行良好，但仅在主节点（同时也是名称节点、作业跟踪器和从节点之一）中利用率较高。在其他任务跟踪器中，磁盘利用率为零或可以忽略不计。我无法理解为什么任务跟踪器中的磁盘 I/O 如此之低。如果我做错了什么，有人可以将我推向正确的方向吗？提前致谢。

这是我在 WordCount.java 文件中编写的示例代码段，用于创建 UTF 字符串并将其写入文件 -

Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(conf);
Path outFile;
while (itr.hasMoreTokens()) {
    word.set(itr.nextToken());
    context.write(word, one);
    outFile = new Path("./dummy"+ context.getTaskAttemptID());
    FSDataOutputStream out = fs.create(outFile);

    out.writeUTF("helloworld");
    out.close();
    fs.delete(outFile);
  }

我认为任何为每行中的每个单元创建 java 对象并在将 java 对象保存到磁盘之前运行任何 java 对象序列化的机制都几乎没有机会利用 IO。
根据我的经验，序列化的工作速度为每秒几 MB 或更高，但不是每秒 100 MB。
因此，您所做的避免输出路径上的 hadoop 层的做法是非常正确的。现在让我们考虑写入 HDFS 的工作原理。数据通过本地datanode写入本地磁盘，然后同步到网络中的其他节点，具体取决于你的复制因子。在这种情况下，您无法将比您的网络带宽更多的数据写入 HDFS。如果您的集群相对较小，那么事情就值得了。对于 3 节点集群和三重复制，您将把所有数据传输到所有节点，因此整个集群 HDFS 写入带宽将约为 1 GBit - 如果您有这样的网络。
所以，我建议：
a) 将复制因子降低到1，从而不再受网络束缚。
b) 在一次调用映射器中写入更大的数据块

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

写入 Hadoop 中 HDFS 中的文件的相关文章

如何为 HDFS 递归列出子目录？

我在 HDFS 中递归创建了一组目录如何列出所有目录对于普通的 UNIX 文件系统我可以使用以下命令来做到这一点 find path type d print 但我想为 HDFS 得到类似的东西递归列出目录内容hadoop dfs
在hbase中创建表

我是 hbase 和 hadoop 的新手无论如何我已经成功建立了一个由3台机器组成的hadoop集群现在我需要一些帮助来建立数据库我有一个表评论包含字段 user id comments 对评论的评论可以多个和状态字段相同
是否可以直接从文件加载镶木地板表？

如果我有一个二进制数据文件可以转换为 csv 格式有什么方法可以直接从中加载镶木地板表吗许多教程显示将 csv 文件加载到文本表然后从文本表加载到镶木地板表从效率的角度来看是否可以像我已有的那样直接从二进制文件加载镶木地板表理
Amazon MapReduce 日志分析最佳实践

我正在解析 Apache Nginx Darwin 视频流服务器生成的访问日志并按日期引用者用户代理聚合每个交付文件的统计信息每小时都会生成大量日志而且这个数字在不久的将来可能会急剧增加因此通过 Amazon Elastic
HDFS容量：如何阅读“dfsadmin报告”

我使用的是 Hadoop 2 6 0 当我运行 hdfs dfsadmin report 时我得到类似这样的信息简化 Configured Capacity 3 TB Present Capacity 400GB DFS Remaini
Spark 2.0 弃用了“DirectParquetOutputCommitter”，没有它如何生活？

最近我们从 HDFS 上的 EMR gt S3 上的 EMR 启用了一致视图的 EMRFS 迁移我们意识到 Spark SaveAsTable 镶木地板格式写入 S3 的速度比 HDFS 慢约 4 倍但我们发现使用 DirectPa
使用 python 从 HDFS 获取文件名列表

这里是 Hadoop 菜鸟我搜索了一些有关 hadoop 和 python 入门的教程但没有取得太大成功我还不需要使用映射器和缩减器进行任何工作但这更多是一个访问问题作为Hadoop集群的一部分 HDFS 上有一堆 dat 文件
Cat 文件与 HDFS 中的模式不匹配？

我正在尝试 cat 与 hadoop HDFS 中的以下模式不匹配的文件 hdfs dfs cat gz 如何捕获所有不以 gz 结尾的文件编辑抱歉但我需要在 Hadoop 中管理文件显然 hdfs 附带的命令非常少编辑2 所有文
一个目录下可以有两个oozieworkflow.xml文件吗？

一个目录下可以有两个oozieworkflow xml文件吗如果是这样我如何指示 oozie runner 运行哪一个您可以有两个工作流程文件只需为它们指定唯一的名称然后您可以通过设置oozie wf application pa
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
Hive 中字符串数据类型是否有最大大小？

谷歌了很多但没有在任何地方找到它或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型如果是这样我在哪里可以找到我的集群可以支持的最大字符串数据类型大小提前致谢 Hive 列表的当前文档STRING作为有效的数据类
尝试将稀疏 df 保存到 hdf5 时，获取“SparseDtype”对象没有属性“itemsize”？

我正在尝试将大型稀疏数据帧保存到 hdf5 文件但出现归因错误 one hot pd get dummies my DF columns cat sparse True one hot to hdf content data h5 tab
为什么组合器输入记录的数量比映射的输出数量多？

Combiner 在 Mapper 之后 Reducer 之前运行它将接收给定节点上的 Mapper 实例发出的所有数据作为输入然后它将输出发送到Reducers 因此组合器输入的记录应小于映射输出的记录 12 08 29 13 38
Couchbase/hadoop 连接器：sqoop 作业失败“找到接口 org.apache.hadoop.mapreduce.TaskAttemptContext，但需要类”

我的配置 CouchBase服务器2 0 Sqoop 1 4 2 针对hadoop版本2 0 0编译堆栈Hadoop CDH4 1 2 我想使用 CouchBase Hadoop 连接器 http www couchbase com de
猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会
http://localhost:50070/ 的 hadoop Web UI 不起作用

命令 jps 显示以下详细信息第5144章 5464 节点管理器 5307 资源管理器 5800 Jps 显然namenode和datanode丢失了网络用户界面位于http 本地主机 50070 http localhost 5007
将日期字符串转换为“MM/DD/YY”格式

我刚刚看到这个例子我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别

随机推荐

在张量流中解包（unstack）具有一个 None 维度的输入（占位符）

我正在尝试将 LSTM 与具有不同时间步长不同帧数的输入一起使用 rnn static rnn 的输入应该是 tf 序列不是 tf 所以我应该将我的输入转换为序列我尝试使用 tf unstack 和 tf split 但它们都需要
cocoapods activesupport冲突ios开发

我尝试在 cocoapods 项目上报告此问题但被指示在此处发布我最近承担了一个工作项目但我无法让以前的顾问设置在我的本地工作站上运行然而当我运行时我能够成功安装 cocoapods gempod install它爆炸了 spe
Django modelform：是否可以内联添加相关模型？

我真的希望这不是重复的我找不到任何东西但这可能意味着我不擅长搜索我有一个 Django 应用程序并且工作人员已经在使用管理应用程序来嗯管理目的我还为特定模型创建了一个快速数据输入页面基本上是通过在基本模板中放置模型表单来创建
为什么“git describe”在我的干净 git 存储库副本上显示较旧的标签版本？

一些背景我目前有两个本地 git 存储库它们指向相同的源主项目我有两个 git 存储库的原因是我有一个干净的主副本我可以在需要时使用还有一个副本我可以在沙箱中应用更改提交等这可能有点矫枉过正但有一些优点对我个人来说有
模型更改时角度视图（DOM 元素）不会更新

在最新稳定的 Chrome 中运行最新稳定版本的 Angular 我对位于 ng 控制器 A 的视图内的 DOM 元素进行了 ng click 但 DOM 元素本身的 ng controller 设置为another控制器 B ng cli
F# 记录的字段声明为私有时出现奇怪的可访问范围

我刚刚注意到当 F 记录的字段部分被声明为私有时出现了相当违反直觉的行为这与是否可以将记录的字段设为私有或者将记录成员设置为私有 https stackoverflow com questions 12389308 is it po
iPhone 在 API 调用后重新启动

我面临一个非常奇怪的问题我的 iPhone 正在重新启动此问题仅在特定场景下发生第 1 步我有一个同步过程其中加载整个应用程序的数据所以我基本上通过上传 4 5 个相机捕获的图像并同步应用程序数据来进行大量的 API 调用第
Netbeans 7.4 for PHP 上的“不要直接访问超级全局 $_SERVER 数组”

是的类似的问题已发布并正确回答 Netbeans 7 4 for PHP 上警告不要直接访问超全局 POST 数组 https stackoverflow com questions 19767894 warning do not ac
div外框

我有一个关于 div 和框架的问题当框架内有下拉列表时按下下拉列表时下拉列表将显示在框架外部我有一个替代下拉列表它几乎具有相同的属性但我必须将元素彼此相邻显示因此元素显示在 div 中我的问题有没有办法当您按下替代下拉菜
对颜色进行排序 (Objective-C)

我正在做这样的事情 NSArray colors float divisor 3333 NSMutableArray retVal NSMutableArray array for float one 0 one lt 1 0f one d
通过 Loader.loadBytes(byteArray) 加载图像

我想问一件事如果我创建 Loader 并通过 URL 请求加载外部图像将会得到结果 loader content is Bitmap loader content bitmapData is BitmapData 但如果我使用 Load
裸存储库中的 git ls-files

我想访问一个裸git存储库并且我想列出存储库中的所有文件在普通的 git 存储库上我可以通过运行轻松地做到这一点git ls files 输出示例 git ls files README md file1 js file2 js fi
从本地计算机访问 GCP Memorystore

在开发过程中从本地计算机访问 Memorystore 的最佳方式是什么是否有类似 Cloud SQL Proxy 之类的东西可以用来设置隧道您可以启动 Compute Engine 实例并使用端口转发连接到您的 Redis 计算机例如
泛型和约束多态性与子类型

In this PDF 演示文稿 http research microsoft com en us um people simonpj papers haskell retrospective ECOOP July09 pdf关于 Has
Pytest Monkeypatch 不适用于导入的函数

假设一个项目中有两个包 some package and another package some package foo py def bar print hello another package function py from so
如何格式化来自 MongoDB 的日期？

我正在使用 Jade 从 Express js 中呈现我的视图我正在 MongoDB 中保存文档并使用 Mongoose 访问我的文档我正在保存创建新文档时创建的默认日期并将该日期创建属性返回到需要格式化的视图 MongoDB 中存储
jquery ui 可调整大小的自定义句柄错误

我试图让自定义句柄与 jquery ui 可调整大小的小部件一起使用但是当我使用handles 选项将 jquery 引用传递给另一个元素时它失败了从我从文档和网络上的其他示例中读到的内容来看这应该可以正常工作 div class
具有代理支持的 python webkit

我正在编写一个用于抓取网页的 python 脚本我创建了一个 webkit webview 对象并使用 open 方法来加载 url 但我想通过代理加载网址我怎样才能做到这一点如何将 webkit 与 proxy 集成哪个 webk
退出自定义 Sails 1 和 Actions 2

如果我想使用操作 2 在 sails 1 中返回带有状态代码和错误消息的错误的输出该怎么办 EX exits notFound description not found responseType notFound 怎样才能退出呢例如
写入 Hadoop 中 HDFS 中的文件

我一直在寻找一个磁盘密集型 Hadoop 应用程序来测试 Hadoop 中的 I O 活动但我找不到任何此类应用程序可以使磁盘利用率保持在上述水平例如 50 或者某些此类应用程序实际上使磁盘保持繁忙我尝试了 randomwriter

写入 Hadoop 中 HDFS 中的文件

写入 Hadoop 中 HDFS 中的文件 的相关文章

随机推荐

热门标签

写入 Hadoop 中 HDFS 中的文件的相关文章