Hadoop put 性能 - 大文件（20GB）

2024-02-14

我正在使用 hdfs -put 将一个 20GB 的大文件加载到 hdfs 中。目前该过程运行@ 4 分钟。我正在尝试缩短将数据加载到 hdfs 的写入时间。我尝试利用不同的块大小来提高写入速度，但得到以下结果：

512M blocksize = 4mins;
256M blocksize = 4mins;
128M blocksize = 4mins;
64M blocksize = 4mins;

有谁知道瓶颈可能是什么以及我可以探索的其他选项来提高 -put cmd 的性能？

20GB / 4 分钟大约为 85MB/秒。考虑到 HDFS 协议和网络的所有开销，单个驱动器的吞吐量是相当合理的。我敢打赌这就是你的瓶颈。如果不改变您的摄取流程，您将无法神奇地加快速度。

核心问题是 20GB 是相当大的数据量，并且这些数据作为单个流推送到 HDFS 中。你受到磁盘 I/O 的限制，考虑到 Hadoop 集群中有大量磁盘，这是相当蹩脚的。你需要一段时间才能使 10GigE 网络（也可能是 1GigE）饱和。

正如您所看到的，更改块大小不应改变此行为。从磁盘到 HDFS 的数据量仍然相同。

我建议你将文件分割成1GB文件并将它们分布在多个磁盘上，然后使用-put在平行下。如果网络成为瓶颈，您甚至可能需要考虑将这些文件拆分到多个节点上。您能否改变接收数据的方式以加快速度？显然，分割文件并移动它也需要时间。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop put 性能 - 大文件（20GB）的相关文章

无法使用 PDI 步骤连接到 HDFS

我已经配置成功了Hadoop 2 4 in an Ubuntu 14 04 虚拟机 from a 视窗8系统 Hadoop 安装工作绝对正常而且我还可以从 Windows 浏览器查看 Namenode 附图如下所以我的主机名是 ubu
错误：java.io.IOException：错误值类：类 org.apache.hadoop.io.Text 不是类 Myclass

我的映射器和减速器如下但我遇到了某种奇怪的异常我不明白为什么它会抛出这种异常 public static class MyMapper implements Mapper
将多个前缀行过滤器设置为扫描仪 hbase java

我想创建一台扫描仪它可以为我提供带有 2 个前缀过滤器的结果例如我想要其键以字符串 x 开头或以字符串 y 开头的所有行目前我知道只能使用一个前缀方法如下 scan setRowPrefixFilter prefixFiltet 在
Hive 中字符串数据类型是否有最大大小？

谷歌了很多但没有在任何地方找到它或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型如果是这样我在哪里可以找到我的集群可以支持的最大字符串数据类型大小提前致谢 Hive 列表的当前文档STRING作为有效的数据类
在 Hadoop 中按文件中的值排序

我有一个文件其中每行包含一个字符串然后是一个空格然后是一个数字例子 Line1 Word 2 Line2 Word1 8 Line3 Word2 1 我需要按降序对数字进行排序然后将结果放入文件中为数字分配排名所以我的输出应该
Couchbase/hadoop 连接器：sqoop 作业失败“找到接口 org.apache.hadoop.mapreduce.TaskAttemptContext，但需要类”

我的配置 CouchBase服务器2 0 Sqoop 1 4 2 针对hadoop版本2 0 0编译堆栈Hadoop CDH4 1 2 我想使用 CouchBase Hadoop 连接器 http www couchbase com de
hadoop2.2.0追加文件发生AlreadyBeingCreatedException

我遇到了一个关于hadoop2 2 0追加操作的问题我通过 HDFS java API 将一些字节附加到 hdfs 文件首先如果在附加操作之前文件不存在我将创建目标文件代码如下 String fileUri hdfs hadoop
Hadoop安装问题：

我跟着this http www bogotobogo com Hadoop BigData hadoop Install on ubuntu single node cluster phpHadoop 安装教程不幸的是当我运行全部启动
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
http://localhost:50070/ 的 hadoop Web UI 不起作用

命令 jps 显示以下详细信息第5144章 5464 节点管理器 5307 资源管理器 5800 Jps 显然namenode和datanode丢失了网络用户界面位于http 本地主机 50070 http localhost 5007
Oozie SSH 操作

Oozie SSH 操作问题 Issue 我们正在尝试在集群的特定主机上运行一些命令我们为此选择了 SSH Action 我们面对这个 SSH 问题已经有一段时间了这里真正的问题可能是什么请指出解决方案 logs AUTH FAILE
将日期字符串转换为“MM/DD/YY”格式

我刚刚看到这个例子我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
如何在 Hadoop 中将 String 对象转换为 IntWritable 对象

我想转换String反对IntWritableHadoop 中的对象任何过程都可以进行转换 IntWritable value new IntWritable Integer parseInt someString 并处理以下可能性par
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
hive 从两个数组创建映射或键/值对

我有两个具有相同数量值的数组它们映射为 1 1 我需要从这两个数组创建一个键值对或映射键值任何想法或提示都会有帮助当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制
MiniDFSCluster UnsatisfiedLinkError org.apache.hadoop.io.nativeio.NativeIO$Windows.access0

做时 new MiniDFSCluster Builder config build 我得到这个异常 java lang UnsatisfiedLinkError org apache hadoop io nativeio NativeIO
如何将SQL数据加载到Hortonworks中？

我已在我的电脑中安装了 Hortonworks SandBox 还尝试使用 CSV 文件并以表结构的方式获取它这是可以的 Hive Hadoop nw 我想将当前的 SQL 数据库迁移到沙箱 MS SQL 2008 r2 中我将如何做

随机推荐

MYSQL 中按字段排序

我正在努力解决这个问题我有一张这样的桌子 type COUNT A 1 C 5 B 4 我想查询表结果一定是这样的 type COUNT A 1 B 5
内联 C 清漆 (VCL_deliver)

我使用的是清漆4 0 我的后端正在向一些响应添加 http 标头 x count 我想将 x count 的值记录到带有换行符的文件中我认为我应该在 VCL 交付中进行这是我到目前为止所拥有的 sub vcl deliver if re
CMake 链接到外部库

如何让 CMake 将可执行文件链接到不在同一 CMake 项目中构建的外部共享库只是在做target link libraries GLBall CMAKE BINARY DIR res mylib so 给出错误 make 2 No
将按钮右对齐

我使用此代码来右对齐按钮 p align right p
确定在 mousedown 事件期间是否按下 Shift 键

是否可以确定在 mousedown d3 event 期间是否按下了 Shift 键如果可能的话可以告诉我一种方法来做到这一点尝试查看API 但找不到有用的东西你应该能够使用这样的东西 d3 select window on clic
CreateService 出现错误：ERROR_INVALID_ADDRESS (0x000001e7)

请帮我解决这个问题我在这段代码中创建了一个基本服务 include stdafx h PWSTR pszServiceName PWSTR pszDisplayName DWORD dwStartType PWSTR pszDepende
函数的 return 语句中的 \n 打印 \n 而不是 python 中的换行符

考虑下面的 python 代码我对 python 很陌生请帮我解决这个问题这个函数返回 n56 但是我需要新队 56 def fun ret num return n str num if name main a fun ret 5
jQuery 使用变量隐藏/显示 div

我对 jQuery 很菜鸟我想在 jQuery 中使用变量来隐藏显示 div 到目前为止我所拥有的是 document ready function listMenu a click function var getPage this
我何时/为什么（如果有的话）应该考虑进行通用编程/元编程

恕我直言哎呀设计模式很有意义我已经能够实际应用它们但当谈到通用编程元编程对于现代 C 类型我很困惑这是一种新的编程设计范式吗仅限于库开发吗如果不是什么设计编码情况需要使用元编程通用编程使用模板是否意味着我
如何通过引用传递变量？

我写这个类是为了测试 class PassByReference def init self self variable Original self change self variable print self variable def
（交叉编译）平台文件是否需要包含保护？

我正在为 VxWorks 编写交叉编译工具链文件由于它是一个未知的系统 cmake a 也有写入平台文件那些在 Modules Platform 在我的旁边工具链到目前为止我已经编写了这些平台文件 VxWorks cmake VxWor
文本转换：大写；也影响占位符

我有以下简单的输入
TypeScript 接口，其中对象键是另一个对象的值

这是我的界面 interface MyInterface a string b string I have objectA从这个界面 const objectA MyInterface a val1 b val2 然后我有一个函数可以读取
Python Tkinter 如何使用网格为窗口着色

我正在尝试 Tkinter 并使用网格编写一个小窗口代码如下 from Tkinter import from modules logic import game import options class StartWindow def
删除温莎城堡 3 中的组件

我正在温莎城堡中使用 TypedFactoryFacility 来允许我使用接口工厂依赖项注入当不需要这些组件时应该为 Null 我在自动委托工厂将 Func 注入自动解析的组件时遇到问题我想保留 TypedFactoryFacili
如何返回 mongodb 中更新的对象数量？

我正在更新 mongodb 中的多个元素是否可以返回受影响对象的数量使用 getLastError 这nkey 将包含更新文档的数量 gt db count update x 1 inc x 1 false true gt db run
如何为班级中的所有测试设置测试类别

我在用MSTest https en wikipedia org wiki MSTest 并且我想一次为测试类中的所有方法设置相同的测试类别而不需要单独为每个方法设置 TestCategory 属性如何才能做到这一点最方便最明显的方
如何将 UIColor 转换为十六进制字符串？

我有一个项目需要将 UIColor 的 RGBA 值作为 8 个字符的十六进制字符串存储在数据库中例如 UIColor blueColor 将为 0000FFFF 我知道我可以像这样获取组件值 CGFloat r g b a color
Facebook 广告 API - 批量请求定位搜索

问题我在提交 Facebook Ads API 的批量请求时遇到问题我想知道是否有人可以提供有关以下错误的见解我尝试获取艺术家列表在这个简化示例中仅列出 50 名然后针对这些艺术家提交 TargetingSearch 请求但是
Hadoop put 性能 - 大文件（20GB）

我正在使用 hdfs put 将一个 20GB 的大文件加载到 hdfs 中目前该过程运行 4 分钟我正在尝试缩短将数据加载到 hdfs 的写入时间我尝试利用不同的块大小来提高写入速度但得到以下结果 512M blocksize 4

Hadoop put 性能 - 大文件（20GB）

Hadoop put 性能 - 大文件（20GB） 的相关文章

随机推荐

热门标签

Hadoop put 性能 - 大文件（20GB）的相关文章