Hadoop 中的分割大小与块大小

2024-03-05

Hadoop 中的分割大小和块大小之间有什么关系？当我读到this http://willddy.github.io/2012/08/25/Hadoop-Split-and-Block.html，分割大小必须是块大小的n倍（n是整数并且n>0），这是正确的吗？分割大小和块大小之间有一定的关系吗？

在HDFS架构中，有一个块的概念。 HDFS 使用的典型块大小是 64 MB。当我们将一个大文件放入HDFS时，它被切分成64 MB的块（基于块的默认配置），假设您有一个1GB的文件并且您想将该文件放入HDFS，那么将有1GB/64MB = 16 个分割/块，这些块将分布在 DataNode 上。根据您的集群配置，这些块/块将驻留在不同的 DataNode 上。

数据分割是根据文件偏移量进行的。将文件分割并将其存储到不同的块中的目标是并行处理和数据的故障转移。

块大小和分割大小之间的差异。

分割是数据的逻辑分割，主要用于使用 Map/Reduce 程序或 Hadoop 生态系统上的其他数据处理技术进行数据处理。分割大小是用户定义的值，您可以根据您的数据量（您正在处理的数据量）选择自己的分割大小。

Split主要用于控制Map/Reduce程序中Mapper的数量。如果您没有在 Map/Reduce 程序中定义任何输入分割大小，则默认的 HDFS 块分割将被视为输入分割。

Example:

假设您有一个 100MB 的文件，HDFS 默认块配置为 64MB，那么它将被切成 2 个分割并占用 2 个块。现在您有一个 Map/Reduce 程序来处理此数据，但您尚未指定任何输入拆分，然后根据块数（2 个块）输入拆分将被考虑用于 Map/Reduce 处理，并且将为此分配 2 个映射器工作。

但是假设您在 Map/Reduce 程序中指定了分割大小（例如 100MB），那么两个块（2 个块）将被视为用于 Map/Reduce 处理的单个分割，并且将为此作业分配 1 个 Mapper。

假设您在 Map/Reduce 程序中指定了分割大小（例如 25MB），那么 Map/Reduce 程序将有 4 个输入分割，并且将为该作业分配 4 个 Mapper。

结论：

Split是输入数据的逻辑划分，而block是数据的物理划分。
如果未指定输入分割，则 HDFS 默认块大小为默认分割大小。
分割是用户定义的，用户可以在 Map/Reduce 程序中控制分割大小。
一个split可以映射到多个block，一个block可以有多个split。
Map任务（Mapper）的数量等于Split的数量。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop 中的分割大小与块大小的相关文章

如果 HBase 不是运行在分布式环境中，它还有意义吗？

我正在构建数据索引这将需要以形式存储大量三元组 document term weight 我将存储多达几百万个这样的行目前我正在 MySQL 中将其作为一个简单的表来执行我将文档和术语标识符存储为字符串值而不是其他表的外键我正在重
Sqoop mysql错误-通信链路故障

尝试运行以下命令 sqoop import connect jdbc mysql 3306 home credit risk table bureau target dir home sqoop username root password
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
Hadoop安装问题：

我跟着this http www bogotobogo com Hadoop BigData hadoop Install on ubuntu single node cluster phpHadoop 安装教程不幸的是当我运行全部启动
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
将日期字符串转换为“MM/DD/YY”格式

我刚刚看到这个例子我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
RavenDB：为什么我会在此多重映射/归约索引中获得字段空值？

受到 Ayende 文章的启发https ayende com blog 89089 ravendb multi maps reduce indexes https ayende com blog 89089 ravendb multi m
YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
运行时异常：java.lang.NoSuchMethodException：tfidf$Reduce.()

如何解决这个问题 tfidf是我的主类为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce
Windows 上的 Apache Pig 在运行“pig -x local”时出现“hadoop-config.cmd”未被识别为内部或外部命令”错误

如果您由于以下错误而无法在 Windows 上运行 Apache Pig hadoop 2 4 0 bin hadoop config cmd is not recognized as an internal or external com
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
Sqoop - 绑定到 YARN 队列

因此使用 MapReduce v2 您可以使用绑定到某些 YARN 队列来管理资源和优先级基本上通过使用 hadoop jar xyz jar D mapreduce job queuename QUEUE1 input output
CouchDB 通过三个索引键进行查询和过滤

我目前正在尝试按具有三个值的键进行排序和排序但让我们从文档结构开始 id DOCIDGOESHERE01 type MESSAGE date 2011 08 24 06 49 02 author USERIDGOESHERE01 rece
如何跟踪hadoop中哪个数据块在哪个数据节点？

如果复制一个数据块会复制到哪个数据节点是否有任何工具可以显示复制块存在的位置如果您知道文件名则可以通过 DFS 浏览器查找转到您的 namenode Web 界面说浏览文件系统并导航到您感兴趣的文件在页面底部将列出文件中
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
Hadoop NoSuchMethodError apache.commons.cli

我在用着hadoop 2 7 2我用 IntelliJ 做了一个 MapReduce 工作在我的工作中我正在使用apache commons cli 1 3 1我把库放在罐子里当我在 Hadoop 集群上使用 MapReduceJob

随机推荐

在 WPF 中显示多维数据

在 WPF 中显示多维数据的最佳方式是什么直到运行时我才会知道数据的大小形状理想情况下我想使用数据绑定但这不是严格的要求我正在考虑某种网格但我不知道如何动态绑定到数据并让它计算出行数和列数请提供建议和示例听起来好像您想要一
隐藏样式、块样式和无样式之间的区别

我试图找出风格之间的差异 hidden block none 我正在尝试这个例子但不幸的是这不起作用有人可以告诉我答案吗 div hr DIV 1 hr div 你真的很接近两种不
用于输入/V 模型的 Vue 过滤器

所以我对 ES6 SPA Javascript 和 Vue JS 非常陌生我主要使用 JQuery 所以我有一个全局过滤器 Vue filter formatDate function value if value return mome
在 Backbone.js 中，如何让模型超类默认值充当子类的默认值？

我有一个定义一些默认值的类和一个定义一些默认值的子类但是当我创建子类的实例时它只查看本地默认值不会将其默认值与父类的默认值合并有没有什么简单的方法可以做到这一点而无需显式地将本地默认值与父默认值合并initialize每个子类的
Javascript：类属性在拖动事件期间变得未定义

我对 Javascript 中的类还很陌生我已经被困了几天试图理解为什么我的属性在我的所有方法中都变得未定义我试图复制this https www kirupa com html5 drag htm到一个类中但不成功因为每次调用方法
在C中，如何使用X11获取屏幕内活动监视器的几何形状（x，y，宽度，高度）

我所有的搜索都得到了关于如何使用 C 获取 X11 中活动屏幕的几何形状的答案但该屏幕可能包含许多显示器并且通常只有一个屏幕除非有许多用户同时使用同一台计算机关于获取屏幕几何形状的那些答案已经过时因为它们没有考虑多个显示器那么
从 mysql 时间戳字段中选择不同的月份和年份，并在 php 中回显它们

我的mysql表有一个createdOn列其filedtype timestamp 的格式为2011 10 13 14 11 12 我需要的是显示与createdOn列不同的月份年份我已经搜索了堆栈溢出并能够使用以下代码回显几个月 s
Codeigniter上传路径无效

下面的人给出了代码和文件夹结构任何人都可以帮助我为什么会出现上传路径似乎无效错误如何解决此错误文件夹结构 Application System Upload 414208 代码点火器代码 config upload path up
中传递多个变量' aria-label='使用 PHP 和 $_GET[''] 在中传递多个变量'> 使用 PHP 和 $_GET[''] 在中传递多个变量

我正在使用 PHP 根据变量创建链接目前我有这行代码我已经使用过多次并且工作完美 echo a href value2 a 以上全部在一行在接收页面我有 assignmentName GET assignName 它从 URL 中检索
C#.net 中具有不同间隔的多个计时器

我想要输入不同间隔的不同计时器例如如果我输入 4 则 4 个计时器创建并在 4 个标签中显示时间其中第一个计时器的时间在 1 秒内变化第二个计时器的时间在 2 秒内变化第三个计时器的时间在 3 秒内变化4tn 计时器的时间在 4
在 Azure 应用服务中部署前端和后端应用程序的最佳方法是什么？

我们正在分别使用 Reactjs 开发前端应用程序和使用 Nodejs 开发后端应用程序但我不太熟悉 Azure 应用服务后端的部署工作方式我已经成功部署了我们的前端它现在已在应用程序服务 URL 中启动并运行但我不确定如何处理后端
在android帮助中翻转位图？

我想为我的游戏节省内存我想问你因为我找不到任何东西上次我在这里问问题时我得到了很好的答案我可以在 Eclipse 中翻转位图这样我就可以节省精灵的内存吗我发现的所有教程都是关于旋转而不是翻转翻转位图的教程仅适用于 open G
通过 Websocket 传输视频

我正在尝试构建可以从双方传输视频的移动应用程序即视频通话之类的东西我研究了 webrtc 但这还没有为移动本机应用程序做好准备无论如何 webrtc 正在做的是允许浏览器直接捕获相机和音频而不需要插件等但在本机移动应用程序中捕获相机
SyntaxError：JSON 输入意外结束 - 这是为什么？

这是我使用express和node js编写的代码 const express require express const https require https const app express app get function req
我应该在哪里存储 jwt 令牌以在服务器端进行身份验证

在我的 Nodejs 应用程序中我使用 jwt 令牌进行身份验证现在在创建令牌后将对其进行验证为此它应该存储在某个地方以供验证之用所以我的问题是我应该将其存储在针对相关用户 ID 的单独数据库模式中还是应该将其存储在其他
using 语句和await 关键字在c# 中表现得很好吗

我有一种情况我正在做一个async调用一个返回和的方法IDisposable实例例如 HttpResponseMessage response await httpClient GetAsync new Uri http www goo
GLib-GObject-CRITICAL ...断言“夸克> 0”失败

我对 Gtk 编程相当陌生我正在使用 Gtkmm 库为我的应用程序编写一个简单的 GUI GUI 是一个更大的应用程序的一部分它实际上编译为两个单独的可执行文件但我不认为这是相关的因为这个问题只涉及两个可执行文件之一无论如何我在
python：重新启动循环

i have for i in range 2 n if something do something else do something else i 2 restart the loop 但这似乎不起作用有没有办法重新启动该循环 Th
ajax发布请求到php $_POST vars为空

我有一个 nginx 重写规则它将 img src 属性重定向到 php 页面在此 php 页面中我尝试发出 GET 请求成功后会向同一页面发出 POST 请求将从 GET 请求返回的数据作为数据发送为什么php脚本中 POST
Hadoop 中的分割大小与块大小

Hadoop 中的分割大小和块大小之间有什么关系当我读到this http willddy github io 2012 08 25 Hadoop Split and Block html 分割大小必须是块大小的n倍 n是整数并且n gt

Hadoop 中的分割大小与块大小

Hadoop 中的分割大小与块大小 的相关文章

随机推荐

热门标签

Hadoop 中的分割大小与块大小的相关文章