Hadoop中数据是如何分割的

2024-02-26

Hadoop是否根据程序中设置的mapper数量来分割数据？也就是说，有一个大小为 500MB 的数据集，如果 Mapper 的数量为 200 个（假设 Hadoop 集群允许同时存在 200 个 Mapper），那么每个 Mapper 是否分配了 2.5 MB 的数据？

此外，所有映射器是同时运行还是其中一些可能串行运行？

恰恰相反。映射器的数量是根据分割的数量决定的。事实上，这是InputFormat，您正在使用它来创建分割。在决定分割数量之前，您对映射器的数量一无所知。而且，分割并不总是根据 HDFS 块大小创建。这完全取决于内部的逻辑getSplits()您的InputFormat 的方法。

为了更好地理解这一点，假设您正在使用 MR 处理存储在 MySQL 中的数据。由于这种情况下不存在块的概念，因此总是基于 HDFS 块创建分片的理论失败了。正确的？那么分裂创建又如何呢？一种可能性是根据 MySQL 表中的行范围创建拆分（这就是DBInputFormat是一种用于从关系数据库读取数据的输入格式）。假设您有 100 行。那么您可能有 5 个分区，每个分区 20 行。

它仅适用于基于的输入格式FileInputFormat（用于处理文件中存储的数据的输入格式），分割是根据输入文件的总大小（以字节为单位）创建的。但是，输入文件的文件系统块大小被视为输入拆分的上限。如果您的文件小于 HDFS 块大小，您将只能获得该文件的 1 个映射器。如果你想要一些不同的行为，你可以使用mapred.min.split.size。但它再次完全取决于您的 InputFormat 的 getSplits() 。

MR与MR有本质区别split和HDFSblock人们经常对此感到困惑。块是物理数据块，而分割只是将被馈送到映射器的逻辑块。拆分不包含输入数据，它只是对数据的引用。那什么是分裂呢？分裂基本上有两件事：length in bytes和一组storage locations，它们只是主机名字符串。

回到你的问题。 Hadoop 允许超过 200 个映射器。话虽如此，为 500MB 的数据配备 200 个映射器并没有多大意义。永远记住，当您谈论 Hadoop 时，您正在处理非常庞大的数据。仅向每个映射器发送 2.5 MB 数据就显得有些过分了。是的，如果没有空闲的 CPU 插槽，那么某些映射器可能会在当前映射器完成后运行。但MR框架非常智能，会尽力避免这种情况。如果要处理数据的计算机没有任何空闲 CPU 插槽，则数据将移动到附近有可用插槽的节点并进行处理。

HTH

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop中数据是如何分割的的相关文章

线程“main”中出现异常java.lang.UnsupportedClassVersionError，不支持的major.minor版本52.0

我尝试在 hadoop 1 0 4 上运行 WordCount 示例但收到以下错误 Exception in thread main java lang UnsupportedClassVersionError WordCount Uns
使用自制软件安装hadoop时出错

我正在尝试在 Mac 上本地安装 hadoop 但在尝试 brew install hadoop 时收到以下错误 brew install hadoop gt Downloading http www apache org dyn clos
Amazon MapReduce 日志分析最佳实践

我正在解析 Apache Nginx Darwin 视频流服务器生成的访问日志并按日期引用者用户代理聚合每个交付文件的统计信息每小时都会生成大量日志而且这个数字在不久的将来可能会急剧增加因此通过 Amazon Elastic
如何在hadoop/map reduce中创建固定行数的输出文件？

假设我们有 N 个具有不同行数的输入文件我们需要生成输出文件使得每个输出文件恰好有 K 行最后一个输出文件可以有是否可以使用单个 MR 作业来完成此操作我们应该打开文件以便在reducer中显式写入输出中的记录应该被打乱 tha
当与curl一起使用--negotiate时，是否需要keytab文件？

The 文档 http hadoop apache org docs stable hadoop project dist hadoop hdfs WebHDFS html描述如何连接到 kerberos 安全端点显示以下内容 curl i
使用 python 从 HDFS 获取文件名列表

这里是 Hadoop 菜鸟我搜索了一些有关 hadoop 和 python 入门的教程但没有取得太大成功我还不需要使用映射器和缩减器进行任何工作但这更多是一个访问问题作为Hadoop集群的一部分 HDFS 上有一堆 dat 文件
如何使用新的 Hadoop API 来使用 MultipleTextOutputFormat？

我想编写多个输出文件如何使用 Job 而不是 JobConf 来执行此操作创建基于密钥的输出文件名的简单方法 input data type key value cupertino apple sunnyvale banana cupe
Cat 文件与 HDFS 中的模式不匹配？

我正在尝试 cat 与 hadoop HDFS 中的以下模式不匹配的文件 hdfs dfs cat gz 如何捕获所有不以 gz 结尾的文件编辑抱歉但我需要在 Hadoop 中管理文件显然 hdfs 附带的命令非常少编辑2 所有文
一个目录下可以有两个oozieworkflow.xml文件吗？

一个目录下可以有两个oozieworkflow xml文件吗如果是这样我如何指示 oozie runner 运行哪一个您可以有两个工作流程文件只需为它们指定唯一的名称然后您可以通过设置oozie wf application pa
Curl下载到HDFS

我有这个代码 curl o fileName csv url xargs hdfs dfs moveFromLocal 1 somePath 当我执行此代码时 curl 将请求中的值放入 fileName csv 中该文件将移动到 HDF
java.io.IOException：无法获取 LocationBlock 的块长度

我正在使用 HDP 2 1 对于集群我遇到了以下异常并且 MapReduce 作业因此失败实际上我们定期使用 Flume 版本的数据创建表 1 4 我检查了映射器尝试读取的数据文件但我找不到任何内容 2014 11 28 00 0
无法从 JAR 文件加载主类

我有一个 Spark scala 应用程序我尝试显示一条简单的消息 Hello my App 当我编译它时sbt compile并运行它sbt run没关系我成功显示了我的消息但他显示了错误像这样 Hello my applicat
Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用目的是对推文进行情感分析我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana
Hive ParseException - 无法识别“结束”“字符串”附近的输入

尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误 NoViableAltException 88 at org apache hadoop hive ql parse HiveParser IdentifiersParser
MongoDB：在没有并行性的情况下使用 MapReduce 有什么意义？

Quoting http www mongodb org display DOCS MapReduce MapReduce Parallelism http www mongodb org display DOCS MapReduce Ma
hadoop2.2.0追加文件发生AlreadyBeingCreatedException

我遇到了一个关于hadoop2 2 0追加操作的问题我通过 HDFS java API 将一些字节附加到 hdfs 文件首先如果在附加操作之前文件不存在我将创建目标文件代码如下 String fileUri hdfs hadoop
http://localhost:50070/ 的 hadoop Web UI 不起作用

命令 jps 显示以下详细信息第5144章 5464 节点管理器 5307 资源管理器 5800 Jps 显然namenode和datanode丢失了网络用户界面位于http 本地主机 50070 http localhost 5007
将日期字符串转换为“MM/DD/YY”格式

我刚刚看到这个例子我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
在 Amazon EMR 上使用 java 中的 hbase 时遇到问题

因此我尝试使用作为 MapReduce 步骤启动的自定义 jar 来查询 Amazon ec2 上的 hbase 集群我的 jar 在地图函数内我这样调用 Hbase public void map Text key BytesWri
mongodb - 检索数组子集

看似简单的任务对我来说是一个挑战我有以下 mongodb 结构 services TCP80 data status 1 delay 3 87 ts 1308056460 status 1 delay 2 83 ts 1308058080

随机推荐

更新到 Node v4.0.0 后运行 gulp-sass 时出错

我更新到 Node v4 0 0 当我在项目中运行 gulp 时我收到有关 gulp sass node sass 的错误如下所示 Error libsass未找到绑定尝试重新安装node sass 我尝试删除项目中的所有节点模块并重
使用 Tensorflow 2 中保存的模型进行推理：如何控制输入/输出？

将我的代码从 TF1 调整为 TF2 6 我遇到了麻烦我正在尝试向 inception resnet 添加一些自定义层保存模型然后加载并运行它 from tensorflow keras layers import Dense fro
在 Pandas 中对行和列 MultiIndex 使用布尔索引

问题在最后在bold 但首先让我们设置一些数据 import numpy as np import pandas as pd from itertools import product np random seed 1 team nam
AADSTS90002：未找到租户“xx”。如果租户没有有效订阅，则可能会发生这种情况

我跟着this https blogs msdn microsoft com jpsanders 2017 03 17 accessing azure app services using azure ad bearer token 2 从
Vue2 with typescript，类型上不存在属性

我有以下 Vue 组件
将声音导出为 WAV 文件

我从来没有在 Mma 中过多地使用声音 I have t Sound List Violin SoundNote 6 我怎样才能导出t作为 WAV 文件当我尝试显而易见的事情时 Export c test wav t I get 在这个旧
删除旧版本的 Ruby（在 Windows 上）

我刚刚下载了 Ruby 1 9 2 我希望它完全取代我也安装的旧版本 Ruby 1 8 7 主要是因为我在安装不同版本的东西时感到困惑最好的方法是什么我要卸载旧版本吗如果是这样怎么办我可以用新的 ruby 1 9 2 bin ru
HTML5 本地存储中的项目何时过期？

数据保存多长时间localStorage 作为 HTML5 中 DOM 存储的一部分可用吗我可以为本地存储的数据设置过期时间吗我建议将时间戳存储在object您存储在 localStorage 中 var object value v
使用 keras 库指定 Dense

我稍微误解了如何为我的数据创建一个简单的序列数据具有以下维度 X train shape 2369 12 y train shape 2369 X test shape 592 12 y test shape 592 这就是我创建模型的方
如何在 JavaFX 的文本字段中添加提示文本

我想在文本字段中添加一些提示文本例如姓名或姓氏我像这样创建文本字段TextField userTextField new TextField 但我找不到如何做到这一点在这里我刚刚发现这个仅当用户开始输入时清除 JavaFX T
qpython 没有“gnu-readline”功能

我已经在我的 Samsung Galaxy Appeal android 2 3 6 上安装了 qpython 但是解释器的命令行没有 readline 编辑功能这使得它使用起来不切实际这通常不是自动包含在内吗这与当前活动的 Shel
创建NotificationChannel会抛出IllegalArgumentException

该应用程序适用于以前版本的 Android 但不适用于 Oreo 它是WebView with Notifications 我一直在研究这个错误但没有发现任何类似的东西堆栈跟踪 E AndroidRuntime FATAL EXCEPT
jQuery ajax post Uncaught RangeError：超出最大调用堆栈大小

我在使用 jQuery ajax 时遇到问题我有 JavaScript
模板、类型名、lambda -> 依赖名称不依赖？

考虑 template lt typename Something gt boost function
Angular：单击后禁用 ngFor 中的按钮

我有一个
如何在 Swift 4.0 中使用键值编码？

我以前从未使用过Swift4 也不知道如何在其中使用KVC 我尝试用字典创建模型代码如下 class Person NSObject var name String var age Int 0 init dict String Any s
如何在生产环境中强制使用 https，而在开发环境中强制使用 http？

我有一个 symfony2 应用程序在产品服务器上我希望所有路由都通过 https 进行而在开发服务器上我希望能够使用 http 我如何单独使用 symfony2 来实现这一目标我不想触及网络服务器配置我尝试将其添加到我的rou
GraphViz：仅修复节点的 y 位置

我想固定节点的 y 位置但根据力方向自动对齐 x 位置每个 y 位置都是单独的因为它对应于 y 轴上的一个坐标并且有几千个节点所以我认为为每个节点使用子图是不合理的使用简单的力定向布局编写了我自己的 Java2D PDFGrap
科尔多瓦蓝牙音箱没有声音

我正在开发一个 Android 和 IOS 应用程序该应用程序可以毫无问题地播放音频消息我的问题如下如果手机已经连接到蓝牙启用并连接蓝牙然后我启动应用程序并播放音频文件在这种情况下我在电话和蓝牙扬声器上都听不到任何声音但是
Hadoop中数据是如何分割的

Hadoop是否根据程序中设置的mapper数量来分割数据也就是说有一个大小为 500MB 的数据集如果 Mapper 的数量为 200 个假设 Hadoop 集群允许同时存在 200 个 Mapper 那么每个 Mapper 是否

Hadoop中数据是如何分割的

Hadoop中数据是如何分割的 的相关文章

随机推荐

热门标签

Hadoop中数据是如何分割的的相关文章