Hadoop 如何执行输入拆分？

2024-01-04

这是一个涉及Hadoop/HDFS的概念问题。假设您有一个包含 10 亿行的文件。为了简单起见，让我们考虑每行的形式<k,v>其中 k 是该行距开头的偏移量，value 是该行的内容。

现在，当我们说我们想要运行 N 个映射任务时，框架是否将输入文件拆分为 N 个分区并在该分区上运行每个映射任务？或者我们是否必须编写一个分区函数来执行 N 个分割并在生成的分割上运行每个映射任务？

我想知道的是，分割是在内部完成还是我们必须手动分割数据？

更具体地说，每次调用 map() 函数时，它的值是什么？Key key and Value val参数？

谢谢，迪帕克

The InputFormat负责提供分割。

一般来说，如果有n个节点，HDFS会将文件分发到所有这n个节点上。如果启动一个作业，默认会有n个映射器。感谢 Hadoop，机器上的映射器将处理存储在该节点上的部分数据。我想这就是所谓的Rack awareness.

长话短说：将数据上传到HDFS并启动MR作业。 Hadoop 将关心优化执行。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

MapReduce

HDFS

Hadoop 如何执行输入拆分？的相关文章

Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
运行时异常：java.lang.NoSuchMethodException：tfidf$Reduce.()

如何解决这个问题 tfidf是我的主类为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
使用 PyArrow 从 HDFS 读取镶木地板文件

我知道我可以使用 pyarrow 连接到 HDFS 集群pyarrow hdfs connect 我也知道我可以使用读取镶木地板文件pyarrow parquet s read table 然而 read table 接受文件路径而hdf
CouchDB 通过三个索引键进行查询和过滤

我目前正在尝试按具有三个值的键进行排序和排序但让我们从文档结构开始 id DOCIDGOESHERE01 type MESSAGE date 2011 08 24 06 49 02 author USERIDGOESHERE01 rece
Flume将数据从MySQL迁移到Hadoop

请分享您的想法需求是将MySQL db中的数据迁移到Hadoop HBase进行分析数据应该实时或接近实时地迁移 Flume可以支持这个吗有什么更好的方法据我了解 Flume 并不是为此而设计的 Flume 基本上用于读取日志如数
如何跟踪hadoop中哪个数据块在哪个数据节点？

如果复制一个数据块会复制到哪个数据节点是否有任何工具可以显示复制块存在的位置如果您知道文件名则可以通过 DFS 浏览器查找转到您的 namenode Web 界面说浏览文件系统并导航到您感兴趣的文件在页面底部将列出文件中
无法在 Hadoop Map-Reduce 作业中加载 OpenNLP 句子模型

我正在尝试将 OpenNLP 集成到 Hadoop 上的 Map Reduce 作业中从一些基本的句子分割开始在地图函数中运行以下代码 public AnalysisFile analyze String content InputS
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
Apache hadoop 版本 2.0 与 0.23

Hadoop 的版本和发行版太多让我很困惑我有几个问题 Apache Hadoop 1 x 是从 0 20 205 开始的 Apache Hadoop 2 0 是从 0 22 还是 0 23 开始根据这个blogpost http b
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
使用字符串数组在 Hive 表上加载 CSV 文件

我正在尝试将 CSV 文件插入 Hive 其中一个字段是 string 数组这是 CSV 文件 48 Snacks that Power Up Weight Loss Aidan B Prince Health Fitness Trave
如何按行扩展数组值！！使用 Hive SQL

我有一个有 4 列的表其中一列项目类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i
无法验证 serde：org.openx.data.jsonserde.jsonserde

我编写了这个查询来在配置单元上创建一个表我的数据最初是 json 格式所以我已经下载并构建了 serde 并添加了它运行所需的所有 jar 但我收到以下错误 FAILED Execution Error return code 1 fr
Hadoop 上的 Sqoop：NoSuchMethodError：com.google.common.base.Stopwatch.createStarted() [重复]

这个问题在这里已经有答案了我在 Google Cloud DataProc 上的 hadoop 上运行 sqoop 以通过 Cloud SQL 代理访问 postgresql 但遇到 Java 依赖项错误 INFO First Cloud
当我将文件存储在 HDFS 中时，它们会被复制吗？

我是 Hadoop 新手当我使用以下方式存储 Excel 文件时hadoop fs putcommoad 它存储在HDFS中复制因子为3 我的问题是是否需要3份并分别存储到3个节点中这是 HDFS 工作的漫画 https docs
适用于 Python 3.x 的 Hive 客户端

是否可以使用 Python 3 x 连接到 hadoop 并运行 hive 查询我正在使用Python 3 4 1 我发现可以按照这里写的方式完成 https cwiki apache org confluence display Hiv
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
为什么我们需要将外部表移动到托管 Hive 表？

我是 Hadoop 新手正在学习 Hive 在 Hadoop 权威指南第 3 版中第 12 页第428章最后一段我不明白下面关于 HIVE 中外部表的段落一种常见的模式是使用外部表访问存储在 HDFS 中的初始数据集由另一个进
Hive NVL 不适用于列的日期类型 - NullpointerException

我正在使用 HDFS 上的 MapR Hive 发行版并面临以下问题如果表的列类型是日期类型则NVL https cwiki apache org confluence display Hive LanguageManual UDF

随机推荐

从 ui 中删除 QComboBox 中的项目

我正在尝试调整 QComboBox 的 ui 以便用户可以从下拉列表中删除项目无需先选择它们背景是我正在使用 QComboBox 来指示当前打开的是哪个数据文件我还使用它作为最近打开的文件的缓存我希望用户能够删除他不想再列出的条目
Backbone.js 中的 PATCH 请求方法

正确的执行方式是什么PATCH在 Backbone js 中保存模型属性时请求从 Backbone js v0 9 9 开始您可以简单地通过 patch true to save 阅读更多 http backbonejs org cha
C++ 函数成员指针

我已经阅读了几篇关于此的文章但似乎无法通过示例代码准确找到我正在寻找的内容如果有人能给我一些帮助我将非常感激在我的标题中我有 void addEvent void func Pack void triggerEvents Pack
将小数格式化为正确的区域性信息中的字符串

将小数金额格式化为字符串以便 UI 以正确的区域性信息显示的最佳方法是什么向 ToString 添加格式 myDecimal ToString 00 or myDecimal ToString C 对于可为空的小数 decimal 您将需
为什么 CMake 找不到 GTest（Google 测试）？

有一个现成的项目在其中一个 cmake 文件中有一个源代码 find package GTest REQUIRED if NOT GTest FOUND message FATAL ERROR Cannot find Google Tes
CKAN可以支持Solr 7.0吗？

我正在尝试在 Ubuntu 16 04 中安装 Solr 7 0 和 CKAN 2 7 2 但是我得到了以下内容errors 来自 Solr 管理网站 ckan org apache solr common SolrException o
查找图中的最长路径

我一直在努力找出复杂网络中最长的路径我在 StackOverflow 和 Internet 上遇到了很多问题但没有一个可以帮助我我写了一个 CQL 作为 start n node match p n LinkTo 1 gt m wit
Lucene SpanNearQuery 中“Slop”的确切含义（或 ElasticSearch span_near 中的 slop）

问题一问题一
如何判断 CSS 背景图像何时加载？事件被触发了吗？ [复制]

这个问题在这里已经有答案了我有一个带有图像背景的侧边栏小部件上面是一个搜索输入表单我不希望在图像加载之前显示输入有没有办法附加一个load像普通 img 元素对象一样 CSS 背景图像的事件处理程序我知道这可以在普通图像上完成
嵌套循环和字符串连接的性能问题

有人可以解释一下为什么这段代码需要这么长时间才能运行即 gt 24 小时行数为 5000 列数为 2000 即大约 10m 循环有一个更好的方法吗 for int i 0 i lt m rows i for int j 0 j lt
使用 Akka Stream 传输巨大的 json

我有一个 json 板的巨大 http 响应问题其中只有部分是感兴趣的我无法更改响应结构这是一个例子 searchString search redirectUrl 0 numRecords 123 refinementViewMod
由多个用户编辑数据库记录

我设计了数据库表标准化在 MS SQL 服务器上并为应用程序创建了一个独立的 Windows 前端少数用户将使用该前端来添加和编辑信息我们将添加一个网络界面以便稍后在我们的生产区域进行搜索我担心如果两个用户开始编辑同一条记录
速度模板 - 新线

我一直在使用 Apache 的 Velocity 引擎和自定义模板问题是我无法生成具有相应换行符的字符串我几乎尝试了我发现的所有内容例如使用 esc n 和 esc newline 我已经在我的项目中使用转义工具但似乎我当前使用的
如何在 C++ 中实现对私有基类的强制转换

如何在 C 中实现对私有基类的强制转换我不想使用黑客例如添加朋友等定义公共转换运算符不起作用 EDIT 例如我有 class A base class class AX private A a child class AY priva
PHP变量插值与串联[重复]

这个问题在这里已经有答案了以下两种方法性能可读性等有什么区别您更喜欢哪一种 echo Welcome name s vs echo Welcome name 无论什么对你最有效都有效但如果你想追求速度请使用以下命令 echo
魔术方法（__get，__set）在扩展类中不起作用？ [复制]

这个问题在这里已经有答案了
chrome.downloads.download 无法从后台服务人员工作

我正在尝试创建一个 Chrome 扩展当单击工具栏按钮时它将对页面内容进行一些分析然后将结果保存即下载到用户的计算机上单击按钮时我可以进行分析但无法触发下载这是我第一次编写 Chrome 扩展程序因此任何帮助解决它不起作用
Xcode 7：断点停止时崩溃

我有一个非常烦人的问题当 Xcode 7 尝试进行符号化时几乎在每个断点处都会崩溃我已经做了几件事包括删除 Xcode 并重新安装它我在以前的 Xcode 6 X 上也遇到了同样的问题有什么线索吗我想知道我是否应该从头开始重新
Electron：如何捕获主进程的所有请求响应？

我想从主进程中获取电子应用程序中发生的所有请求的响应此图显示我想要获得的响应位于响应选项卡而不是 Chrome 开发工具上的标头选项卡 https i stack imgur com AYA1G png 我没有使用
Hadoop 如何执行输入拆分？

这是一个涉及Hadoop HDFS的概念问题假设您有一个包含 10 亿行的文件为了简单起见让我们考虑每行的形式

Hadoop 如何执行输入拆分？

Hadoop 如何执行输入拆分？ 的相关文章

随机推荐

热门标签

Hadoop 如何执行输入拆分？的相关文章