使用 Hadoop，我可以在未运行数据节点的计算机上创建任务跟踪器吗？

2024-02-22

所以这是我的情况：

我有一个使用 HBase 的 MapReduce 作业。我的映射器接受一行文本输入并更新 HBase。我没有减速器，并且我没有将任何输出写入光盘。我希望能够在预期利用率激增时向集群添加更多处理能力，然后在利用率下降时缩减处理能力。我们暂时假设我无法使用亚马逊或任何其他云提供商；我正在私人集群中运行。

一种解决方案是当我需要更多容量时向集群添加新机器。但是，我希望能够添加和删除这些机器，而无需任何等待或麻烦。我不想每次需要添加或删除节点时都重新平衡 HDFS。

因此，似乎一个好的策略是拥有一个“核心”集群，其中每台机器都运行一个任务跟踪器和一个数据节点，当我需要增加容量时，我可以启动一些运行任务跟踪器的“一次性”机器，但不是数据节点。这可能吗？如果是这样，会有什么影响？

我意识到在没有数据节点的机器上运行的任务跟踪器将无法获得数据局部性的好处。但在实践中，这意味着什么？我想象，当在其中一台“一次性”机器上安排作业时，作业跟踪器将通过网络向任务跟踪器发送一行输入，然后任务跟踪器获取该输入行并将其直接提供给映射器，而无需将任何内容写入光盘。是这样的情况吗？

哦，我正在使用 Cloudera cdh3u3。不知道这是否重要。

我想象，当在其中一台“一次性”机器上安排作业时，作业跟踪器将通过网络向任务跟踪器发送一行输入，然后任务跟踪器获取该输入行并将其直接提供给映射器，而无需将任何内容写入光盘。是这样的情况吗？

不完全是这样，作业跟踪器要求任务跟踪器运行映射任务来处理输入拆分。 JobTracker不会将数据传递给任务跟踪器，更多的是传递序列化的分割信息（文件名、起始偏移量和长度）。 TaskTracker运行MapTask，正是MapTask实例化了用于分割信息的InputFormat和关联的RecordReader——将输入Key/Value传递给Mapper。

如果您没有本地数据节点，或者您确实有本地数据节点，但数据未在本地数据节点上复制，则数据将从另一个数据节点（希望是机架）通过网络读取本地的，但仍然可能来自其他地方）。

您可以在 Hadoop 计数器输出中查看数据块位于任务本地或机架本地的频率的统计信息。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Hadoop，我可以在未运行数据节点的计算机上创建任务跟踪器吗？的相关文章

createImage(int width, int height) 的问题

我有以下代码作为游戏的一部分每 10 毫秒运行一次 private void gameRender if dbImage null createImage returns null if GraphicsEnvironment isHea
JVisualVM/JConsole 中的 System.gc() 与 GC 按钮

我目前正在测试处理 XML 模式的概念验证原型并围绕一个非常消耗内存的树自动机外部库我已经获得了源代码构建我想绘制真实峰值堆随着模式大小的增加不同运行的内存消耗使用的指标符合我的目的并且不会影响问题或者至少是它的合理近似
使用 GWT 读取非常大的本地 XML 文件

我正在使用 GWT 构建我的第一个 Java 应用程序它必须从一个非常大的 XML 文件中读取数据当我尝试发送对文件中信息的请求时遇到问题并且我不太确定它是否与文件的大小或我的语义有关在我的程序中我有以下内容 static fin
是否有任何简单（且最新）的 Java 框架可用于在 Swing 应用程序中嵌入电影？

我正在构建一个小型 Swing 应用程序我想在其中嵌入一部电影重要的是这个应用程序是一个 WebStart 应用程序并且该库应该能够打包在我启动的 jnlp 中即不依赖于本机库我知道并尝试过 JMF 但我认为与其他框架相比其
如何将 Mat (opencv) 转换为 INDArray (DL4J)？

我希望任何人都可以帮助我解决这个任务我正在处理一些图像分类并尝试将 OpenCv 3 2 0 和 DL4J 结合起来我知道DL4J也包含Opencv 但我认为它没什么用谁能帮我如何转换成 INDArray 我尝试阅读一些问题here
使用 JUnit 时，有没有办法验证测试方法中是否调用了 try/catch 指令的 Catch 部分？

例如如果我想测试以下课程 public class SomeClass public void someMethod try Some code where comething could go wrong catch Exception
是否可以通过编程方式查找 logback 日志文件？

自动附加日志文件以支持电子邮件会很有用我可以以编程方式设置路径如以编程方式设置 Logback Appender 路径 https stackoverflow com questions 3803184 setting logback
如何使用 Hibernate (EntityManager) 或 JPA 调用 Oracle 函数或过程

我有一个返回 sys refcursor 的 Oracle 函数当我使用 Hibernate 调用该函数时出现以下异常 Hibernate call my function org hibernate exception Generic
如何检测 Java 字符串中的 unicode 字符？

假设我有一个包含的字符串我如何找到所有这些 un icode 字符我应该测试他们的代码吗我该怎么做呢例如给定字符串 A X 我想将其转换为 AYXY 我想对其他 unicode 字符做同样的事情并且我不想将它们存储在某种翻译映
套接字的读写如何同步？

我们创建一个套接字在套接字的一侧有一个服务器在另一侧有一个客户端服务器和客户端都可以向套接字写入和读取这是我的理解我不明白以下事情如果服务器从套接字读取数据它在套接字中是否只看到客户端写入套接字的内容我的意思是如果服务
如何避免 ArrayIndexOutOfBoundsException 或 IndexOutOfBoundsException？ [复制]

这个问题在这里已经有答案了如果你的问题是我得到了java lang ArrayIndexOutOfBoundsException在我的代码中我不明白为什么会发生这种情况这意味着什么以及如何避免它这应该是最全面的典范 https me
Java：如何为山区时间创建 TimeZone 对象？

必须不禁用夏令时嗯在这个清单 http en wikipedia org wiki List of tz database time zones在 zoneinfo 时区名称中有很多声称是山地时间找到最适合您想要的那个然后使用它
Java实现累加器类，提供Collector

A Collector具有三种通用类型 public interface Collector
QuerySyntaxException：无法找到类

我正在使用 hql 生成 JunctionManagementListDto 类的实际 Java 对象但我最终在控制台上出现以下异常 org hibernate hql internal ast QuerySyntaxException
java库维护数据库结构

我的应用程序一直在开发所以偶尔当版本升级时需要创建更改删除一些表修改一些数据等通常需要执行一些sql代码是否有一个 Java 库可用于使我的数据库结构保持最新通过分析类似 db structure version 信息并执
Java Swing：需要一个高质量的带有复选框的开发 JTree

我一直在寻找一个 Tree 实现其中包含复选框其中当您选择一个节点时树中的所有后继节点都会被自动选择当您取消选择一个节点时树中其所有后继节点都会自动取消选择当已经选择了父节点并且从其后继之一中删除了选择时节点颜色将发生变化
在 Google App-Engine JAVA 中将文本转换为字符串，反之亦然

如何从字符串转换为文本 java lang String to com google appengine api datastore Text 反之亦然 Check Javadoc http code google com appengin
Android：无法发送http post

我一直在绞尽脑汁试图弄清楚如何在 Android 中发送 post 方法这就是我的代码的样子 public class HomeActivity extends Activity implements OnClickListener pr
将数据从 oracle 移动到 HDFS，处理并从 HDFS 移动到 Teradata

我的要求是将数据从 Oracle 移至 HDFS 处理HDFS上的数据将处理后的数据移至 Teradata 还需要每 15 分钟执行一次整个处理源数据量可能接近50GB 处理后的数据也可能相同在网上搜索了很多之后我发现 PRARO
在java中使用多个bufferedImage

我正在 java 小程序中制作游戏并且正在尝试优化我的代码以减少闪烁我已经实现了双缓冲因此我尝试使用另一个 BufferedImage 来存储不改变的游戏背景元素的图片这是我的代码的相关部分 public class QuizApp

随机推荐

Date.toLocaleDateString() 如何工作？

我必须用本地用户配置来表示日期遵循MDN https developer mozilla org en US docs JavaScript Reference Global Objects Date toLocaleDateString
卷曲错误 35：未知 SSL 谷歌 OAuth2

我尝试使用 Google php OAuth2 google api php client 并且我有curl errno 35 但仅当我使用代理时 HTTP Error 0 Unknown SSL protocol error in con
生成 RDP 配置文件问题

edit弄清楚了我没有尝试通过 mstsc exe file rdp 启动它而是启动 file rdp 并且它工作得很好 end edit 好的我正在开发一个 C 程序其中一部分是生成自己的 rdp 文件该文件将自动连接生成时提供
ec2 ssh 操作超时

ssh vvv i AMSKeyPair pem email protected cdn cgi l email protection OpenSSH 7 4p1 LibreSSL 2 5 0 debug1 读取配置数据 etc ssh s
如何分析稀疏邻接矩阵？

我正在研究稀疏邻接矩阵其中大多数单元格为零有些单元格为零两个单元格之间的每个关系都有一个可能很长的多项式描述并且手动分析它们非常耗时我的老师建议使用纯代数方法格罗布纳基地 http pastebin com jwVMxbM2但在继
ASP.NET Webforms 与 ASP.NET MVC 的优缺点，一些要点 [重复]

这个问题在这里已经有答案了可能的重复使用 ASP Net MVC 与 Web 表单相比的最大优势 https stackoverflow com questions 102558 biggest advantage to using a
如何修复“无法打开 libmsodbcsql-17.3.so.1.1”

在 ubuntu 19 04 中当在安装了 pyodbc 4 0 26 的 anaconda 环境中使用 Python3 时我得到了Error 01000 01000 unixODBC Driver Manager Can t open
OAuth PKCS p12 私钥的 Google API 密码是什么？

Google API 设置提供了一种使用服务帐户创建项目的方法我将私钥下载为 PKCS 12 p12 文件在哪里可以找到该文件的密码 Answer 不是秘密 https developers google com console hel
如何在android/eclipse上设置Jfeinstein10滑动菜单

我正在尝试设置 JFeinstein10滑动菜单 https github com jfeinstein10 SlidingMenu在日食中我尝试过的 file gt import gt from existing android gt
glClearColor(0.0,0.0,0.0,0.0) 和 glClear(COLOR_BUFFER_BIT) 之间有区别吗？

两者都清除颜色缓冲区对吧他们也这样做吗 glClear http www opengl org wiki GLAPI glClear实际上清除了缓冲区同时glClearColor http www opengl org wiki GL
将 SVG 路径数据转换为 0-1 范围，以用作 objectBoundingBox 的剪辑路径

我使用从 Illustrator 导出的相当复杂的 SVG 形状作为剪切路径问题是objectBoundingBox要求路径数据在0 1范围内而我的路径包含超出这个范围的路径数据这是我正在使用的
Maven - 依赖于组装的 zip

我正在尝试有一个项目B拉下并解压由以下人员构建的 ZIP项目A并部署到远程存储库使用以下命令创建并附加 ZIP maven assembly plugin 带包装类型pom
猫鼬日期比较没有时间和按createdAt和staffId分组与按聚合每周、每月和每年的员工总数？

可能问题看起来像是重复的但对此表示歉意我想汇总每周每月每年的结果createdAt没有时间和财产staffId 模型如下 id ObjectId 5f351f3d9d90b1281c44c5dp staffId 12345 cate
如何使用 Linq 尽可能简单地从字典中选择多个值

我需要根据键的子集从字典中选择多个值放入列表中我正在尝试使用 Linq 在一行代码中完成此操作但到目前为止我发现的代码似乎相当长且笨拙最短最干净的方法是什么这就是我现在所拥有的键是字符串 keysToSelect 是要选择的
按组添加缺少年份的行

我想在 data frame 中为每个组公司和类型的所有缺失年份创建新行数据框如下所示 minimal lt data frame firm c A A A B B B A A A B B B type c X X X X X X Y
Android 无法生成视图绑定器 com.sun.tools.javac.code.Symbol$CompletionFailure：

我在尝试构建时遇到错误 gradlew clean build 这是我收到的错误 error cannot generate view binders com sun tools javac code Symbol CompletionFa
在 Derby 中自动将 VARCHAR 截断为特定长度

如何使用 SQL 在 Derby 中自动将 VARCHAR 截断为表字段长度再具体一点 CREATE TABLE A B VARCHAR 2 INSERT INTO A B VALUES 1234 会抛出 SQLException A t
Qt 发送 keyPressEvent

我想将字符附加到QLineEdit通过发送KeyEvent 我正在使用这样的代码 ui myEdit gt setFocus for size t i 0 i lt 10 i QKeyEvent keyPressed QKeyEvent K
在 Swift 中将可变数量的参数从一个函数传递到另一个函数[重复]

这个问题在这里已经有答案了 The 斯威夫特语言指南 https developer apple com library prerelease ios documentation swift conceptual swift program
使用 Hadoop，我可以在未运行数据节点的计算机上创建任务跟踪器吗？

所以这是我的情况我有一个使用 HBase 的 MapReduce 作业我的映射器接受一行文本输入并更新 HBase 我没有减速器并且我没有将任何输出写入光盘我希望能够在预期利用率激增时向集群添加更多处理能力然后在利用率下降时缩减处

使用 Hadoop，我可以在未运行数据节点的计算机上创建任务跟踪器吗？

使用 Hadoop，我可以在未运行数据节点的计算机上创建任务跟踪器吗？ 的相关文章

随机推荐

热门标签

使用 Hadoop，我可以在未运行数据节点的计算机上创建任务跟踪器吗？的相关文章