为什么 Hadoop 不使用 MPI 来实现？

2024-03-10

如果我错了，请纠正我，但我的理解是，Hadoop 不使用 MPI 进行不同节点之间的通信。

造成这种情况的技术原因是什么？

我可以冒险进行一些猜测，但我对 MPI 是如何“在幕后”实现的了解不够，无法知道我是否正确。

想想看，我对 Hadoop 的内部结构也不完全熟悉。我在概念层面上理解该框架（映射/组合/洗牌/减少以及它如何在高层次上工作），但我不知道具体的实现细节。我一直假设 Hadoop 正在传输序列化数据结构（也许GPBs http://code.google.com/apis/protocolbuffers/docs/overview.html）通过 TCP 连接，例如在洗牌阶段。如果这不是真的，请告诉我。

Hadoop/map-reduce 的一大特点是容错性。大多数（任何？）当前的 MPI 实现都不支持容错。正在考虑将其用于未来版本OpenMPI http:////www.open-mpi.org/faq/?category=ft.

桑迪亚实验室 http://www.sandia.gov/~sjplimp/mapreduce.html有一个使用 MPI 的 map-reduce 版本，但它缺乏容错能力。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 Hadoop 不使用 MPI 来实现？的相关文章

在 Python 中通过 TCP 套接字发送文件

我已经成功地将文件内容图像复制到新文件然而当我通过 TCP 套接字尝试同样的事情时我遇到了问题服务器循环未退出客户端循环在到达 EOF 时退出但服务器无法识别 EOF 这是代码 Server import socket Im
无法从 JAR 文件加载主类

我有一个 Spark scala 应用程序我尝试显示一条简单的消息 Hello my App 当我编译它时sbt compile并运行它sbt run没关系我成功显示了我的消息但他显示了错误像这样 Hello my applicat
HDP 3.1.0.0-78 升级后无法使用 ResourceManager UI 终止 YARN 应用程序

我最近将 HDP 从 2 6 5 升级到 3 1 0 它运行 YARN 3 1 0 并且我无法再使用旧的 8088 cluster apps 或新的 8088 从 YARN ResourceManager UI 终止应用程序 ui2 ind
构建多线程 TCP/IP 服务器

我想构建一个可供最多 100 个并发客户端使用的 TCP IP 服务器但仍不确定如何开始至少我需要服务器监听客户端并将它们全部存储在数组或列表中对于每个客户端它需要根据其客户端状态接收和发送数据当有人连接或断开连接时服务器应
Apache Spark 中的混洗与非混洗合并

在将 RDD 写入文件之前执行以下转换时它们之间有什么区别合并 1 随机播放 true 合并 1 随机播放假代码示例 val input sc textFile inputFile val filtered input filter
2017 年在 OS X 上从源代码构建 Apache Hadoop

到目前为止我已经分叉了 Git 存储库 https github com apache hadoop 我一直在寻找有关如何从源代码构建的信息我尝试过以下命令 mvn package Pdist Dtar DskipTests 这导致了以
grpc找不到protobuf库

我检查了 grpc 安装并完成了构建和安装现在当我尝试 find package gRPC CONFIG REQUIRED I get CMake Error at CMakeLists txt 15 find package Found
如何在 RESTful Flask 应用程序中将 Pandas DataFrame 与 ProtoBuf/Gzip 进行序列化/反序列化？

我有一个pandas dataframe作为Flask Response对象在一个flask应用目前我正在将其转换为JSON Object df df to json return Response df status 200 mimet
具有 C++ 客户端和 C# 后端的协议缓冲区？

如何通过 HTTP 或等效的 Web 服务将 C 后端与 C 前端连接起来这里分为三个部分服务器听起来像 C 客户端听起来像 C 和传输将它们分开并从最重要的开始传输这里的重大决定是您希望数据采用什么形状您提到了协议缓冲区
使用 Hadoop 映射两个数据集

假设我有两个键值数据集数据集A和B 我们称它们为数据集A和B 我想用 B 组的数据更新 A 组中的所有数据其中两者在键上匹配因为我要处理如此大量的数据所以我使用 Hadoop 进行 MapReduce 我担心的是为了在 A 和 B
发现多个文件具有与操作系统无关的路径“protobuf.meta”

我发现一些兼容性问题com google android gms play services auth 11 6 0 and com android support test espresso espresso core 3 0 1当用作
与恶霸算法相比，高级主选举算法有什么好处？

我读过当前的主选举算法如 Raft Paxos 或 Zab 如何在集群上选举主节点但不明白为什么他们使用复杂的算法而不是简单的恶霸算法我正在开发一个集群库并使用 UDP 多播来发送心跳消息每个节点加入一个多播地址并定期向该地址发送
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
使用 google.protobuf.Timestamp 在 Go 中解析带有时区偏移的日期时间戳

我正在创建一个将使用 GRPC 和 protobuf 的 Go 应用程序我的 RPC 服务应获取包含类型的消息google protobuf Timestamp 解析它并最终将其保存在数据库中或对其执行更多操作我对什么被认为是该类型的有
如何在 Hadoop 中将 String 对象转换为 IntWritable 对象

我想转换String反对IntWritableHadoop 中的对象任何过程都可以进行转换 IntWritable value new IntWritable Integer parseInt someString 并处理以下可能性par
访问 AWS 上的 Tensorboard

我正在尝试访问 AWS 上的 Tensorboard 这是我的设置张量板 tensorboard host 0 0 0 0 logdir train 在端口 6006 上启动 TensorBoard b 39 您可以导航到http 172
为什么 UDP 服务器中只有一个套接字？

我正在准备考试发现了这个问题典型的 UDP 服务器可以使用单个套接字来实现解释一下为什么对于 TCP 驱动的服务器我发现创建了两个套接字一个用于所有客户端访问服务器另一个用于每个客户端的特定套接字用于服务器和客户端之间的进
分配 TCP/IP 端口供内部应用程序使用

我编写了一个由 Windows 服务托管的 WCF 服务它需要侦听已知的 TCP IP 端口我可以在什么范围内安全地分配端口供我的组织内使用该端口将嵌入到服务和使用该服务的客户端的配置文件中端口 0 1023 是众所周知的端口由
GProf 输出中缺少函数

我正在尝试分析一些 C 代码但最直观地成本最高的函数之一并未出现在 GProf 输出中 int main initialise haloSwap for functions propagate functions void propaga

随机推荐

Matplotlib - 单值等高线图

我想绘制一些数据的等值线图但字段中的所有值可能都相同这会导致 matplotlib 中出现错误这是有道理的因为实际上没有要创建的轮廓例如如果你运行下面的代码你会得到一个错误但删除第二个定义zi它按预期运行如果某些数据是均匀
PowerShell 从远程 PC 删除桌面项目

我有 200 台电脑需要删除一些特定的图标我使用 ComputerName 创建了一个 CSV 文件每行 1 个名称我有另一个文件其中包含需要从桌面删除的图标的文件名 Shortcut1 lnk 等该其他文件也是 CSV 每行 1
强制执行必须在*不同*字段中的每个子类中实现的属性的最佳方法是什么？

我正在尝试想出最好的实施方式SQL 数据服务灵活的实体模型 http msdn microsoft com en us library cc512402 aspx其中每个类都可以存储为一个实体甚至派生类示例每个子类都有不同的 st
如何在不使用 for 循环的情况下对不同大小的矩阵的各个部分求和？

我有一个相对较大的矩阵 NxN N 20 000 和一个 Nx1 向量用于标识必须分组在一起的索引我想将矩阵的各个部分相加原则上可以有不同数量的元素和非相邻元素我很快写了一个双 for 循环它可以正常工作但当然效率很低探查器将
使用 Python 从 Gmail 下载特定电子邮件

有人可以帮我定制现有的代码示例吗我可以从下面的文章中看到如何连接到gmail并下载内容但我不知道如何搜索特定电子邮件并仅下载时间戳和正文文章如何从 Gmail 下载所有带附件的电子邮件 https stackoverflow com
如何使用 C# 将 Excel 单元格设置为只读？

Range range Range this workSheet Cells 1 1 range AllowEdit false 当我设置AllowEdit属性设置为 false 编译错误将显示错误属性或索引器无法将 Microsof
Babel 转译地图可以在 IE11 中使用吗？

查看Map文档看起来IE11中并不完全支持 https developer mozilla org en US docs Web JavaScript Reference Global Objects Map https develope
setTimeout 不延迟 $.each 中的函数调用

我的网站上有几个div 我想一一更新为了不一次向服务器发送超过 200 个请求我希望每个请求延迟 1 秒我尝试过的 var tourBox tour box tourBox each function var box this set
InheritedWidget - 在 navigator.push 之后在 null 上调用 getter

导航到新小部件后我在尝试访问 InheritedWidget 时遇到问题我有这样的顶级小部件 class App extends StatelessWidget build context return MaterialApp titl
如何安装阴影罐子而不是原始罐子

我将 maven shaded plugin 添加到我的项目中它正确构建了着色的 uber jar 但仍然安装了原始的 Thin jar 我想安装阴影的超级罐子以便下游项目可以依赖这个阴影的超级罐子我该怎么做谢谢这是我的 pom
Matlab 中的非线性回归工具箱 (nlinfit)

有谁知道MATLAB工具箱中非线性回归的算法和目标函数是什么我正在查看 MATLAB 网站但它没有提供信息 None
如何在 ASP.NET 中通过 LAN 访问您的网站 [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我有一个 asp net 网页应用程序我希望使用局域网 LAN 或无线局域网 WLAN 访问它我不知道从哪里开始我需要配置什么才能让其他人访问我
Unity / EntLib：将依赖项注入 CustomTraceListener

抱歉这是一个非常特殊的话题所以很多人可能不感兴趣但是我需要做以下事情我有一个应用程序它提供对某种控制台窗口的日志记录它是一个 WPF 窗口因为应用程序要求而且应用程序即使在这里也需要看起来很华丽我们的特殊客户要求这样做
在鼠标移动时从画布获取像素颜色

是否可以获取鼠标下像素点的RGB值有完整的例子吗这是我到目前为止所拥有的 function draw var ctx document getElementById canvas getContext 2d var img new Im
android中如何进行XML解析？

我是 android 和 xml 的新手所以我想知道什么是 xml 解析以及我们如何以及在哪里可以在 android 应用程序开发中使用它我还想知道用于此目的的语法谢谢要了解 XML 的介绍为什么不首先阅读维基百科条目 http
如何使用 NSFetchedResultsController 在日期之后生成部分

我提供了一个托管对象列表其中每个对象都有一个 timeStamp 属性我想使用 timeStamp 属性按时间顺序对列表进行排序这是我使用 NSSortDescriptor 所做的但我也想根据整个日期生成部分每天一个部分下面将给
IntelliJ IDEA 中的变更列表是什么？

IntelliJ IDEA 中的变更列表是什么它类似于提交吗添加一个时我有以下选项名称文本字段评论文本字段使此更改列表处于活动状态复选框跟踪上下文复选框变更列表 http www jetbrains com idea
AttributeError：“builtin_function_or_method”对象没有属性“decode”

我正在尝试从网站上抓取电子邮件当我运行代码时我收到错误但我并不真正理解该错误 Traceback most recent call last File Email Scrapper py line 37 in
动态添加多个字段的引导验证

我正在使用 bootstrap v3 1 1 我想使用 bootstrap 验证来验证表单但其中包含一个用于克隆 3 个字段的按钮通过克隆一切都很好但我无法验证克隆的字段这是我的 HTML 表单
为什么 Hadoop 不使用 MPI 来实现？

如果我错了请纠正我但我的理解是 Hadoop 不使用 MPI 进行不同节点之间的通信造成这种情况的技术原因是什么我可以冒险进行一些猜测但我对 MPI 是如何在幕后实现的了解不够无法知道我是否正确想想看我对 Hadoop

为什么 Hadoop 不使用 MPI 来实现？

为什么 Hadoop 不使用 MPI 来实现？ 的相关文章

随机推荐

热门标签

为什么 Hadoop 不使用 MPI 来实现？的相关文章