Hadoop MapReduce 与 MPI（与 Spark、Mahout 与 Mesos） - 何时使用其中之一？

2024-01-11

我是并行计算新手，刚刚开始在 Amazon AWS 上尝试 MPI 和 Hadoop+MapReduce。但我对何时使用其中一种而不是另一种感到困惑。

例如，我看到的一个常见的经验法则可以总结为......

大数据、非迭代、容错=> MapReduce
速度、小数据、迭代、非Mapper-Reducer类型=> MPI

但是后来，我也看到了 MPI 上 MapReduce 的实现（MR-MPI http://mapreduce.sandia.gov/）不提供容错能力，但是似乎是 http://dx.doi.org/10.1016/j.parco.2011.02.004在某些基准测试中比 Hadoop 上的 MapReduce 更高效，并且似乎可以使用核外内存处理大数据。

相反，也有 MPI 实现（MPICH2-纱线 https://github.com/alibaba/mpich2-yarn）在新一代 Hadoop Yarn 及其分布式文件系统 (HDFS) 上。

此外，MPI 中似乎有规定（Scatter-Gather、检查点-重启 http://fault-tolerance.org/2014/11/15/tutorial-sc14-fault-tolerance-for-hpc-theory-and-practice/, ULFM http://www.anl.gov/events/fault-tolerant-mapreduce-mpi-using-user-level-failure-mitigation和别的容错 https://www.open-mpi.org/faq/?category=ft）模仿 MapReduce 范式的几个特征。

Mahout、Mesos 和 Spark 如何适应这一切？

在 Hadoop MapReduce、MPI、Mesos、Spark 和 Mahout（或组合）之间做出选择时可以使用什么标准？

这个决定可能有很好的技术标准，但我还没有看到任何关于它的文章。似乎存在文化分歧，人们认为 MapReduce 用于筛选企业环境中的数据，而科学工作负载则使用 MPI。这可能是由于这些工作负载对网络性能的潜在敏感性。以下是关于如何找出答案的一些想法：

许多现代 MPI 实现可以在多个网络上运行，但针对 Infiniband 进行了大量优化。 MapReduce 的典型用例似乎是通过以太网连接的“白盒”商品系统集群。快速搜索“MapReduce Infiniband”会导致http://dl.acm.org/itation.cfm?id=2511027 http://dl.acm.org/citation.cfm?id=2511027这表明在 MapReduce 环境中使用 Infiniband 是一个相对较新的事物。

那么为什么要在针对 Infiniband 高度优化的系统上运行呢？它比以太网昂贵得多，但具有更高的带宽、更低的延迟，并且在网络争用较高的情况下可以更好地扩展（参考：http://www.hpcadvisorycouncil.com/pdf/IB_and_10GigE_in_HPC.pdf http://www.hpcadvisorycouncil.com/pdf/IB_and_10GigE_in_HPC.pdf).

如果您的应用程序对已融入许多 MPI 库的 Infiniband 优化效果敏感，也许这对您有用。如果您的应用程序对网络性能相对不敏感，并且将更多时间花在不需要进程之间通信的计算上，那么 MapReduce 可能是更好的选择。

如果您有机会运行基准测试，您可以对可用的任何系统进行预测，以了解网络性能的改善有多大帮助。尝试限制您的网络：例如，将 GigE 降频至 100mbit，或将 Infiniband QDR 降频至 DDR，在结果中画一条线，看看购买由 MPI 优化的更快的互连是否能让您达到您想要的效果。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop MapReduce 与 MPI（与 Spark、Mahout 与 Mesos） - 何时使用其中之一？的相关文章

Hive 中字符串数据类型是否有最大大小？

谷歌了很多但没有在任何地方找到它或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型如果是这样我在哪里可以找到我的集群可以支持的最大字符串数据类型大小提前致谢 Hive 列表的当前文档STRING作为有效的数据类
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
Hive查询快速查找表大小（行数）

是否有 Hive 查询可以快速查找表大小即行数而无需启动耗时的 MapReduce 作业这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的对新手问题表示歉
使用 OpenMP 时无用的 printf 没有加速

我刚刚编写了第一个 OpenMP 程序它并行化了一个简单的 for 循环我在双核机器上运行代码发现从 1 个线程变为 2 个线程时速度有所提高然而我在学校 Linux 服务器上运行相同的代码并没有看到加速在尝试了不同的事情之后
使用 Hadoop 映射两个数据集

假设我有两个键值数据集数据集A和B 我们称它们为数据集A和B 我想用 B 组的数据更新 A 组中的所有数据其中两者在键上匹配因为我要处理如此大量的数据所以我使用 Hadoop 进行 MapReduce 我担心的是为了在 A 和 B
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
Hadoop安装问题：

我跟着this http www bogotobogo com Hadoop BigData hadoop Install on ubuntu single node cluster phpHadoop 安装教程不幸的是当我运行全部启动
python 线程是如何工作的？

我想知道 python 线程是并发运行还是并行运行例如如果我有两个任务并在两个线程中运行它们它们是同时运行还是计划同时运行我知道GIL并且线程仅使用一个 CPU 核心这是一个复杂的问题需要大量解释我将坚持使用 CPython
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
cuda中内核的并行执行

可以说我有三个全局数组它们已使用 cudaMemcpy 复制到 GPU 中但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配以便分配页面锁定的内存而不是简单的全局分配 int a 100 b 100 c 100 cu
MPI_Comm_Create 挂起而无响应

我希望多播到不超过 4 台机器的组 MPI bcast 是否仍然比多个单播节省大量时间请记住我的组规模很小我编写了以下函数来根据机器的数量和这些机器的等级创建一个新的通信器 void createCommunicator MPI Com
我可以在 R 中并行读取 1 个大 CSV 文件吗？ [复制]

这个问题在这里已经有答案了我有一个很大的 csv 文件需要很长时间才能阅读我可以使用 parallel 或相关的包在 R 中并行读取此内容吗我尝试过使用 mclapply 但它不起作用根据OP的评论 fread来自data tab
hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
处理异步并行任务的多个异常

Problem 多个任务并行运行所有任务没有任务或其中任何任务都可能抛出异常当所有任务完成后必须报告所有可能发生的异常通过日志电子邮件控制台输出等等预期行为我可以通过 linq 使用异步 lambda 构建所有任务然后
Boost MPI 在监听列表时不会释放资源？

这是一个后续问题如何释放 boost mpi request https stackoverflow com questions 44078901 how do i free a boostmpirequest 我在监听列表而不是单个项目时
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
如何在 Emgu CV 项目中利用 OpenCL

我是使用 Emgu CV 的新手并开始创建小型示例项目例如面部检测眼睛检测等如果我可以利用 OpenCL 来加速使用 GPU 的过程那就太好了否则当我降低scaleFactor时它会导致大量的CPU利用率我怎样才能做到这一
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
GProf 输出中缺少函数

我正在尝试分析一些 C 代码但最直观地成本最高的函数之一并未出现在 GProf 输出中 int main initialise haloSwap for functions propagate functions void propaga

随机推荐

M1 芯片（Apple 芯片）模拟器上的 Android 工作室 Arctic Fox beta 3 无法启动：“AVD 'myAvdName' 的模拟器进程已终止。”

我的 MacBook Air M1 上安装了 Android studio 官方最新版和 Arctic Fox Beta 3 无法让模拟器在两个版本的 Android 上运行 AVD myavxname 的模拟器进程已终止我已确保使用其他
如何从 celery pprint 输出中删除时间戳？

运行 celeryworker 时每行输出pprint始终以时间戳为前缀并且也会被删除这使得它非常不可读 2015 11 05 16 01 12 122 WARNING Worker 2 2015 11 05 16 01 12 122
无法在 HttpResponseMessage 标头上设置 Content-Type 标头？

我正在使用 ASP NET WebApi 我正在我的一个控制器中创建一个 PUT 方法代码如下所示 public HttpResponseMessage Put int idAssessment int idCaseStudy strin
Python BeautifulSoup 相当于 lxml make_links_absolute

所以lxml有一个非常方便的功能 make links absolute doc lxml html fromstring some html page doc make links absolute url for some html p
C# 事件继承

我有这个程序 class One public delegate void del object o public event del SomethingChanged int x public int X get return x set
Delphi：泛型后代的泛型列表并以泛型作为参数

我对泛型的理解以及它们如何使用和不可以使用有些困难我有一个像这样的通用类 TControlMediator TControlMediator
通过 fopen 使用代理服务器

我正在尝试使用 fopen 从另一个网站读取远程文件我想使用代理来执行此操作据我所知我可以这样做 context stream context create array http gt array proxy gt tcp 192 16
枕头安装PyPy3缺少zlib

我当前正在尝试将 PIL 与 PyPy3 一起使用但无论我如何尝试安装它我都会收到错误首先我尝试使用正常安装pypy3 pip install pillow 但出现我需要 zlib 的错误因此在寻找解决方案一段时间后我发现了ea
在python中，有什么方法可以在定义类后自动运行函数吗？

我正在开发一个类它需要的类级数据将相对复杂为了节省打字并尽量减少错误我想通过函数定义大部分数据另外我希望用户可以使用这些数据即使他们还没有准备好实例化该类那么我想知道有没有办法让这些函数在类定义后就自动运行呢举个例子我
当虚拟机中的磁盘空间不足时如何创建天蓝色监视器警报

我有一台虚拟机现在我想如果我的磁盘空间显示非常低我的意思是小于 2 GB 然后我想触发天蓝色监视器警报并希望收到有关此问题的电子邮件 azure Monitor 是否提供任何指标目前还没有针对磁盘空间的预定义警报但您可以使用自定义日
使用 RCTAsyncLocalStorage + getAllKeys

我正在尝试获取 iOS 本机代码上的 AsyncStorage 这是我的代码 void jsonFromLocalRNStrogeForKey NSString key completion void NSDictionary Nullab
动画 UIScrollView contentInset 导致跳转卡顿

我实现了一个自定义刷新控件我自己的类而不是子类并且由于某种原因自从迁移到 iOS 8 以来设置滚动视图特别是 UICollectionView 的 contentInset 来启动刷新动画会导致奇怪的跳跃卡顿这是我的代码 v
自动删除MySQL中过期的数据行

我已将一些奖金代码行添加到数据库中的奖金详细信息表中所有奖金代码都有有效期 php是否可以自动删除已过期的行我使用的代码是有效期是日期 query select from bonusdetails where BonusType Ma
更改 Fullcalendar 中过去事件的颜色

我正在尝试实施这个解决方案 https stackoverflow com questions 4016044 adding a class to past events using fullcalendar with google cal
Yii ClistView 分页不起作用

我的 Clistview 分页无法正常工作我尝试了所有方法但仍然没有成功这是我的模型函数 public function getallone criteria new CDbCriteria criteria gt select t
将 XML 转换为 Java 对象的最佳实践是什么？

我需要将 XML 数据转换为 Java 对象将此 XML 数据转换为对象的最佳实践是什么想法是通过 Web 服务获取数据它不使用 WSDL 仅使用 HTTP GET 查询因此我无法使用任何框架答案采用 XML 格式处理这种情况的
添加了 Lombok，但 Intellij IDEA 无法识别 getter 和 setter

我在 ubuntu 上使用 IntelliJ IDEA 我添加了龙目岛 jar进入我的项目并安装 IDEA 的 Lombok 插件我可以访问注释但是getters and setters没有生成如果我尝试访问不存在的 getter 或
如何使soapUI 附件路径相对？

我正在使用soapUI 来测试HTTP 服务器我需要发送一个多部分表单数据请求当我通过文件选择器并附加它时该请求工作正常但它将路径保存为绝对路径并且我需要保存相对于我的测试文件的路径但没有缓存在我的测试文件中我怎样才能做到这
UITableViewCell 与 UIImage，宽度未更新初始显示的单元格

我想动态调整 UITableViewCell 内 UIImage 的宽度我使用情节提要来设计 UITableViewCell 我刚刚添加了一个标签和一个图像属性得到正确更新我什至加载了将宽度放入标签以显示它是正确的值对于图像我正在
Hadoop MapReduce 与 MPI（与 Spark、Mahout 与 Mesos） - 何时使用其中之一？

我是并行计算新手刚刚开始在 Amazon AWS 上尝试 MPI 和 Hadoop MapReduce 但我对何时使用其中一种而不是另一种感到困惑例如我看到的一个常见的经验法则可以总结为大数据非迭代容错 gt MapReduce

Hadoop MapReduce 与 MPI（与 Spark、Mahout 与 Mesos） - 何时使用其中之一？

Hadoop MapReduce 与 MPI（与 Spark、Mahout 与 Mesos） - 何时使用其中之一？ 的相关文章

随机推荐

热门标签

Hadoop MapReduce 与 MPI（与 Spark、Mahout 与 Mesos） - 何时使用其中之一？的相关文章