Spark - AWS EMR 集群首选哪种实例类型？ [关闭]

2024-01-28

我正在 EMR Spark 集群上运行一些机器学习算法。我很好奇使用哪种实例才能获得最佳的成本/性能增益？

对于同等价格，我可以选择：

          vCPU  ECU  Memory(GiB)
m3.xlarge  4     13     15     
c4.xlarge  4     16      7.5
r3.xlarge  4     13     30.5

EMR Spark集群应该使用哪种实例？

一般来说，这取决于您的用例、需求等……但考虑到您共享的信息，我可以建议最低配置。

您似乎正在尝试训练ALS因式分解或SVD在 2 ~ 4 GB 数据之间的矩阵上。所以实际上这并不是太多的数据。

您将需要至少 1 个主节点和 2 个节点来设置和配置小型分布式集群。主人不会做任何计算，所以它不需要太多资源，但当然我会处理任务调度等。

您可以根据需要添加从属（实例）。

1 x 主控：~~m3.xlarge~~m5.xlarge- vCPU：4，RAM：16 GB，带 EBS 存储。
2 x 奴隶：~~c3.4xlarge~~c5.xlarge- vCPU：16，RAM：32 GB，带 EBS 存储。

EDIT :正如评论中提到的，第五代实例现在适用于此线程中提到的每种实例类型：R5、M5 和 C5。一般来说，最新一代实例类型比旧实例类型更便宜且性能更高。

C3、C4 和 C5 是计算优化与 R3、R4 或 R5 相比，EC2 中具有高性能处理器和最低价格/计算性能的实例，尽管推荐的用例是分布式内存缓存和内存中分析。但 C5 将以更低的价格为您完成这项工作。

性能优化：

Amazon EMR 按小时递增收费。这意味着一旦运行集群，您就需要为整个小时付费。记住这一点很重要，因为如果您支付一小时的 Amazon EMR 集群费用，那么将数据处理时间缩短几分钟可能不值得您花费时间和精力。

不要忘记，添加更多节点来提高性能比花时间优化集群更便宜。

参考：Amazon EMR 最佳实践 - Parviz Deyhim https://d0.awsstatic.com/International/fr_FR/whitepapers/aws-amazon-emr-best-practices.pdf.pdf.

EDIT :您也可以考虑启用Ganglia http://ganglia.sourceforge.net/监控集群资源：CPU、RAM、网络 I/O。这也将帮助您调整 EMR 集群。实际上，您无需进行任何配置。只需按照文档 http://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-ganglia.html在创建时将其添加到您的 EMR 集群。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark - AWS EMR 集群首选哪种实例类型？ [关闭] 的相关文章

Spark shell (spark 3.0.0) 添加包 confluence kafka 5.5.1 javax.ws.rs-api 问题

我本地的win10 WSL回到ubuntu 在ubuntu上我安装了spark3 0 0 confluence平台5 5 1 手动下载当我尝试运行spark shell或spark submit时下面是shell示例 spark sh
无法使用 Spark 结构化流在 Parquet 文件中写入数据

我有一个 Spark 结构化流 val df spark readStream format kafka option kafka bootstrap servers localhost 9092 option startingOffset
嵌套 json 中的结构化流式传输不同模式

您好我有一个场景传入的消息是一个 Json 其标题为表名数据部分包含表列数据现在我想将其写入镶木地板到单独的文件夹 emp and dept 我可以通过根据表名聚合行来在常规流式传输中实现此目的但在结构化流媒体中我无法分割它我怎
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
当操作系统为 Windows Server 2019 时，ec2 私有子网无法到达 169.254.169.254

我有多个 ec2 实例在私有子网中运行仅允许 vpc 内的流量其中一些实例是自定义操作系统其中一些实例运行 AWS windows server 2012 ami 有些运行 AWS Windows Server 2019 ami 在所
Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
Scala Sparkcollect_list() 与 array()

有什么区别collect list and array 在 Spark 中使用 scala 我看到到处都有使用情况但我不清楚用例来确定差异尽管两者array https spark apache org docs latest api
在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
Spark 与 Webhdfs/httpfs

我想通过 httpfs 或 Webhdfs 将文件从 HDFS 读入 Spark 类似的东西 sc textFile webhdfs myhost 14000 webhdfs v1 path to file txt 或者理想情况下 sc
createOrReplaceTempView 在 Spark 中如何工作？

我是 Spark 和 Spark SQL 的新手如何createOrReplaceTempView在 Spark 工作如果我们注册一个RDD对象作为表 Spark 会将所有数据保留在内存中吗 createOrReplaceTempVie
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
AWS - 如何从 CloudWatch Alarm 重新启动或重新启动 EC2 实例？

有时我的应用程序会无缘无故地死掉我可以使用 CloudWatch 和 CPU 使用指标下降来检测到这一点此时我想重新启动java应用程序或整个EC2实例有什么建议我怎样才能实现这一目标 Thanks AWS 云观察 https aws
如何防止 SQL Server 在导入数据时去除前导零

A data file被导入到SQL Server桌子数据文件中的一列是文本数据类型该列中的值只能是整数 SQL Server 数据库中目标表中的相应列的类型为varchar 100 但在数据导入后 SQL Server 会存储以下值
为什么 Spark 退出并显示 exitCode: 16？

我将 Spark 2 0 0 与 Hadoop 2 7 一起使用并使用纱线集群模式每次我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S
如何在每行中添加行号？

假设这些是我的数据 Maps and Reduces are two phases of solving a query in HDFS Map is responsible to read data from input location
尝试使用 AWS CLI 运行 ECS 任务时出现资源：内存错误

我正在尝试使用 AWS ECS 和 docker 设置 CI 我使用 Codeship 作为 CI 工具但这并不重要我在 shell 脚本中执行以下步骤使用我的 Dockerfile 构建镜像将镜像推送到ECS存储库将task d
Spark Python：标准缩放器错误“不支持... SparseVector”

我又撞到了堵墙我是一个新手所以我不得不再次依赖你强大的知识我从一个数据集开始如下所示 user account id user lifetime user no outgoing activity in days user acco
访问 Amazon EC2 上的 Mongodb 时出现问题

我还有一个问题要问你我有安装了 mondodb 的 Amazon EC2 实例它工作得很好除了一件事我无法从外部我的电脑访问连接到它我认为安全组的问题这是某种默认防火墙有谁知道如何配置EC2实例来访问mongodb 提
Spark DataFrame 不尊重架构并将所有内容视为字符串

我面临着一个多年来一直无法克服的问题我使用的是 Spark 1 4 和 Scala 2 10 我现在无法升级大型分布式基础设施我有一个包含几百列的文件其中只有 2 列是字符串其余都是长列我想将此数据转换为标签特征数据框我已经

随机推荐

无法使用 ARIMA 预测下一个值：输入包含 NaN、无穷大或对于 dtype('float64') 来说太大的值

我有以下代码片段 import pmdarima as pmd ts 3 86 5 52 68 14 20 12 22 4 2 model pmd auto arima ts start p 1 start q 1 test adf est
DTMF Goertzel 算法不起作用

因此我正在打开我在 audacity 中生成的 DTMF 音调的 raw 文件我抓住了一个类似于维基百科文章中的罐装 goertzel 算法但它似乎无法解码正确的数字解码后的数字也会根据我传递给算法的 N 值而变化据我了解较高的
生成随机数的div

我无法让脚本创建随机数量的 div 在这个具体示例中介于 5 和 20 之间问题可能出在 for 循环中生成随机数的函数在随机颜色函数下面正常工作我猜由于某些原因它没有被识别另外我在萤火虫中没有收到任何错误 Example fun
调用 addAction 时删除通知？

我在通知中添加了两个操作按钮当我单击其中任何一个时它们会执行所需的操作但通知仍保留在我的通知抽屉中我知道单击操作按钮时可以从通知抽屉中删除通知因为这就是 Gmail 的功能如果我单击主通知它将打开应用程序并从通知抽屉中删除通知
课程。重点是什么？

我对 PHP 中的 OOP 相当陌生我编写了几个基本脚本但没有什么令人印象深刻的我真正从中得到的只是制作一组函数可能会更容易 include them 类的结构似乎只是混淆了原本简单的过程将所有内容整理到一个类中并没有真正添加任何
如何从文件中提取文本行？

我有一个充满文件的目录我需要从中提取页眉和页脚它们的长度都是可变的因此使用头部或尾部是行不通的每个文件都有一行我可以搜索但我不想在结果中包含该行通常是 Start more text here 并结束于 Finish more
elixir+hex - ranch_proxy_protocol ssl:ssl_accept 3 已弃用，出现十六进制错误

enter code here我正在以下命令运行 mix ecto create mix ecto migrate 这给出了一个错误 gt Compiling ranch proxy protocol gt Compiling src ra
javax.ws.rs.ProcessingException，在 Payara Server 5 中找不到内容类型 application/json 类型的 writer

first Sorry for my bulky source code and simple question 我收到这个错误 javax ws rs ProcessingException RESTEASY003215 找不到内容类型应
Mockito 测试 void 方法抛出异常

我有一个方法void返回类型它还可能引发许多异常因此我想测试引发的这些异常所有尝试都失败了原因相同 Stubber 类型中的方法 when T 不适用于参数 void 有什么想法如何让方法抛出指定的异常吗 doThrow new E
使用 Boto3 列出所有“活动”EMR 集群

我正在尝试使用 boto3 列出 EMR 上的所有活动集群但我的代码似乎不起作用它只是返回 null 我正在尝试使用 boto3 来做到这一点 1 列出所有活动的EMR集群 aws emr list clusters active 2
谷歌翻译 API 之间的区别

我正在构建一个基于 Google 翻译的开源 Chrome 扩展 here https github com MagTun Customizable Google Translate Chrome extension blob master
在 Python 中将 SQL 与 IBM_DB 连接器结合使用

有没有人用过ibm db使用 IBM 的 Python for PASE 打包来更新 IBM i 以前称为 AS 400 上的 Db2 文件我想使用 Python 脚本来自 QSH 来更新 Db2 数据库我的目的是在运行时填充值并更新
现在必须显式声明注释处理器

Error Execution failed for task laMusique2May2016 javaPreCompileRelease gt Annotation processors must be explicitly decl
如何使用 Mandrill 模板从 MERGE VARS 中传递的数组中渲染列表

我必须用merge vars key some key template name order confirmation template content name ORDERNUMBER content 12312312321 name
Aurelia 的财产变更订阅

我的视图模型上有一个属性我想根据其值监听并触发事件如下所示 class viewModel constructor this value 0 let val 2 subscribe this value callbackForValue
如何像 input[i][j].getText() 一样 getText(); （对于 Netbeans 中的数独求解器）

我想输入文字int由 81 个文本字段组成的表单这些文本字段排列在一个9 X 9网格但不想单独进行我尝试将其放入循环中但问题是文本字段名称必须显示在a i j form for i 0 i lt 9 i for j 0 j lt 9
Android 3.x 及更低版本的标头中缺少连接：Keep-Alive； Fiddler 报告请求缺少所需的主机标头

平台 Windows Server 2008 R2 标准版网络服务器 Apache Tomcat 7 0 我全新安装了 Tomcat 7 0 除了添加我自己的 Web 应用程序包含一些 JSP 页面并启用 SSL 之外没有任何更改
Android Recyclerview中notifyitemmoved()后OnBindViewHolder不适用

上面的代码是RecyclerViewAdapter 只有当它是第一项时才改变颜色如下所示 class TestAdapter RecyclerView Adapter
从 Tensorflow 中的文件队列访问文件名

我有一个图像目录以及一个将图像文件名与标签相匹配的单独文件因此图像目录包含 train 001 jpg 等文件标签文件如下所示 train 001 jpg 1 train 002 jpg 2 通过根据文件名创建文件队列我可以轻松地
Spark - AWS EMR 集群首选哪种实例类型？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在 EMR Spark 集群上运行一些机器学习算法我很好奇使用哪种实例才能获得最佳的成本性能增

Spark - AWS EMR 集群首选哪种实例类型？ [关闭]

Spark - AWS EMR 集群首选哪种实例类型？ [关闭] 的相关文章

随机推荐

热门标签