AWS EMR 具有仅用于 S3/EMRFS 处理的任务节点和 1 个核心节点

2024-01-28

鉴于 AWS 与 EMR 为您提供了优化的 Spark 体验，那么：

If I am planning to only use S3 / EMRFS for both directly reading and directly writing and not using s3DistCP,
- 为什么我需要至少 1 个核心节点？

我怀疑至少需要 1 个核心节点来解决 Spark shuffle 文件的问题，因为过去当核心节点可以通过扩展来释放时，纱线动态资源分配会丢失。

据AWS工作人员介绍：

核心节点托管 EMRFS/HDFS 守护进程。所以你至少需要1个核心节点使用 EMRFS 与 S3 进行通信。

我自己得到了这一点，但我怀疑至少还需要 1 个核心节点来解决 Spark shuffle 文件的问题 - 由于 Spark 的 Yarn 动态资源分配 - 在过去当核心节点可以通过以下方式释放时丢失缩放。核心节点在自动扩展或初始分配后无法取消分配。

也就是说，我注意到大约 2 年前，EMR Spark 的弹性已经投入了大量精力：https://aws.amazon.com/blogs/big-data/best-practices-for-running-apache-spark-applications-using-amazon-ec2-spot-instances-with-amazon-emr/ https://aws.amazon.com/blogs/big-data/best-practices-for-running-apache-spark-applications-using-amazon-ec2-spot-instances-with-amazon-emr/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

AWS EMR 具有仅用于 S3/EMRFS 处理的任务节点和 1 个核心节点的相关文章

使用 Elastic Beanstalk 进行 Logback

我在使用 Elastic Beanstalk 记录应用程序日志时遇到问题我正在 AWS Elastic Beanstalk 上的 Tomcat 8 5 with Corretto 11 running on 64bit Amazon Li
在 ec2 上托管 Rails

我想将 Rails 部署到亚马逊 ec2 上我看过 poolparty 和 ec2onrails 但似乎都不再维护了人们用什么来做到这一点都是自制的木偶和卡皮斯特拉诺还是有一个项目可以让我继续下去我可以推荐两个项目如果您有一个
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
无法使用 aws 无服务器离线从另一个 lambda 调用 lambda

我想从 serverless offline 内的另一个 lambda 调用 lambda 我想创建一个无服务器离线 Web 应用程序但我收到此错误 UnknownError 不支持的媒体类型在 Object extractError
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
如何从此 AWS SecretsManager JSON 对象中提取字段？

我正在使用 AWS Secrets Manager 来保护 REST API 的数据库信用我正在使用 AWS Lambda API 网关和 RDS MySQL 以下是我如何获得它们 Load the AWS SDK var AWS req
Arbor Js - 节点 Onclick？

我在用着arbor js http arborjs org 创建图表我如何创建一个onclick节点的事件或者在单击时在某处创建节点链接 Arborjs org 主页的节点在单击时链接到外部页面我如何复制它或者使节点在单击时调用 j
AWS RDS MySql - 如何在设置“公开可用”后允许访问

刚刚使用默认设置和用户密码创建了新的 AWS RDS MySql 实例我也将其设置为publicly available并在此过程中创建新的 VPC 目前无法从我的笔记本电脑连接到此 RDS mysql h endpoint u myu
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
更新项目时，NUMBER_VALUE 无法转换为字符串

我在 DynamoDB 上遇到了这个奇怪的问题我似乎无法更新项目这是我的命令 TableName UserTable Key UID S h4XJj3YRxZiF7TDcGkxAhc UpdateExpression SET numRa
如何使用 jq 从多个嵌套数组中提取键

SETUP 我试图弄清楚 jq 过滤器是如何工作的但在找出嵌套数组时遇到了困难使用下面的数据我无法做出平的 5 键输出我可以得到 1 个键和 4 个空值或者 4 个键和 1 个空值但不能得到所有 5 个键 1 个键 4 个空值 R
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
ElasticBeanstalk Java，Spring 活动配置文件

我正在尝试通过 AWS ElasticBeanstalk 启动 spring boot jar 一切正常配置文件为默认有谁知道如何为 java ElasticBeanstalk 应用程序不是 tomcat 设置活动配置文件 spri
从 android 简单上传到 S3

我在网上搜索了从 android 上传简单文件到 s3 的方法但找不到任何有效的方法我认为这是因为缺乏具体步骤 1 https mobile awsblog com post Tx1V588RKX5XPQB TransferManage
如何测试 jest Node JS 中 AWS 内置方法中使用的 .promise() 方法

我想对其进行完整的单元测试下面给出了我的函数的代码 function js async function sesSendEmail message var ses new aws SES apiVersion 2020 12 01 var
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa
Amazon s3 – 403 禁止使用正确的存储桶策略

我正在尝试使用以下存储桶策略使存储在 s3 存储桶中的所有图像可供公开读取 Id Policy1380877762691 Statement Sid Stmt1380877761162 Action s3 GetObject Effect

随机推荐

实体框架复杂类型与创建新实体

我正在阅读有关实体框架 4 0 的内容我想知道为什么我应该创建一个复杂类型而不是一个新的实体表以及它们之间的关系完美的例子就是地址使用复杂类型作为地址比处理新实体要容易得多对于复杂类型您不必处理主键考虑访问一个地址有多少种
仅在 Firefox 上跨源请求和混合内容

我正在开发一个需要 HTTPS 的项目因此我使用自签名证书启动 HTTPS 服务器我还有一个启用了 CORS 的 HTTP API 服务器我能够在 Chrome 上获取 API 请求这里是预检响应的标头带有 HTTP 状态代码 2
有哪些好的 Xcode 脚本可以加快开发速度？

Xcode 允许您创建自动化脚本来执行重复任务您编写了哪些脚本来加快开发速度我为我创建了三个适用于 Cocoa 和 iPhone 的 JSON Framework http code google com p json framewor
Eclipse 中的 JFace 示例类似于 SWT 示例？

是否有像 Eclipse 中的 SWT 示例那样的一体化 JFace 控件示例搜索谷歌搜索和在 stackoverflow com 上搜索对我没有帮助如果它是一个独立的应用程序或 eclipse 插件那就太好了谢谢除了SWT
如何获取数据库序列生成的新对象ID？

我有一个带有序列和触发器的表因此它在将其插入数据库时会创建新的 id 在调用 SaveChanges 之前如何获取新的对象 id 我需要这个 id 作为新对象和其他对象之间的链接我想在调用 SaveChanges 之前执行此操作因为
带有redis存储的socket.io

我正在将 socket io 与 redis 存储一起使用我从 socket io 网站获取了以下代码 var io require socket io server var redis require socket io redis i
如何删除以短信形式发送的“[附件已删除]”字符串？

我发现一个小程序可以通过 gmail 向我的手机发送短信但是当我发送短信时它会添加附件已删除有什么方法可以删除它吗 import smtplib from email mime text import MIMEText from e
如何使用 phpMyAdmin 在 MySQL 中指定小数精度和小数位数

SQL 使 MySQL 用户能够以十进制格式分配具有特定精度和小数位数的字段如下所示 CREATE TABLE test table test column DECIMAL 6 4 NOT NULL 由于字段类型只有长度值选项可用我该
MySQL Workbench EER 图 - 如何更改存储引擎？

我使用 MySQL Workbench 5 2 38 我做了一个能效比图但在导出时我对 InnoDB 作为定义的存储引擎感到惊讶之后更改表不是一个选项因为我没有 InnoDB 引擎错误 1286 42000 未知的存储引擎 Inn
如何根据请求中的 Origin 标头将 nginx Access-Control-Allow-Origin 正确设置到响应标头中？

我正在寻找一个 nginx 配置设置来设置Access Control Allow Origin到收到的值Origin 看来该方法不适用于 Chrome 并且多个 URL 不适用于 Firefox 因为 CORS 规范不允许这样做到目前
带有文本选择和按钮的引导输入组

我想使用 bootstrap css 来实现我写了一个 jsfiddle 来进行测试 http jsfiddle net xr4uofje http jsfiddle net xr4uofje div class container di
如何在 LINQ 中通过索引连接两个集合

与以下代码等效的 LINQ 是什么 string values 1 hello true Type types typeof int typeof string typeof bool object objects new object v
flutter 中的流布局示例

我想在flutter中实现流布局我在sdk中找到了一个名为FLOW的类但无法找到如何使用它的示例代码这是我想要实现的布局 Use Wrap https docs flutter io flutter widgets Wrap class
jQuery 如何表现得像对象和函数？

jQuery or 似乎是一个函数 typeof function 它的作用就像一个 div removeClass constructs a new object with some methods like removeClass 但是
如何在 Python 中通过 zeep 使用 WSDL 中的复杂类型

我有一个包含复杂类型的 WSDL 如下所示
有没有一种巧妙的方法可以使用查询语法在 LINQ 查询中执行 ToList？

考虑下面的代码 StockcheckJobs from job in from stockcheckItem in MDC StockcheckItems where distinctJobs Contains stockcheckItem
H2 数据库表上的 SQL 查询抛出 ArrayIndexOutOfBoundsException

我有一个 H2 数据库一些查询在该数据库上工作而其他查询则抛出一个ArrayIndexOutOfBoundsException 例如 SELECT COLUMN 1 FROM MY TABLE works fine SELECT COU
使用强类型 Map

我在强打字时遇到困难Map使用 TypeScript 1 8 10 的对象这是摘录自core js定义Map接口 interface Map
Delphi 2010/Delphi XE 的免费软件 ZIP 组件？

你知道有什么免费的组件与Delphi兼容吗2010 or XE管理ZIP档案实际上只需要读取档案内容并提取文件请不要使用测试版我考虑过 ComponentAce 的 ZipForge 但它仅免费供个人使用不允许分发软件您可以从
AWS EMR 具有仅用于 S3/EMRFS 处理的任务节点和 1 个核心节点

鉴于 AWS 与 EMR 为您提供了优化的 Spark 体验那么 If I am planning to only use S3 EMRFS for both directly reading and directly writing a

AWS EMR 具有仅用于 S3/EMRFS 处理的任务节点和 1 个核心节点

AWS EMR 具有仅用于 S3/EMRFS 处理的任务节点和 1 个核心节点 的相关文章

随机推荐

热门标签

AWS EMR 具有仅用于 S3/EMRFS 处理的任务节点和 1 个核心节点的相关文章