S3和EMR数据局部性[关闭]

2024-04-10

MapReduce 和 HDFS 的数据局部性非常重要（Spark、HBase 也是如此）。我一直在研究 AWS 以及在云中部署集群时的两个选项：

EC2
EMR + S3

由于不同的原因，第二个选项似乎更有吸引力，其中最有趣的是能够分别扩展存储和处理，并在不需要时关闭处理（更正确的是，仅在需要时才打开它）。是一个解释使用 S3 优点的示例。

让我烦恼的是数据局部性的问题。如果数据存储在 S3 中，则每次运行作业时都需要将其拉取到 HDFS。我的问题是——这个问题有多大，是否仍然值得？

让我感到安慰的是，我只会在第一次提取数据，然后所有接下来的工作都会在本地得到中间结果。

我希望得到一些有这方面实际经验的人的答案。谢谢。

EMR 不会将数据从 S3 拉取到 HDFS。它在 S3 上使用自己的 HDFS 支持实现（就像您在实际的 HDFS 上操作一样）。https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-fs.html https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-fs.html

至于数据局部性，S3 是RACK_LOCAL到 EMR 火花簇。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

amazonwebservices

Hadoop

amazons3

amazonec2

amazonemr

S3和EMR数据局部性[关闭] 的相关文章

Rails 的 Puma Systemd 配置不起作用

我已经完成了一个使用 Ruby on Rails 构建的应用程序现在我想将其托管在 AWS 上的 EC2 实例上我已经为其配置了服务器并且正在使用pumaHTTP服务器作为应用服务器在生产中启动应用程序总是需要我运行RAILS EN
AWS 从实例元数据检索安全凭证

这不是问题的重复使用 API 调用获取我的 AWS 凭证 https stackoverflow com q 34810642 850848 因为我具体询问亚马逊在他们给出的示例中的含义我正在看这里 http docs aws amazo
自动递增 EC2 实例名称

我在 Stackoverflow 上看到很多问题询问是否有办法自动递增实例名称例如 foo1 foo2 fooN 我想看看是否有办法在 Powershell 中执行此操作我正在使用 AutoLaunchConfiguration AS
如何将 kubernetes LoadBalancer Ingress URL 发布到 aws Route53

今天当我通过 aws 使用 kubernetes 启动一个应用程序时它公开了一个公开可见的 LoadBalancer Ingress URL 但是要将其链接到我的域以使公众可以访问该应用程序我需要在每个设备上的浏览器中手动进入 aws
AWS Textract InvalidParameterException

我有一个 Net core 客户端应用程序根据 AWS 文档使用带有 S3 SNS 和 SQS 的 amazon Textract 检测和分析多页文档中的文本 https docs aws amazon com texttract la
AWS 卷备份为空

我是 AWS 新手我有一个在 AWS 中运行的实例现在我想将该实例卷放入新实例中该卷包含大约 8GB 的内容我按照以下帖子中的第一个答案进行操作更改 ec2 实例的密钥对 https stackoverflow com ques
如何更改 Amazon Redshift 中的默认时区？

默认情况下将时间戳列设置为 SYSDATE 将其存储为UTC 是否可以更改时区以便 SYSDATE 将日期和时间存储到不同的时区到目前为止我已经检查了SET http docs aws amazon com redshift late
使用 python boto3 管理 Route53 中具有多个 IP 的 A 记录

我的route53中有一条A记录后面有多个IP 例子 A record dummy xyz com 点IPs 1 1 1 1 2 2 2 2 和 3 3 3 3路由策略 Simple 我使用下面的代码来更新单个 IP 的记录 Change
Beanstalk 部署忽略 .ebextensions 中的 nginx 配置文件

我在单实例 Elastic Beanstalk 环境中托管 Java Web 应用程序并添加了几个 ebextension 文件这些文件在每次部署时成功为我创建配置文件然而我无法找到一种方法让 Beanstalk 在 etc ngi
在 Amazon Redshift COPY 命令中转义分隔符

我正在将数据从 Amazon S3 提取到 Amazon Redshift 中的表中该表包含多个列其中某些列数据可能包含特殊字符复制命令有一个选项称为Delimiter我们可以在将数据拉入表时指定分隔符问题有2个方面当我导出时 u
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
从 Amazon API 网关终端节点输出纯文本内容

使用 Amazon 的 API Gateway 我可以创建一个端点该端点将调用输出纯文本的 lambda 函数但是当我在端点上发出请求时输出会返回默认内容类型 application json 这将输出用引号括起来的纯文本响应我想
将 Django 部署到 AWS；傻瓜静态文件

我对这个项目的最后一步完全迷失了到目前为止我已经能够开发一个 Django 应用程序它可以在本地主机上按照我想要的方式工作我已经能够将网站部署到 AWS EC2 但我一定错过了有关提供静态文件的一些基本知识我什至还没有尝试过媒体文
使用S3上传但不允许公共访问

我的想法是创建一个 S3 存储桶以允许用户上传二进制对象下一步是确认上传然后 API 将启动文件处理为了使其更安全客户端将首先请求上传位置然后 API 会在 S3 上为此上传分配并预先创建一个一次性使用目录并在该目录上设置访问策
Amazon S3：静态网站：自定义域或子域

Amazon com 刚刚宣布可以在 S3 存储桶中托管静态网站我访问了他们的设置页面http docs amazonwebservices com AmazonS3 latest dev index html WebsiteHostin
Amazon MWAA Airflow - 任务容器在没有日志的情况下关闭/停止/终止

我们使用 Amazon MWAA Airflow 很少有任务标记为 FAILED 但根本没有日志就好像容器在我们没有注意到的情况下被关闭了一样我找到了这个链接 https cloud google com composer docs h
如何将域添加到 aws 上的现有 SSL 证书

我有一个与 Amazon Web Services 上的负载均衡器关联的 SSL 证书我想在该证书上有一个额外的域我的问题是是否可以向 aws 上现有的 ssl 证书添加额外的域我发现您可以在创建证书时添加其他名称但我不知道如何使
如何修改 Amazon RDS 实例的 my.ini 参数

在启动 MySQL 5 5 RDS 实例时 Amazon 使用默认参数组来配置 my ini 参数但控制台不允许我修改它们我怎样才能实现这个目标例如默认将存储引擎设置为MyISAM或设置字符集此处记录了这一点 http aws am
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别
MiniDFSCluster UnsatisfiedLinkError org.apache.hadoop.io.nativeio.NativeIO$Windows.access0

做时 new MiniDFSCluster Builder config build 我得到这个异常 java lang UnsatisfiedLinkError org apache hadoop io nativeio NativeIO

随机推荐

ORACLE MINUS 关键字的 ANSI SQL 标准

我有一个查询我想要与 ANSI SQL 标准兼容在这个使用 oracle 查询 MINUS key work 我想要 ANSI SQL 这是放置于 MINUS 关键字 SELECT F selected UPPER a busine
Angular-UI 路由器：嵌套视图不起作用

构建多步骤表单向导原来是在关注本教程 https scotch io tutorials angularjs multi step form using ui router 效果很好但我现在正在尝试对其进行调整以便将第一步嵌入到主页
Perl 正则表达式在相同情况下替换

如果您在 perl 中有一个简单的正则表达式替换如下所示 line s JAM AAA g 我将如何修改它以便它查看匹配并使替换与匹配的大小写相同例如 JAM 将变成 AAA jam 会变成 aaa 基于 Unicode 的解决方案
Git 子模块初始化异步

当我跑步时git submodule update init第一次在有很多子模块的项目上这通常需要很多时间因为大多数子模块都存储在缓慢的公共服务器上是否可以异步初始化子模块从 Git 2 8 开始你可以这样做 git submod
PHP/C++：将值注入 EXE 文件 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想动态地将一个值注入到 EXE 文件中我过去接触过的一家公司给了我一个 EXE 存根我可以在用户下载它之前使用 PHP 动态注入
Qt 构建可以开箱即用静态链接？

我使用 Qt 构建了一个小型应用程序事实证明我需要从头开始重新配置 Qt 以便能够静态链接我以前做过我记得那是一个非常漫长的过程那么有人知道提供开箱即用静态链接功能的 Qt SDK 安装程序吗此外马丁贝克特的回答 https
比较 data.table 的两行并仅显示有差异的列[重复]

这个问题在这里已经有答案了我得到了一个大的 data table 其中包含不同类型的列例如数字或字符例如 data table name c A A val1 c 1 2 val2 c 3 3 cat c u v name val1
在 Apache POI 3.9 中，使用 autosizeColumn 同一列上的图像会被拉伸

我在 Excel 工作表中有一张图像和图像下方的一些文本当我将 autoSizeColumn 应用于文本呈现的列时图像也会被拉伸我还将锚类型设置为 2 但这并不能保护图像调整大小我在这里发布一些示例代码 public static
Spark：JavaRDD 到 JavaPairRDD<>

我有一个JavaRDD
透明精灵表有黑色背景

我正在使用 Python 和 Pygame 开发游戏我为其中一个敌人创建了一个精灵表并使其代码正常工作问题是图像看起来有黑色背景即使它是透明图像它的代码是这样的 enemySheet pygame image load resou
使用 selenium Java (Mac OSX) 将 Firefox 浏览器置于前端

我正在使用三个火狐驱动程序实例进行自动化我需要将当前活动的火狐浏览器置于前面因为我正在使用一些机器人类进行某些操作我曾在 mac 中尝试过针对 google chrome 的 java 脚本警报相同的操作并且工作正常在 Wind
在Android 4.2 API 17上读取Sqlite Cursor carsh

我有一张桌子145行当我尝试获取所有数据时crashed on android 4 2 BUT它工作得很好android 4 4 emulator public ArrayList
为什么我不能得到与 GridSearchCV 相同的结果？

GridSearchCV只返回每个参数化的分数我还希望看到 Roc 曲线以更好地理解结果为了做到这一点我想采用性能最好的模型GridSearchCV并重现这些相同的结果但缓存概率这是我的代码 import numpy as np
超低延迟硬实时多线程 x86 代码的意外周期性行为

我正在具有 RT 优先级的专用 CPU 上循环运行代码以进行多次迭代并希望长时间观察其行为我发现代码有一个非常奇怪的周期性行为简而言之这就是代码的作用 Arraythread while 1 if flag Multiply mat
通过透明 Windows 窗体防止鼠标点击

我正在制作一个小工具用于在浮动侧边栏中切换笔按钮后用鼠标在屏幕上绘图我已经做到了这一点请不要笑方法是使用最顶层的窗口窗体及其背景因为它的透明键覆盖整个屏幕当我处于绘图模式时我需要使鼠标不会点击表单到下面的内容上我尝试按照
如何搜索一长串 JavaScript 对象以查找“sent: 0”的第一个实例

这里有一个主要的循环问题我的数据如下所示 var mailouts signUp date sent 1 lesson1 sent 1 time 20 lesson2 sent 0 time 20 lesson3 sent 0 time
Haxe - 创建 C++ 独立可执行文件

我编写了一个 haxe 程序尝试与远程服务器进行通信我能够成功编译到 C 目标该可执行文件在我的系统上运行得很好但是当我尝试在另一个 Windows 盒子上运行相同的命令时它失败并出现以下错误错误无法加载模块 std soc
是否可以重新排序或忽略控制器路由中的参数？

问题标题是我能想到的最明确的但为了清楚起见这里有一个用例示例假设我定义以下路线来显示一篇文章 Route get article slug id ArticleController show class ArticleControl
如何实现向后兼容的soap webservice（基于java）？

我们的产品之一使用合同最后方法发布网络服务这已经成为一个真正的问题因为一旦我们发布产品的新版本我们所有的客户 ws 客户都必须重建他们的客户端应用程序这是由于所有名称空间更改都是自动生成的 wsdls 的成本我们使用 Axis1
S3和EMR数据局部性[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案 MapReduce 和 HDFS 的数据局部性非常重要 Spark HBase 也是如此我一直在研究 AWS 以及在云中部署集群时的两个选项

S3和EMR数据局部性[关闭]

S3和EMR数据局部性[关闭] 的相关文章

随机推荐

热门标签