如何从本地运行的 Spark Shell 连接到 Spark EMR

2024-02-05

我已经创建了一个 Spark EMR 集群。我想在本地主机或 EMR 集群上执行作业。

假设我在本地计算机上运行 Spark-shell,如何告诉它连接到 Spark EMR 集群,确切的配置选项和/或要运行的命令是什么。


看起来其他人在这方面也失败了,最终在 EMR 上运行 Spark 驱动程序,但随后利用了例如在 EMR 上运行的 Zeppelin 或 Jupyter。

将我们自己的机器设置为连接到 EMR 核心节点的 Spark 驱动程序是理想的选择。不幸的是,这是不可能做到的,我们在尝试了多次配置更改后放弃了。驱动程序会启动,然后继续等待,尝试连接到从站,但未成功。

我们的大部分 Spark 开发都是在 pyspark 上进行的,使用 Jupyter Notebook 作为我们的 IDE。由于我们必须从主节点运行 Jupyter,因此如果集群出现故障,我们不能冒失去工作的风险。因此,我们创建了一个 EBS 卷并将其附加到主节点,并将所有工作都放在该卷上。 [...]

source https://www.trulia.com/blog/tech/aws-emr-ad-hoc-spark-development-environment/

注意:如果您沿着这条路线走下去,我会考虑使用 S3 来存储笔记本,那么您就不必管理 EBS 卷。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何从本地运行的 Spark Shell 连接到 Spark EMR 的相关文章

随机推荐

  • 对图像进行积分的有效方法

    我有一个 2D 数组 典型大小约为 400x100 如图所示 它看起来像一个梯形 因为右下角的元素是 nan 对于数组中的每个元素 我想对多个元素 大约 10 个元素 沿列执行数值积分 在物理语言中 将颜色视为力的大小 我想找到通过计算 F
  • Material Design lite sidenav onhide 仅显示图标

    我正在尝试制作一个侧导航 当切换时 它不会完全隐藏侧导航 并会显示代表每个选项卡的图标 我的代码在这里 header mdl layout drawer border right 0 header mdl layout drawer mdl
  • 脚本通过 CentOS 安装 mysql-server,无需密码提示

    我的操作系统是 CentOS 6 6 我想知道如何通过 shell 脚本自动安装 mysql server 我发现有一个主题讨论了同样的问题 但在 CentOS 6 上失败了 ubuntu安装mysql无密码提示 https stackov
  • 长时间运行任务的视觉反馈

    我有一个长时间运行的 for each 循环 并且想知道是否有一种惯用的方法来添加一些视觉用户反馈 以便用户不会认为应用程序崩溃了 private void btnRunLongRunningTask Click object sender
  • Hazelcast Jet 查询

    我对 Hazelcast Jet 有以下疑问 用例如下 有一个应用程序 应用程序 A 部署在集群中 使用 Hazelcast IMDG 并将数百万条记录 事务放入 hazelcast IMap 中 已为此 IMap 配置事件日志 还有另一个
  • 如何获取 SwiftUI 中 TextEditor 的光标位置?

    因此 在我的文本编辑器中 我想知道光标的几何位置 我还计划在该位置之后附加一些文本 那么我该怎么做呢 好吧 所以我想出了一个方法来做到这一点 首先 我创建了一个struct存储光标位置 import foundation struct Cu
  • Docker - Node.js + MongoDB - “错误:无法连接到 [localhost:27017]”

    我正在尝试为我的容器创建一个容器Node应用程序 这个应用程序使用MongoDB以确保一些数据的持久性 所以我创建了这个Dockerfile FROM ubuntu latest Installing MongoDB Add 10gen o
  • 如何在第三方库中的Eclipse中设置断点?

    我在第三方库的类中收到 NullPointerException 现在我想调试整个事情 我需要知道该类是从哪个对象中保存的 但在我看来 我无法在第三方的班级中设置断点 有谁知道摆脱我的麻烦的方法吗 当然 我使用 Eclipse 作为我的 I
  • C# Networkstream.read()

    read buffer offset length 实际上是如何工作的 如果我将读取的长度传递为 32 这是否意味着它会一直阻塞 直到收到 32 个字节 我知道如果出现套接字异常或连接关闭 它将分别返回异常或 0 如果发送方只发送 31 个
  • 如何使用 Rspec 测试 google Analytics (garb) API?

    我正在使用garb gem https github com vigetlabs garb从 Google Analytics 中获取一些基本统计数据 例如页面浏览量 一切正常 但我无法找出测试 API 调用的最佳方法 这是我的 Analy
  • 如何计算提交、树和 blob 的哈希值?

    我对如何计算提交 树和 blob 的 SHA 1 哈希值感到困惑 按照本文 https gist github com masak 2415865 提交哈希值是根据以下因素计算的 提交的源树 分解为所有子树和 blob 父提交 sha1 作
  • 存储及其锁定文件已被另一个进程锁定:/var/lib/neo4j/data/databases/graph.db/store_lock

    我做了什么 neo4j console 工作正常 ctrl C 重新启动后我收到上面的消息 我删除 var lib neo4j data databases graph db store lock 那么我有 Externally locke
  • 如何在where条件下使用case语句?

    我需要在 WHERE 子句中使用 CASE 语句 例如 WHERE p resource qry seq b resource qry seq AND p resource id b resource id AND CASE WHEN b
  • 在服务器端 Blazor 中使用 SignInManager

    是否可以使用SignInManager没有一些HTTPContext 我正在制作 Blazor 服务器端应用程序 我需要让最终用户使用以下方式登录PasswordSignInAsync 的方法SignInManager 如果有其他方法可以用
  • 使用特定顺序序列化映射

    我有一个使用字符串作为键和值的地图 我有一个键数组 用于指定映射值的顺序 我想将该映射序列化为 JSON 但保持数组上定义的顺序 这里有一个示例代码 http play golang org p A52GTDY6Wx http play g
  • MSBuild 未从导入的项目运行 BuildDependsOn 任务

    我有一个导入的 MSBuild 项目 appconfig transformation targets 它定义了一些任务并将它们放入 BuildDependsOn 属性中 我已将此文件放置在解决方案的顶级文件夹中 Projects Libr
  • 单击不同的按钮将不同的 HTML 加载到相同的 #Content DIV 中

    我有一个包含多个选项的菜单 我想知道如何将不同的 HTML 加载到相同的菜单中div 称为 content 取决于您按下的菜单按钮 我有这个菜单代码 div ul li a href Accueil a li li a href Qui s
  • 使用 t-sne 可视化从 gensim 生成的 word2vec

    我使用 gensim 在我自己的语料库上训练了 doc2vec 和相应的 word2vec 我想使用 t sne 和单词来可视化 word2vec 如图所示 图中的每个点也带有 单词 我在这里看了一个类似的问题 word2vec 上的 t
  • Windows 7 中将包含哪个 .NET 框架版本? [关闭]

    这个问题不太可能对任何未来的访客有帮助 它只与一个较小的地理区域 一个特定的时间点或一个非常狭窄的情况相关 通常不适用于全世界的互联网受众 为了帮助使这个问题更广泛地适用 访问帮助中心 help reopen questions 有谁知道微
  • 如何从本地运行的 Spark Shell 连接到 Spark EMR

    我已经创建了一个 Spark EMR 集群 我想在本地主机或 EMR 集群上执行作业 假设我在本地计算机上运行 Spark shell 如何告诉它连接到 Spark EMR 集群 确切的配置选项和 或要运行的命令是什么 看起来其他人在这方面