如何从本地运行的 Spark Shell 连接到 Spark EMR

2024-02-05

我已经创建了一个 Spark EMR 集群。我想在本地主机或 EMR 集群上执行作业。

假设我在本地计算机上运行 Spark-shell，如何告诉它连接到 Spark EMR 集群，确切的配置选项和/或要运行的命令是什么。

看起来其他人在这方面也失败了，最终在 EMR 上运行 Spark 驱动程序，但随后利用了例如在 EMR 上运行的 Zeppelin 或 Jupyter。

将我们自己的机器设置为连接到 EMR 核心节点的 Spark 驱动程序是理想的选择。不幸的是，这是不可能做到的，我们在尝试了多次配置更改后放弃了。驱动程序会启动，然后继续等待，尝试连接到从站，但未成功。

我们的大部分 Spark 开发都是在 pyspark 上进行的，使用 Jupyter Notebook 作为我们的 IDE。由于我们必须从主节点运行 Jupyter，因此如果集群出现故障，我们不能冒失去工作的风险。因此，我们创建了一个 EBS 卷并将其附加到主节点，并将所有工作都放在该卷上。 [...]

source https://www.trulia.com/blog/tech/aws-emr-ad-hoc-spark-development-environment/

注意：如果您沿着这条路线走下去，我会考虑使用 S3 来存储笔记本，那么您就不必管理 EBS 卷。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

如何从本地运行的 Spark Shell 连接到 Spark EMR 的相关文章

通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
使用 mapWithState Spark Streaming 过滤部分重复项

我们有一个DStream 比如 val ssc new StreamingContext sc Seconds 1 val kS KafkaUtils createDirectStream String TMapRecord ssc Pre
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
如何获取使用 concat_ws 生成的结果的大小？

我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat ws 我怎样才能获得该列表中的值的计数这是我的代码 Dataset
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
如何访问 Spark Streaming 应用程序的统计端点？

从 Spark 2 2 0 开始 API 中有新的端点用于获取有关流作业的信息我在 EMR 集群上运行 Spark 在集群模式下使用 Spark 2 2 0 当我到达流作业的端点时它给我的只是错误消息没有附加到的流侦听器我已经深入研

随机推荐

对图像进行积分的有效方法

我有一个 2D 数组典型大小约为 400x100 如图所示它看起来像一个梯形因为右下角的元素是 nan 对于数组中的每个元素我想对多个元素大约 10 个元素沿列执行数值积分在物理语言中将颜色视为力的大小我想找到通过计算 F
Material Design lite sidenav onhide 仅显示图标

我正在尝试制作一个侧导航当切换时它不会完全隐藏侧导航并会显示代表每个选项卡的图标我的代码在这里 header mdl layout drawer border right 0 header mdl layout drawer mdl
脚本通过 CentOS 安装 mysql-server，无需密码提示

我的操作系统是 CentOS 6 6 我想知道如何通过 shell 脚本自动安装 mysql server 我发现有一个主题讨论了同样的问题但在 CentOS 6 上失败了 ubuntu安装mysql无密码提示 https stackov
长时间运行任务的视觉反馈

我有一个长时间运行的 for each 循环并且想知道是否有一种惯用的方法来添加一些视觉用户反馈以便用户不会认为应用程序崩溃了 private void btnRunLongRunningTask Click object sender
Hazelcast Jet 查询

我对 Hazelcast Jet 有以下疑问用例如下有一个应用程序应用程序 A 部署在集群中使用 Hazelcast IMDG 并将数百万条记录事务放入 hazelcast IMap 中已为此 IMap 配置事件日志还有另一个
如何获取 SwiftUI 中 TextEditor 的光标位置？

因此在我的文本编辑器中我想知道光标的几何位置我还计划在该位置之后附加一些文本那么我该怎么做呢好吧所以我想出了一个方法来做到这一点首先我创建了一个struct存储光标位置 import foundation struct Cu
Docker - Node.js + MongoDB - “错误：无法连接到 [localhost:27017]”

我正在尝试为我的容器创建一个容器Node应用程序这个应用程序使用MongoDB以确保一些数据的持久性所以我创建了这个Dockerfile FROM ubuntu latest Installing MongoDB Add 10gen o
如何在第三方库中的Eclipse中设置断点？

我在第三方库的类中收到 NullPointerException 现在我想调试整个事情我需要知道该类是从哪个对象中保存的但在我看来我无法在第三方的班级中设置断点有谁知道摆脱我的麻烦的方法吗当然我使用 Eclipse 作为我的 I
C# Networkstream.read()

read buffer offset length 实际上是如何工作的如果我将读取的长度传递为 32 这是否意味着它会一直阻塞直到收到 32 个字节我知道如果出现套接字异常或连接关闭它将分别返回异常或 0 如果发送方只发送 31 个
如何使用 Rspec 测试 google Analytics (garb) API？

我正在使用garb gem https github com vigetlabs garb从 Google Analytics 中获取一些基本统计数据例如页面浏览量一切正常但我无法找出测试 API 调用的最佳方法这是我的 Analy
如何计算提交、树和 blob 的哈希值？

我对如何计算提交树和 blob 的 SHA 1 哈希值感到困惑按照本文 https gist github com masak 2415865 提交哈希值是根据以下因素计算的提交的源树分解为所有子树和 blob 父提交 sha1 作
存储及其锁定文件已被另一个进程锁定：/var/lib/neo4j/data/databases/graph.db/store_lock

我做了什么 neo4j console 工作正常 ctrl C 重新启动后我收到上面的消息我删除 var lib neo4j data databases graph db store lock 那么我有 Externally locke
如何在where条件下使用case语句？

我需要在 WHERE 子句中使用 CASE 语句例如 WHERE p resource qry seq b resource qry seq AND p resource id b resource id AND CASE WHEN b
在服务器端 Blazor 中使用 SignInManager

是否可以使用SignInManager没有一些HTTPContext 我正在制作 Blazor 服务器端应用程序我需要让最终用户使用以下方式登录PasswordSignInAsync 的方法SignInManager 如果有其他方法可以用
使用特定顺序序列化映射

我有一个使用字符串作为键和值的地图我有一个键数组用于指定映射值的顺序我想将该映射序列化为 JSON 但保持数组上定义的顺序这里有一个示例代码 http play golang org p A52GTDY6Wx http play g
MSBuild 未从导入的项目运行 BuildDependsOn 任务

我有一个导入的 MSBuild 项目 appconfig transformation targets 它定义了一些任务并将它们放入 BuildDependsOn 属性中我已将此文件放置在解决方案的顶级文件夹中 Projects Libr
单击不同的按钮将不同的 HTML 加载到相同的 #Content DIV 中

我有一个包含多个选项的菜单我想知道如何将不同的 HTML 加载到相同的菜单中div 称为 content 取决于您按下的菜单按钮我有这个菜单代码 div ul li a href Accueil a li li a href Qui s
使用 t-sne 可视化从 gensim 生成的 word2vec

我使用 gensim 在我自己的语料库上训练了 doc2vec 和相应的 word2vec 我想使用 t sne 和单词来可视化 word2vec 如图所示图中的每个点也带有单词我在这里看了一个类似的问题 word2vec 上的 t
Windows 7 中将包含哪个 .NET 框架版本？ [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 有谁知道微
如何从本地运行的 Spark Shell 连接到 Spark EMR

我已经创建了一个 Spark EMR 集群我想在本地主机或 EMR 集群上执行作业假设我在本地计算机上运行 Spark shell 如何告诉它连接到 Spark EMR 集群确切的配置选项和或要运行的命令是什么看起来其他人在这方面

如何从本地运行的 Spark Shell 连接到 Spark EMR

如何从本地运行的 Spark Shell 连接到 Spark EMR 的相关文章

随机推荐

热门标签