启动集群时在 EMR 上配置 Zeppelin 的 Spark 解释器

2024-02-12

我正在 EMR 上创建集群并配置 Zeppelin 以从 S3 读取笔记本。为此，我使用一个 json 对象，如下所示：

[
  {
    "Classification": "zeppelin-env",
    "Properties": {

    },
    "Configurations": [
      {
        "Classification": "export",
        "Properties": {
        "ZEPPELIN_NOTEBOOK_STORAGE":"org.apache.zeppelin.notebook.repo.S3NotebookRepo",
          "ZEPPELIN_NOTEBOOK_S3_BUCKET":"hs-zeppelin-notebooks",
          "ZEPPELIN_NOTEBOOK_USER":"user"
        },
        "Configurations": [

        ]
      }
    ]
  }
]

I am pasting this object in the Stoftware configuration page of EMR: My question is, how/where I can configure the Spark interpreter directly without the need to manually configure it from Zeppelin each time I start a cluster?

这有点复杂，您需要做两件事：

编辑Zeppelin的interpreter.json
重新启动解释器

因此，您需要做的是编写一个 shell 脚本，然后向运行此 shell 脚本的 EMR 集群配置添加一个额外的步骤。

Zeppelin的配置是json格式的，你可以使用jq（一个工具）来操作json。我不知道你到底想改变什么，但这里有一个添加（神秘失踪）DepInterpreter 的示例：

#!/bin/bash

# 1 edit the Spark interpreter
set -e
cat /etc/zeppelin/conf/interpreter.json | jq '.interpreterSettings."2ANGGHHMQ".interpreterGroup |= .+ [{"class":"org.apache.zeppelin.spark.DepInterpreter", "name":"dep"}]' | sudo -u zeppelin tee /etc/zeppelin/conf/interpreter.json


# Trigger restart of Spark interpreter
curl -X PUT http://localhost:8890/api/interpreter/setting/restart/2ANGGHHMQ

将此 shell 脚本放入 s3 存储桶中。然后启动您的 EMR 集群

--steps Type=CUSTOM_JAR,Name=CustomJAR,ActionOnFailure=CONTINUE,Jar=s3://eu-west-1.elasticmapreduce/libs/script-runner/script-runner.jar,Args=[s3://mybucket/script.sh]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

EMR

amazonemr

apachezeppelin

启动集群时在 EMR 上配置 Zeppelin 的 Spark 解释器的相关文章

Spark Shuffle 写入超慢

为什么对于 1 6MB shuffle 写入和 2 4MB 输入 spark shuffle 阶段如此缓慢为什么 shuffle 写入仅发生在一个执行器上我正在运行一个 3 节点集群每个集群有 8 个核心火花用户界面 Code Ja
为什么流式数据集会失败并显示“当流式数据帧/数据集上存在流式聚合时不支持完整输出模式...”？

我使用 Spark 2 2 0 在 Windows 上使用 Spark 结构化流时出现以下错误有时不支持完整输出模式streaming aggregations on streaming DataFrames DataSets没有wate
通过spark-shell以静默模式执行scala脚本

需要通过spark shell以静默模式执行scala脚本当我使用时spark shell i file scala 执行后我进入scala交互模式我不想进入那里我尝试执行spark shell i file scala 但我不知道
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
在S3中捕获Kubernetes Spark驱动程序和执行程序日志并在历史服务器中查看

我正在 Kubernetes 上使用 Spark submit cli 运行 Spark 3 0 0 和 Hadoop 2 7 如下所示 spark submit master k8s https api k8s my domain com
使用 Spark sql DataFrame 删除功能

我需要为我的 Spark 应用程序从 postgres 数据库加载删除特定记录为了加载我使用以下格式的 Spark 数据框 sqlContext read format jdbc options Map url gt postgres
如何找到 JAR：/home/hadoop/contrib/streaming/hadoop-streaming.jar

我正在练习有关 Amazon EMR 的复数视角视频教程我被困住了因为我收到此错误而无法继续 Not a valid JAR home hadoop contrib streaming hadoop streaming jar 请注意
Spark 中的 RDD 和 Dataframe 有什么区别？ [复制]

这个问题在这里已经有答案了嗨我对 apache Spark 比较陌生我想了解 RDD 数据帧和数据集之间的区别例如我正在从 s3 存储桶中提取数据 df spark read parquet s3 output unattribu
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
Spark如何选择节点来运行执行器？（spark on YARN）

Spark如何选择节点来运行执行器 spark on YARN 我们使用 Spark on Yarn 模式集群有 120 个节点昨天一个 Spark 作业创建了 200 个执行程序而节点 1 上有 11 个执行程序 Node2上有1
Spark-shell 使用不同版本的 Scala。使用 homebrew 安装 scala 和 apache-spark

我使用 homebrew 安装了 scala 和 apache spark 它安装了 scala 2 12 4 和 apache spark 2 2 0 但是如果您结帐spark shell version它使用不同的 scala 版本
如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
带可变参数的 Spark UDF

如文档中所示列出最多 22 个参数是唯一的选择吗 https spark apache org docs 1 5 0 api scala index html org apache spark sql UDFRegistration ht
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结

随机推荐

通用枚举到可迭代转换器[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案 HttpServletRequest 使用了大量 java util Enumeration 我想在
com.eed3si9n#sbt- assembly 的库依赖项；0.13.0：未找到

我正在构建一个 sbt 插件并希望在 sbt assemble 插件中引用程序集任务取决于我的任务为此我需要将其作为库引用而不是插件但不知何故 sbt 无法将其解析为库依赖关系这就是我的 sbt 的样子 sbtPlugin t
如何使用CMake检测目标架构？

我已经做了很多研究但无法找到答案我如何使用 CMake 可靠地找到我正在编译的目标架构基本上相当于qmake中的QMAKE TARGET arch 大多数来源似乎建议使用 CMAKE SYSTEM PROCESSOR 但这是一个糟糕的
如何在 Android 中实现 Webhook？

例如我想要一个网址www example com status在我的 Android 应用程序中我将观察该应用程序并将从服务器接收多个 POST 请求对于每个 POST 请求我都会触发一个功能我不明白如何在 URL 上实现 24x7
使用照片框架删除相机胶卷资源

我正在编写一个测试应用程序看看是否可以使用照片框架删除 iOS 8 中的照片库资源尽管我怀疑这是不可能的但我发现文档不清楚并且该网站上的帖子似乎表明这是可能的看here https stackoverflow com ques
如何解决ssh：/usr/lib64/libcrypto.so.10：没有可用的版本信息[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在尝试执行 ssh 并收到以下消息 ssh ssh usr lib64 libcrypto so 10 no version info
如何在具有源图像的 Flutter 中覆盖资源图像？

我对 Dart 和 Flutter 相当陌生并且在从源图像覆盖现有资产图像时遇到困难我的尝试 try File localFile File assets images myImage png localFile writeAsByte
如何通过 Composer 为 PHP CLI 提供脚本（作为独立的和作为依赖项）

我正在尝试编写一个我想从命令行运行的 PHP 脚本我想使用 Composer 来管理其依赖项并使其可以作为其他项目的依赖项进行安装我还想保持单独使用它及其依赖项的能力现在 main php是我的入口点我将从命令行执行的内容
Flutter Widgets 排列和事件

我正在尝试在 Flutter 中构建一个表单请看一下我到目前为止制作的屏幕图像我对这个页面有几个问题我怎样才能对齐DropDown按钮项目和任务以便它们将以相同的宽度拉伸并且它们的图标将位于相同的位置另外我怎样才能用某种边框装
将 Solr HDFS 数据复制到另一个集群

我有一个 solr 云 v 4 10 安装位于 Cloudera CDH 5 4 2 HDFS 之上有 3 个 solr 实例每个实例托管每个核心的一个分片我正在寻找一种将 solr 数据从生产集群增量复制到开发集群的方法有 3
php DOMDocument 添加带有 DOCTYPE 声明的标头

我通过 DOMDocument 类向每个链接添加 b 哈希 dom new DOMDocument dom gt loadHTML output a tags dom gt getElementsByTagName a foreach a
PDF 到 bmp 图像（12 页 = 12 张图像）

我必须逐页解构提取 pdf 为位图图像这将通过我设置的网络服务在服务器上完成我怎样才能做到这一点它必须一页一页地显示每张图像一页我真的很困惑我知道你们中的一位天才已经找到了我一直在寻找的答案我努力了 http www pdf
IntelliJ IDEA：“无法解析 String、System 和其他 Java 类的符号”

我最近将 IntelliJ IDEA 下载到另一台计算机上在一台计算机上它工作正常在另一台计算机上它给了我这个当前问题当我使用模板打开一个新项目时它会自动在各处显示错误即使它允许代码运行并正确显示输出标准 Java 库类例如S
机械化如何获取当前 url

我有这个代码 require mechanize agent Mechanize new page agent get http something com page 1 next page page link with href gt p
Docker Tomcat容器无法访问Postgres容器

我有一个带有 postgres 的 alpine docker 带有监听地址并监听 5432 我正在使用它进行部署 docker run d name postgres me postgres v1 以及带有 oracle jre8 的
Sequelize 在查询中返回连接表

我的 MSQL 表中这两个模型之间存在多对多关系场所代表可以有多个所有者员工的场所员工代表员工可以是首席执行官或销售员工或任何其他人员我在用续集 questions tagged sequelize像这样建立关系关系员工
sed 命令中的破折号 e(-e) 是什么意思？

我是 sed 的新手总是在输入文件上执行一个命令最近我尝试使用 e 要处理多个命令但我无法弄清楚它是如何工作的默认打印非常烦人所以我无法弄清楚命令的执行顺序 sed e command 1 e command 2 input tx
原子整数incrementAndGet()线程安全吗？

原子整数incrementAndGet 方法线程安全吗我没有看到其中使用同步关键字我使用以下代码来生成唯一 ID public enum UniqueIdGenerator INSTANCE private AtomicLong ins
python：读取json并循环字典

我正在学习 python 我像这样循环将 json 转换为字典它可以工作但这是正确的方法吗谢谢 import json output file open output json read output json json loads
启动集群时在 EMR 上配置 Zeppelin 的 Spark 解释器

我正在 EMR 上创建集群并配置 Zeppelin 以从 S3 读取笔记本为此我使用一个 json 对象如下所示 Classification zeppelin env Properties Configurations Classi

启动集群时在 EMR 上配置 Zeppelin 的 Spark 解释器

启动集群时在 EMR 上配置 Zeppelin 的 Spark 解释器 的相关文章

随机推荐

热门标签

启动集群时在 EMR 上配置 Zeppelin 的 Spark 解释器的相关文章