如何从 Databricks Notebook 中调用 Cluster API 并启动集群？

2024-04-30

目前，我们正在使用一堆笔记本来处理 azure databricks 中的数据，主要使用 python/pyspark。

我们想要实现的是确保我们的集群在开始数据处理之前启动（预热）。因此，我们正在探索从 databricks 笔记本内访问 Cluster API 的方法。

到目前为止，我们尝试运行以下命令：

import subprocess
cluster_id = "XXXX-XXXXXX-XXXXXXX"
subprocess.run(
    [f'databricks clusters start --cluster-id "{cluster_id}"'], shell=True
)

然而，它返回到下面，之后什么也没有发生。集群未启动。

CompletedProcess(args=['databricks clusters start --cluster-id "0824-153237-ovals313"'], returncode=127)

是否有任何方便且智能的方法可以从databricks笔记本中调用ClusterAPI或者调用curl命令，这是如何实现的？

该错误很可能来自错误配置的凭据。

最好使用集群REST API的启动命令 https://docs.databricks.com/dev-tools/api/latest/clusters.html#start。这可以通过这样的事情来完成：

import requests
ctx = dbutils.notebook.entry_point.getDbutils().notebook().getContext()
host_name = ctx.tags().get("browserHostName").get()
host_token = "your_PAT_token"
cluster_id = "some_id" # put your cluster ID here

requests.post(
    f'https://{host_name}/api/2.0/clusters/get',
    json = {'cluster_id': cluster_id},
    headers={'Authorization': f'Bearer {host_token}'}
  )

然后您可以使用 Get 端点监视状态，直到它进入RUNNING state:

response = requests.get(
    f'https://{host_name}/api/2.0/clusters/get?cluster_id={cluster_id}',
    headers={'Authorization': f'Bearer {host_token}'}
  ).json()
status = response['state']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

Databricks

azuredatabricks

如何从 Databricks Notebook 中调用 Cluster API 并启动集群？的相关文章

纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
将嵌套字典键值转换为 pyspark 数据帧

我有一个 Pyspark 数据框如下所示我想提取 dic 列中的那些嵌套字典并将它们转换为 PySpark 数据帧像这样请让我知道如何实现这一目标 Thanks from pyspark sql import functions a
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
使用已知模式保存空 DataFrame (Spark 2.2.1)

是否可以使用已知模式保存一个空的 DataFrame 以便将该模式写入文件即使它有 0 条记录 def example spark SparkSession path String schema StructType val datafr
如何将 Spark DataFrame 以 csv 格式保存在磁盘上？

例如这样的结果 df filter project en select title count groupBy title sum 将返回一个数组如何将 Spark DataFrame 作为 csv 文件保存在磁盘上 Apache Sp
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
使用spark-sql从oracle加载数据时如何增加默认精度和小数位数

尝试从 oracle 表加载数据其中我有几列保存浮点值有时它最多保存 DecimalType 40 20 即点后 20 位数字目前当我使用加载其列时 var local ora df DataFrameReader ora df l
为什么 Spark-ml ALS 模型返回 NaN 和负数预测？

实际上我正在尝试使用ALS from spark ml具有隐性评级我注意到我训练的模型给出的一些预测是negative or NaN 为什么 Apache Spark 提供了一个强制选项非负约束关于肌萎缩侧索硬化症因此要删除这些负值
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
collect_list() 是否保持行的相对顺序？

想象一下我有以下 DataFrame df id featureName featureValue id1 a 3 id1 b 4 id2 a 2 id2 c 5 id3 d 9 想象一下我运行 df groupBy id agg coll
使用什么工具来可视化逻辑和物理查询计划？

我很熟悉explain 还有 WebUI 我很好奇是否有任何工具可以生成优化前后逻辑物理计划的树结构图像也就是返回的信息explain 作为图像 PNG 或 JPG 之类的图片我自己从未听说过但您可以使用 Web UI 查看物理计划
四舍五入数据框中的所有列 - 两位小数 pyspark

我使用此命令将数据框中的所有列四舍五入到小数点后两位 data data withColumn columnName1 func round data columnName1 2 我不知道如何通过一个命令对所有数据框进行四舍五入不是每一列
向数据框添加新列的问题 - Spark/scala

我是 Spark scala 的新手我正在尝试将一些数据从配置单元表读取到 Spark 数据帧然后根据某些条件添加一列这是我的代码 val DF hiveContext sql select from select from test

随机推荐

glassfish 配置、服务器、实例和集群之间有什么区别？

以下是 glassfish 3 1 2 2 管理指南中的一段您可以使用rotate log子命令手动轮换日志文件在远程模式下该子命令的默认目标是 DAS 或者您可以定位配置服务器实例或簇您可以使用rotate log手动旋转
Firefox 无法识别字体

我正在设计样式pre通过 CSS 的 HTML 元素如下所示 pre font family Franklin Gothic Medium Arial Narrow Bold Arial sans serif 它可以在 Chrome Chr
for 循环遍历单词

我之前的帖子引起了很多混乱其中充斥着与我的问题无关的答案我的错是没有澄清事情我标记了该帖子这是新帖子所以基本上我想做一个单词的连接 EG1 input jason sonny nyorth output jason sonny n
scala 数值求和列表

我想要一个通用函数来对列表中的值求和以下代码无法编译 def sum T Numeric x List T T if x isEmpty 0 else x head sum x tail 编译错误是 error type mismatch
Android 列表视图在滚动时会在文本上产生黑色突出显示。如何阻止这个？

Duplicate 背景ListView滚动时变黑 https stackoverflow com questions 2833057 background listview becomes black when scrolling lq
C++：映射，键的前一项

我有这张地图 map
删除数组中的第 m 个元素

给定一个大小为 n 的数组我需要编写一个函数删除数组中的每个 m 个元素直到数组中仅存在一个元素并返回该值有人可以给我提示吗听起来你正试图解决这个问题约瑟夫问题 http en wikipedia org wiki Josephu
在 Tensorflow 中运行 CNN 时训练和测试的奇怪值

我一直在尝试使用自己的数据来训练和评估卷积神经网络其中包含 200 个训练图像和 20 个测试图像我的完整脚本在这里在 Tensorflow 中使用我自己的数据运行卷积网络时出错 https stackoverflow com que
jqgrid在从服务器端重新加载数据期间无法加载特定页面

我正在使用 jqgrid 3 8 2 我正在尝试使用下面的代码从服务器端重新加载数据并显示特定页面例如当前页面 mygrid setGridParam datatype json trigger reloadGrid page 5 网格可
Cordova/Phonegap：在后台线程中运行 FileTransfer 插件

我看到一个老问题没有解决在后台线程中运行 PhoneGap FileTransfer https stackoverflow com questions 20355810 run phonegap filetransfer in back
何时捕获 java.lang.Error？

在什么情况下应该抓住java lang Error在申请上一般来说永远不会但是有时您需要捕获特定的错误如果您正在编写类似框架的代码加载第 3 方类那么最好抓住LinkageError 未找到类定义链接不满足类更改不兼容我
如果从 Java 启动，子进程将忽略 SIGQUIT

举这个简单的例子 public class Main public static void main String args throws Exception Runtime getRuntime exec sleep 1000 This
Hive查询快速查找表大小（行数）

是否有 Hive 查询可以快速查找表大小即行数而无需启动耗时的 MapReduce 作业这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的对新手问题表示歉
如何使用 VBA 在 Excel 中添加连接（到外部数据源）并将其保存到该 Excel 电子表格的连接列表

我可以使用 VBA 创建新的 ADODB Connection 以及关联的 ADODB Command 和 ADOBD Parameter 然后创建 PivotCache 和数据透视表 Sub CreatePivotTable Declar
Android 中自定义通知的确切时间

我正在开发一个用于咨询服务的 Android 应用程序客户可以在应用程序中查看他们的预约例如下次预约 2016 年 12 月 31 日上午 10 00 现在我需要做的是用户将收到 2 条通知有关预约的提醒 7 天前一次 3 天前
ProxySQL 主备设置

我的设置两台 MySQL 服务器使用第三方 Tungsten Replicator 运行主主复制由于遗留原因现在无法更改通常该集群用作主用备用集群在正常操作中所有查询都应命中第一个服务器仅当第一个数据库服务器发生故障时查
如果 Java 中的字符串中有多个空格，如何将它们压缩为单词之间的单个空格？

如果字符串的单词之间有多个空格 The cat sat on the mat 如何将其变成一个单独的空间 The cat sat on the mat 我尝试了这个但没有成功 myText myText trim replace 用正则表达
Direct2D：将 ID2D1Image 转换为 ID2D1Bitmap

我正在开发一个需要修改屏幕上已有内容的程序所以我只有一个ID2D1Bitmap我使用创建的pRenderTarget gt CopyFromRenderTarget 我想做的是将效果应用于该位图效果仅返回ID2D1Image 但我需要有
三星手机中无法启用闪光灯

我试图在三星手机中启用闪光灯但它没有打开这是我的代码 Camera mycam Camera open Parameters p mycam getParameters p setFlashMode Parameters FLASH M
如何从 Databricks Notebook 中调用 Cluster API 并启动集群？

目前我们正在使用一堆笔记本来处理 azure databricks 中的数据主要使用 python pyspark 我们想要实现的是确保我们的集群在开始数据处理之前启动预热因此我们正在探索从 databricks 笔记本内访问 C

如何从 Databricks Notebook 中调用 Cluster API 并启动集群？

如何从 Databricks Notebook 中调用 Cluster API 并启动集群？ 的相关文章

随机推荐

热门标签

如何从 Databricks Notebook 中调用 Cluster API 并启动集群？的相关文章