在 Databricks 上的 mlflow.pyfunc 模型中使用 code_path

2024-04-18

我们在 AWS 基础设施上使用 Databricks，在mlflow。我们将项目内导入写为from src.(module location) import (objects).

按照网上的例子，我期望当我使用时mlflow.pyfunc.log_model(..., code_path=['PROJECT_ROOT/src'], ...)，这会将整个代码树添加到模型的运行环境中，从而允许我们保持导入不变。

记录模型时，我得到一长串[Errno 95] Operation not supported，我们仓库中的每个笔记本都有一个。这会阻止我们将模型注册到 mlflow。

我们使用了几种临时解决方案和变通方法，从强迫自己使用一个文件中的所有代码，到仅使用同一目录中的文件（code_path=['./filename.py']，添加特定的库（并相应地更改导入路径）等。

然而，这些都不是最佳的。因此，我们要么重复代码（杀死 DRY），要么在包装器中放入一些导入（即那些无法在我们的工作环境中运行的导入，因为它与模型部署时遇到的环境不同）等。

我们还没有尝试将所有笔记本（我们认为这会导致[Errno 95] Operation not supported）在一个单独的文件夹中。这将对我们当前的情况和流程造成极大的破坏，我们希望尽可能避免这种情况。

请指教

当我使用 Databricks 中的自定义模型逻辑时，我也遇到了类似的困难。src目录（类似结构cookiecutter 数据科学 https://github.com/drivendata/cookiecutter-data-science）。解决方案是记录整个src使用相对路径的目录。

因此，如果您有以下项目结构。

.
├── notebooks
│   └── train.py
└── src
    ├── __init__.py
    └── model.py

Your train.py应该看起来像这样。注意 AddN 来自MLflow 文档 https://mlflow.org/docs/latest/models.html#example-creating-a-custom-add-n-model.

import mlflow

from src.model import AddN

model = AddN(n=5)

mlflow.pyfunc.log_model(
    registered_model_name="add_n_model",
    artifact_path="add_n_model",
    python_model=model,
    code_path=["../src"],
)

这将复制所有代码src/并将其记录在 MLflow 工件中，允许模型加载所有依赖项。

如果您没有使用notebooks/目录，您将设置code_path=["src"]。如果您使用像这样的子目录notebooks/train/train.py，你将设置code_path=["../../src"].

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Databricks 上的 mlflow.pyfunc 模型中使用 code_path 的相关文章

WriteStream 无法在 Delta 表中写入数据

我正在尝试使用以下代码从流路径连接 Streaming Json 文件 Schema1 customerId STRING orderId STRING products ARRAY
pyspark中指定多列数据类型更改为不同数据类型

我有一个数据框 df 由50多个列和不同类型的数据类型组成例如 df3 printSchema CtpJobId string nullable true TransformJobStateId string nullable true
从azure databricks删除azure sql数据库行

我在 Azure SQL 数据库中有一个表我想根据某些条件从该表中删除选定的行或者从 Azure Databricks 中删除整个表目前我正在使用truncateJDBC 的属性可以截断整个表而不删除它然后用新的数据帧重写它 df
获取名称为 mlflow 实验的运行 ID？

我目前在 mlflow 中创建了一个实验并在实验中创建了多次运行 from sklearn ensemble import RandomForestRegressor from sklearn metrics import mean sq
使用 databricks-connect 时打开 dbfs 上的文件

我正在使用 databricks connect 将本地 PyCharm IDE 连接到 Azure Databricks 群集在我尝试在没有 Spark 上下文的情况下访问文件之前这一切都工作得很好例如 dbutils fs put
Databricks 在作业完成时触发作业写入/更新 _SUCCESS 文件两次

我正在使用基于 S3 事件的触发器来触发 lambda 函数每次在 S3 中的特定位置写入 SUCCESS 文件时它都会触发 lambda 函数数据正在使用 Databricks Spark 作业写入源位置据观察一旦作业将数据写入
如何使用 Databricks 将 CSV 写回 Azure Blob 存储？

我正在努力写回 Azure Blob 存储容器我可以使用以下内容从容器中读取内容 storage account name expstorage storage account key 1VP89J container source sp
Terraform databricks 无法配置默认凭据

我们正在通过 Azure 管道运行 terraform 以创建 databricks 工作区和相关资源但是当 Terraform 的应用阶段到达获取最新版本的 Spark 的阶段时该过程会引发错误错误是 Error default a
Databricks SQL 和 Spark SQL 有什么区别？

Databricks SQL 和 Spark SQL 有什么区别 Data SQL 只是 Databricks 上的 Spark SQL 吗 Databricks SQL 主要基于 Spark SQL 现在正在慢慢收敛到 ANSI SQL
Azure Databricks 和表单识别器 - 图像无效或受密码保护

我正在尝试使用 Databricks 自动化 Azure 表单识别器流程我会将 pdf 或 jpg 文件放入 blob 中并在 Databricks 中运行代码将文件发送到表单识别器执行数据识别并将结果放入 blob 中的新 csv
Azure Databricks 中 DBFS 的数据大小限制是多少

I read here https forums databricks com questions 8331 is there a size limit on files i put into dbfs fil htmlAWS Databr
使用 Simba 驱动程序将 ODBC 连接到 AzureDatabricks

我只是想为 Databricks Cluster 设置 ODBC 驱动程序根据MS文档 https learn microsoft com en us azure databricks kb bi jdbc odbc troublesho
无法在 Databricks 上运行 Pandas 分析

我正在尝试在 Databricks 环境中的示例数据帧上运行 Pandas 分析收到与 marplotlib 相关的错误不确定此问题是否与 Matplotlib 或 pandas profiling 相关任何帮助将不胜感激 Datab
为 Databricks 生成数据库架构图

我正在创建一个 Databricks 应用程序并且数据库架构变得非常重要有没有办法为 Databricks 数据库生成架构图类似于可以从 mysql 生成的架构图有两种可能的变体使用 Spark SQL 与show databas
AnalysisException：路径不存在：dbfs:/databricks/python/lib/python3.7/site-packages/sampleFolder/data；

我将以下代码打包到 whl 文件中 from pkg resources import resource filename def path to model anomaly dir name str data path str filep
在 databricks 笔记本中使用多个 Spark 连接

我想使用 Spark 和 Sparklyr 连接到单个 databricks R 笔记本中的两个数据库表 sc one lt spark connect method databricks tbl change db sc one firs
具有更好性能的 pyspark 枢轴替代品

以下是我的输入数据集 df spark createDataFrame 0 CattyCat B2K B 0 CattyCat B3L I 0 CattyCat B3U I 0 CattyCat D3J C 0 CattyCat J1N H
在 Databricks 上的 mlflow.pyfunc 模型中使用 code_path

我们在 AWS 基础设施上使用 Databricks 在mlflow 我们将项目内导入写为from src module location import objects 按照网上的例子我期望当我使用时mlflow pyfunc log m
将 Matplotlib 输出保存到 Databricks 上的 Blob 存储

我正在尝试使用此处提供的方法将 matplotlib 图形写入 Azure blob 存储将 Matplotlib 输出保存到 Databricks 上的 DBFS https stackoverflow com questions 57
使用spark-sql从oracle加载数据时如何增加默认精度和小数位数

尝试从 oracle 表加载数据其中我有几列保存浮点值有时它最多保存 DecimalType 40 20 即点后 20 位数字目前当我使用加载其列时 var local ora df DataFrameReader ora df l

随机推荐

如何在我的开发环境中管理多个版本的 Scala 和 SBT？

我刚刚完成了很棒的 Coursera Scala 课程并渴望通过探索一些现有的开源项目来继续了解有关 Scala 的更多信息不过我在尝试让其中一些在本地运行时遇到了障碍我有 Ruby 背景我们使用诸如rvm or rbenv在一个
Android 形状背景

是否可以在 xml 中绘制一个形状并使用 png 作为该形状的背景我已经有了形状它是一个带圆角的正方形我想为该正方形添加背景是的您可以使用任何形状文件作为任何视图的背景此示例创建圆形背景形状周围有白色和黑色边框样本圆角
护照验证不重定向

我正在编写一个本地注册策略发现它不起作用所以我退后一步尝试对我的空集合进行身份验证每次我提交表单都会花费大约 30 40 秒的时间直到导致超时我确保调用了 Passport authenticate 但似乎它没有执行任何重定向
在 Android 中初始化 Firebase crashlytics

我已在我的 Android 项目中将 Fabric Crashlytics 迁移到 Firebase Crashlytics 在使用织物时在活动课上我使用了以下线 Fabric with this new Crashlytics 但迁移后
在 Java 7 和 8 中创建与现有列表不同的列表？

如果我有 List
如何使用 symfony 2.3 在 WebTestCase 中提交无效的选择选项

我正在尝试在 symfony 2 3 中测试一个表单该表单具有选择输入以及文件上传 enctype multipart form data 选择输入如下这是必填字段有 3 个选项 1 2 3 使用 DomCrawler 我选择表单
调试时会忽略依赖项 commons-logging:commons-logging:1.2，因为它可能与 Android 提供的内部版本冲突

我收到以下警告警告依赖 commons logging commons logging 1 2 被忽略调试因为它可能与提供的内部版本冲突安卓如果出现问题请用jarjar重新打包更改类包依赖项 commons logging
如何获取 URL 中最后一个斜杠之后的所有内容？

如何在 Python 中提取 URL 中最后一个斜杠后面的内容例如这些 URL 应返回以下内容 URL http www test com TEST1 returns TEST1 URL http www test com page T
openlayers：使用 MVT VectorTileSource 进行集群不可能吗？

我是 openlayers 的新手我想使用cluster矢量数据的函数如果我指示为这似乎不起作用source 在 Cluster 选项中 MVT VectorTileSource 代码如下没有集群也能正常工作不支持吗谢谢彼得
KeyValuePair<> 结构的 Deconstruct 方法在哪里？

我确信我以前见过这个方法因为一年前我问过 KeyValuePair 结构中 Deconstruct 方法的用途是什么 https stackoverflow com questions 51809890 what is the purpo
如果Spark支持内存溢出到磁盘，那么Spark Out of Memory怎么会发生呢？

我读了一些关于Spark内存管理的文档在本页面如果我没有足够的内存 spark 会做什么 https stackoverflow com questions 20301661 what will spark do if i dont h
在 Rails 中，如何对 Javascript 响应格式进行功能测试？

如果您的控制器操作如下所示 respond to do format format html raise Unsupported format js index js erb end 你的功能测试如下所示 test javascript r
非英语单词的词形还原？

我想应用词形还原来减少单词的屈折形式我知道对于英语 WordNet 提供了这样的功能但我也对对荷兰语法语西班牙语和意大利语单词应用词形还原感兴趣有没有可靠且可靠的方法来解决这个问题谢谢你 Try pattern来自 CLIPS
使用递归查询聚合期间

我需要将每个组 ID 的顺序事件具有标识符 NUM 的重叠周期由 FROM 和 TO 变量定义与先行缓冲区合并这意味着如果下一个周期在缓冲区内开始它们应该是合并了例如在以下示例中第二个事件 NUM 2 在时间 13 开始
“ng-bootstrap”和“ngx-bootstrap”有什么区别？

有什么区别ng bootstrap and ngx bootstrap 它们彼此有关联吗或者它们只是并发实现有人与他们一起工作过并且可以给出解释两者的优点和缺点吗 With ng bootstrap I mean ng bootstr
如何使用 php 将 google 驱动器下载文件写入目录

我正在尝试使用下面的代码将谷歌驱动器文件下载到目录中当我运行代码时它仅按照下面的代码在浏览器上打开文件的内容验证谷歌驱动器放在这里 file service gt files gt get fileId downloadUrl fil
通过id定位元素

以下定位技术有什么区别 element by id id element by css id element by xpath id id browser executeScript return document querySelecto
TFS 2015 v.Next 构建：并行解决方案构建？

在 TFS v Next 构建中可以进行并行构建但是我认为它只适用于构建多个configurations platforms在平行下看this https stackoverflow com questions 32116348 p
如何在多台机器上同步本地托管的 Greasemonkey 脚本？

我希望能够在我使用的所有计算机上访问我的 Greasemonkey 脚本我已经启用了启用 Firefox 同步用户脚本在 Greasemonkey 的设置对话框中进行设置但后来我读到它仅同步外部托管的脚本然后我尝试使用以下方法设置
在 Databricks 上的 mlflow.pyfunc 模型中使用 code_path

我们在 AWS 基础设施上使用 Databricks 在mlflow 我们将项目内导入写为from src module location import objects 按照网上的例子我期望当我使用时mlflow pyfunc log m

在 Databricks 上的 mlflow.pyfunc 模型中使用 code_path

在 Databricks 上的 mlflow.pyfunc 模型中使用 code_path 的相关文章

随机推荐

热门标签