mlflow 如何使用自定义转换器保存 sklearn 管道？

2024-05-12

我正在尝试使用 mlflow 保存 sklearn 机器学习模型，这是一个包含我定义的自定义转换器的管道，并将其加载到另一个项目中。我的自定义转换器继承自 BaseEstimator 和 TransformerMixin。

假设我有 2 个项目：

train_project：它在 src.ml.transformers.py 中有自定义变压器
use_project：src中有其他东西，或者根本没有src目录

所以在我的 train_project 中我这样做：

mlflow.sklearn.log_model(preprocess_pipe, 'model/preprocess_pipe')

然后当我尝试将其加载到 use_project 时：

preprocess_pipe = mlflow.sklearn.load_model(f'{ref_model_path}/preprocess_pipe')

出现错误：

[...]
File "/home/quentin/anaconda3/envs/api_env/lib/python3.7/site-packages/mlflow/sklearn.py", line 210, in _load_model_from_local_file
    return pickle.load(f)
ModuleNotFoundError: No module named 'train_project'

我尝试使用格式 mlflow.sklearn.SERIALIZATION_FORMAT_CLOUDPICKLE ：

mlflow.sklearn.log_model(preprocess_pipe, 'model/preprocess_pipe', serialization_format=mlflow.sklearn.SERIALIZATION_FORMAT_CLOUDPICKLE)

但我在加载过程中遇到同样的错误。

我看到了选项代码路径 into mlflow.pyfunc.log_model但我不清楚它的用途和目的。

我认为 mlflow 提供了一种简单的方法来保存模型并序列化它们，以便它们可以在任何地方使用，只有当你有原生 sklearn 模型（或 keras，...）时，这是真的吗？

看来这个问题与pickle功能更相关（mlflow使用它并且pickle需要安装所有依赖项）。

到目前为止，我找到的唯一解决方案是将我的转换器制作为一个包，将其导入两个项目中。保存我的变压器库的版本康达环境的论证日志模型，并在将模型加载到我的 use_project 时检查它是否是相同的版本。但如果我必须更改变压器或在其中进行调试，那就很痛苦了......

有人有更好的解决方案吗？更优雅？也许我会错过一些 mlflow 功能？

其他信息：
在 Linux (ubuntu) 上工作
毫升流量=1.5.0
蟒蛇=3.7.3

我在 mlflow.sklearn api 的测试中看到他们使用自定义变压器进行了测试，但他们将其加载到同一个文件中，因此它似乎无法解决我的问题，但也许它可以帮助其他人：

https://github.com/mlflow/mlflow/blob/master/tests/sklearn/test_sklearn_model_export.py https://github.com/mlflow/mlflow/blob/master/tests/sklearn/test_sklearn_model_export.py

您想要做的是序列化您在外部模块中训练过的“定制”内容train.py，正确的？

您可能需要做的是记录您的模型mlflow.pyfunc.log_model与code参数，它接受一个字符串列表，其中包含您需要反序列化和进行预测的模块的路径，如文档所示here https://www.mlflow.org/docs/latest/python_api/mlflow.pyfunc.html#mlmodel-configuration.

需要明确的是，每个 mlflow 模型本质上都是 PyFunc。即使您使用以下命令记录模型mlflow.sklearn，你可以加载它mlflow.pyfunc.load_model。 PyFunc 的作用是以独特的方式标准化所有模型和框架，这将保证您始终声明如何：

反序列化你的模型，用load_context() method
做出你的预测，与predict() method

如果您确保继承 mlflow 的 PythonModel 类的对象中的这两件事，则可以将模型记录为 PyFunc。

What mlflow.sklearn.log_model所做的基本上总结了声明序列化和反序列化的方式。如果您坚持使用 sklearn 的基本模块，例如基本变压器和管道，您将永远可以使用它。但是当您需要自定义的东西时，您可以参考 Pyfuncs。

你可以找到一个非常有用的例子here https://www.mlflow.org/docs/latest/models.html#example-saving-an-xgboost-model-in-mlflow-format。请注意，它准确地说明了如何进行预测，将输入转换为 XGBoost 的 DMatrix。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

mlflow 如何使用自定义转换器保存 sklearn 管道？的相关文章

我可以在 matplotlib 中的绘图左侧放置一个垂直颜色条吗？

来自颜色条方法的 matplotlib 命令摘要 http matplotlib org api pyplot api html highlight colorbar matplotlib pyplot colorbar我知道关键字参数or
如何在Python + Selenium中获取元素的值

我在我的 Python 3 6 3 代码中得到了这个 HTML 元素作为 Selenium网页元素当然 span class ocenaCzastkowa masterTooltip style color 000000 alt 5 sp
为什么我会收到 ValueError：系列的真值不明确。使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()

以下代码给出了值错误 major males for row in recent grads if recent grads Men gt recent grads Women major males append recent grads
Python Apache Beam 端输入断言错误

我对 Apache Beam Cloud Dataflow 还很陌生所以如果我的理解不正确我深表歉意我正在尝试通过管道读取大约 30 000 行长的数据文件我的简单管道首先从 GCS 打开 csv 从数据中提取标题通过 ParDo
右键单击 QPushButton 上的 contextMenu

对于我的应用程序我在 Qt Designer 中创建了一个 GUI 并将其转换为 python 2 6 代码关于一些QPushButton 与设计器创建我想添加右键单击上下文菜单菜单选项取决于应用程序状态如何实现这样的上下文菜单
使用 python 从 CSV 创建字典

我有一个 CSV 格式的文件其中 A B 和 C 是标题我如何以Python方式将此CSV转换为以下形式的字典 A 1 B 4 C 7 A 2 B 5 C 8 A 3 B 6 C 9 到目前为止我正在尝试以下代码 import csv
为什么 pip 已经是最新的了却要求我升级？

我全新安装了 python 3 7 1 64 位并使用最新的 pyCharm 作为我的 IDE 我在这台机器上没有安装其他 python 我去安装 numpy 并收到以下消息 venv C Users John PycharmProjec
使用 Python-VLC 的 PyInstaller：无属性“media_player_new”错误

我使用 Python VLC 创建视频播放器并使用 PyInstaller 在 Windows 10 计算机上生成可执行文件最初它给了我错误 Import Error Failed to load dynlib dll libvlc
类变量：“类列表”与“类布尔值”[重复]

这个问题在这里已经有答案了我不明白以下示例的区别一次类的实例可以更改另一个实例的类变量而另一次则不能示例1 class MyClass object mylist def add self self mylist append 1
Kivy TextInput 水平和垂直对齐（文本居中）

如何在 Kivy 的 TextInput 中水平居中文本 I have the following screen But I want to centralize my text like this 这是我的 kv 语言的一部分 BoxLa
如何将 pandas DataFrame 转换为 TimeSeries？

我正在寻找一种将 DataFrame 转换为 TimeSeries 而不拆分索引和值列的方法有任何想法吗谢谢 In 20 import pandas as pd In 21 import numpy as np In 22 dates
如何将 django ModelForm 字段显示为不可编辑

接受我的初步教训django ModelForm 我想让用户能够编辑博客中的条目 BlogEntry has a date postedTime title and content 我想向用户展示一个编辑表单其中显示所有这些字段但仅包含
如何使用 python 模块的多个 git 分支？

我想使用 git 来同时处理我正在编写的模块中的多个功能我目前正在使用 SVN 只有一个工作区因此我的 PYTHONPATH 上只有该工作区我意识到这不太理想所以我想知道是否有人可以建议一种更正确的方法来做到这一点让我用一个假
带 Qt 的菜单栏/系统托盘应用程序

我是 Qt PyQt 的新手我正在尝试制作一个应用程序其功能将从菜单栏系统托盘执行这里展示了一个完美的例子我找不到关于如何做到这一点的好资源有人可以建议吗 Thanks 我认为您正在寻找与QMenu and QMainWindo
关闭正在运行代码的 IPython Notebook

怎么运行的我在 IPython Notebook 中运行了一些代码一些迭代工作我不小心关闭了正在运行的笔记本的浏览器但回到 IPython 仪表板我发现这个特定的笔记本尚未关闭所以如果我再次打开笔记本我会在它正在执行的代码前面
将函数按元素应用于两个 DataFrame

如何应用函数z ij f x ij y ij 来自数据框X and Y相同大小并将结果保存到 DataFrameZ 这取决于你有什么样的功能很多功能已经被矢量化为数据框例如等等所以对于这些功能你可以简单地做Z X Y or Z X
如何使用 keras.backend.gradients() 获取梯度值

我试图获得 Keras 模型的输出相对于模型输入 x 而不是权重的导数似乎最简单的方法是使用 keras backend 中的梯度它返回梯度张量 https keras io backend https keras io backe
将二进制数转换为包含每个二进制数的数组

我试图将二进制值转换为每个 1 0 的列表但我得到默认的二进制值而不是列表我有一个字符串我将每个字符转换为二进制它给了我一个列表其中每个字符都有一个字符串现在我试图将每个字符串拆分为值为 0 1 的整数但我什么也得不到 if
如何在不同的目录中执行python脚本？

Solved对于可能觉得这有帮助的人请参阅下面我的答案我有两个脚本 a py 和 b py 在我当前的目录 C Users MyName Desktop MAIN 中我运行 gt python a py 第一个脚本 a py 在我当前
如何使 Django 自定义管理命令参数不再需要？

我正在尝试在 django 中编写自定义管理命令如下所示 class Command BaseCommand def add arguments self parser parser add argument delay type int

随机推荐

启动任务和等待任务有什么区别？

开始和等待有什么区别下面的代码取自 Stephen Cleary 的博客包括评论 public async Task DoOperationsConcurrentlyAsync Task tasks new Task 3 tasks 0
是否可以像 html 视频元素一样将流作为源添加到 html canvas 元素？

根据MDN The HTMLMediaElement https developer mozilla org en US docs Web API HTMLMediaElement界面添加到HTMLElement属性支持基本媒体相关功能所
使用 std::min_element() 时保存函数计算

假设给你一个 2D 点向量并期望找到最少的点欧几里得范数 http en wikipedia org wiki Norm 28mathematics 29 Euclidean norm 点提供为std vector
对 Python 中的嵌套字典进行排序

我有以下字典 var a Black grams 1906 price 2 05 Blue grams 9526 price 22 88 Gold grams 194 price 8 24 Magenta grams 6035 price
MS Access：在列中搜索星号/星号

我正在寻找一种方法来搜索包含字符串数据类型的列问题是星号或星号是保留符号以下查询无法正常工作 select from users where instr pattern 如何编写 Access 查询来搜索列中的星号您可以使用方括号在
向控制器发送参数

我懂了
Tkinter：无法识别图像文件中的数据[重复]

这个问题在这里已经有答案了我有以下问题我使用外部应用程序生成 GIF 文件对我来说 GIF 看起来不错我可以毫无问题地打开它们然而使用 photo PhotoImage file screenshot file self pre
在 jelly 脚本中使用 JavaScript

我正在尝试在 Jenkins 中使用用 JavaScript 编写的脚本我认为最简单的方法是在 jelly 脚本中调用它们例如我有文件 myCustom js alert Hello World function myFunction
在 C++/CLI 中创建时初始化静态字典

今天我看到创建静态字典并初始化它的 C 代码 public static readonly Dictionary
gradle.properties 文件放在哪里

我正在关注Artifactory1 分钟设置 http www jfrog com video artifactory 1 min setup 我在本地主机上启动并运行了 Artifactory 现在我正在尝试将其与 Intellij Gr
如何根据原始元素将向量中的元素替换为另一个元素[重复]

这个问题在这里已经有答案了请考虑以下程序这是一个最小化的示例所以不要纠结于我在这里尝试做的事情可以通过以下方式更好地实现 HashMap
JavaFX - Outlook 附件 - DnD

您好我需要一个 DnD 解决方案来将 Outlook 邮件附件拖到堆栈窗格中 JavaFX Outlook 2010 stackpaneDragAndDropZone setOnDragOver DragEvent event gt Dr
如果存在从 S 到 T 的恒等转换，那么 S 和 T 一定是同一类型吗？

在 6 1 6 中 C 语言规范中有隐式引用转换为从任何引用类型到引用类型 T 如果它具有到引用类型 T0 的隐式标识或引用转换并且 T0 具有到 T 的标识转换他们为什么不直接说从任何引用类型到引用类型 T 如果它具有到 T 的
使用 Spring 验证框架验证请求标头

是否可以将 Spring 验证框架与 Spring MVC 结合使用来验证 HTTP 请求标头的存在和值要检查presence请求标头的您不需要验证框架请求标头参数默认是强制的如果请求中缺少强制标头 Spring MVC 会自动响应
可以写入 csv 文件但不能追加

string pathDesktop Environment GetFolderPath Environment SpecialFolder Desktop string filePath pathDesktop mycsvfile csv
如何编写长时间运行的活动来调用 WF 4.0 中的 Web 服务

我创建了一个执行 Web 请求并将结果存储到数据库中的活动我发现对于这些长时间运行的活动我应该编写一些不同的代码以便工作流引擎线程不会被阻塞 public sealed class WebSaveActivity NativeActi
使用 LIKE 和撇号的 Mysql 查询问题

所以我有一个有趣的问题我从未遇到过并且似乎找不到太多有关纠正该问题的信息我有一个庞大的数据库里面有大量的数据相当于 10 年的数据并试图对其进行搜索现在搜索功能运行良好但最近有人让我注意到一个错误如果你愿意的话我尝试对
Android SSL 无对等证书

我有一个例外没有同行证书当我询问谷歌时我得到了解决方案我信任所有证书但这个问题的答案是它是不安全的所以我给班级打电话 HostnameVerifier hostnameVerifier org apache http conn
Java：获取当前正在执行的Method对应的对象

将当前正在执行的方法作为 Method 对象获取的最优雅的方法是什么我的第一个明显的方法是在辅助类中使用静态方法该方法将加载当前线程堆栈获取正确的堆栈跟踪元素并根据其信息构造 Method 元素有没有更优雅的方法来实现这一目标这
mlflow 如何使用自定义转换器保存 sklearn 管道？

我正在尝试使用 mlflow 保存 sklearn 机器学习模型这是一个包含我定义的自定义转换器的管道并将其加载到另一个项目中我的自定义转换器继承自 BaseEstimator 和 TransformerMixin 假设我有 2 个项

mlflow 如何使用自定义转换器保存 sklearn 管道？

mlflow 如何使用自定义转换器保存 sklearn 管道？ 的相关文章

随机推荐

热门标签

mlflow 如何使用自定义转换器保存 sklearn 管道？的相关文章