您是否必须 pickle 缩放器和 ML 模型才能部署？

2024-04-01

当使用 sklearn 训练 ML 模型时，我通常使用 sklearn 内置的 StandardScaler...首先将缩放器拟合到训练数据，然后转换训练数据...最后使用相同的 StandardScaler 对象来转换测试数据通过训练数据集中之前的拟合参数。

sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

然而，我最近意识到，我认为任何在不同环境中腌制和重新部署 ML 模型的尝试也需要腌制 StandardScaler...否则新的条目数据在输入之前将无法进行转换进入模型。这是我的错误，还是我只是错过了一些东西。每次尝试将 ML 模型和 StandardScaler 部署到其他地方时，是否都必须对其进行 pickle？奇怪的是，Sci-kit 学习中从未提到过这一点模型持久化 https://scikit-learn.org/stable/modules/model_persistence.html文档。

joblib.dump(model, 'pickledModel.joblib')
joblib.dump(sc, 'pickledScaler.joblib')

实际上，为了部署，您可能还需要序列化模型以将其作为字节放入数据库中。和joblib这有点棘手，因为你只能转储到文件。基本上，您创建一些虚拟容器并将其转储到那里。

from io import BytesIO

import joblib

def serialize(obj) -> bytes:
    container = BytesIO()
    joblib.dump(obj, container)
    container.seek(0)

    serialized = container.read()
    return serialized


def deserialize(obj: bytes):
    container = BytesIO()
    container.write(obj)
    container.seek(0)

    deserialized = joblib.load(container)
    return deserialized

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

您是否必须 pickle 缩放器和 ML 模型才能部署？的相关文章

Pandas ParserError：标记数据时出错。 C 错误：字符串内有 EOF

我的数据超过 400 000 行运行此代码时 f pd read csv filename error bad lines False 我收到以下错误 pandas errors ParserError Error tokenizing
setColumnStretch 和 setRowStretch 如何工作

我有一个使用构建的应用程序PySide2它使用setColumnStretch用于柱拉伸和setRowStretch用于行拉伸它工作得很好但我无法理解它是如何工作的我参考了 qt 文档但它对我没有帮助我被困在括号内的两个值上例如
用于读取类似 CSV 行的 Python 正则表达式

我想解析传入的类似 CSV 的数据行值用逗号分隔逗号周围可能有前导和尾随空格并且可以用或引用例如这是有效的行 data1 data2 data3 data4 data5 但这是格式错误的 data1 data2 da ta3
如何测试该变量不等于多个事物？

这是我的一段代码 choice while choice 1 and choice 2 and choice 3 choice raw input pick 1 2 or 3 if choice 1 print 1 it is elif c
Python：由于 OSError 无法安装软件包：[Errno 2] 没有这样的文件或目录

我尝试使用pip安装sklearn 并且我收到以下错误消息错误由于 OSError 无法安装软件包 Errno 2 没有这样的文件或目录 C Users 13434 AppData Local Packages PythonSoftwa
TemplateSyntaxError：“settings_tags”不是有效的标签库

当我尝试运行此测试用例时出现此错误这是在我的 django 应用程序的tests py 中编写的 def test accounts register self self url http royalflag com pk accoun
python win32com.client 调整窗口大小

我正在使用 Python 3 4 1 通过 win32com client 控制 Windows 应用程序我可以激活它我可以发送击键点击等现在我想知道是否有办法调整窗口大小并将其设置到特定位置我找不到方法这里有一些代码片段所以
matplotlib - 将文本包装在图例中

我目前正在尝试绘制一些pandas数据通过matplotlib seaborn 然而我的一个专栏标题特别长拉长了情节考虑以下示例 import random import pandas as pd import matplotlib p
关于具有自定义损失的 3 输出 ANN 的加权

我正在尝试定义一个自定义损失函数它在回归模型中接收 3 个输出变量 def custom loss y true y pred y true c K cast y true float32 Shape batch size 3 y pre
使用 Popen 打开进程并获取 PID

我正在开发一个漂亮的小功能 def startProcess name path Starts a process in the background and writes a PID file returns integer pid Ch
在添加数据之前使用 Python gdata 清除工作表中的行

我有一个 Google 电子表格我使用 python 脚本和 gdata 库填充值如果我多次运行脚本它会将新行附加到工作表中我希望脚本在填充之前首先清除行中的所有数据这样每次运行时我都会有一组新的数据脚本我尝试过使用 Updat
使用张量流导出神经网络的权重

我使用张量流工具编写了神经网络一切正常现在我想导出神经网络的最终权重以制定单一的预测方法我怎样才能做到这一点您需要在训练结束时使用以下命令保存模型tf train Saver https www tensorflow org ver
在基本 Tensorflow 2.0 中运行简单回归

我正在学习 Tensorflow 2 0 我认为在 Tensorflow 中实现最基本的简单线性回归是一个好主意不幸的是我遇到了几个问题我想知道这里是否有人可以提供帮助考虑以下设置 import tensorflow as tf 2
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
如何读取多个文件并将它们合并到一个 pandas 数据框中？

我想读取位于同一目录中的多个文件然后将它们合并到一个 pandas 数据框中如果我这样做的话它会起作用 import pandas as pd df1 pd read csv data 12015 csv df2 pd read csv
如何在 Jupyter Notebook 中选择 conda 环境

我安装了 Anaconda 5 3 和 Python 3 7 根环境之后我使用 Python 3 6 创建了一个新环境 py36 我激活了新环境activate py36 conda env list表明环境是活跃的但是当我启动 Jup
model.predict() 返回类而不是概率

Hello 我是第一次使用 Keras 我训练并保存了一个模型作为 json 文件及其权重该模型旨在将图像分为 3 个类别我的编译方法 model compile loss categorical crossentropy optim
如何在Python中不使用库函数将字符串转换为整数？

我正在尝试转换 a 546 to a 546 不使用任何库函数我能想到的最纯粹 gt gt gt a 546 gt gt gt result 0 gt gt gt for digit in a result 10 for d in 01
无法将 librosa 与 python 3 一起使用

我已经在 Windows 上的 ubuntu 子系统上使用 pip3 正确安装了 librosa 但是当我尝试执行像这样的简单程序时 import librosa data sr librosa load sound mp3 print d
处理错误“TypeError: Expected tuple, got str”将 CSV 加载到 pandas 多级和多索引 (pandas)

我正在尝试加载 CSV 文件这个文件 https drive google com file d 13a eVeSzy6HkhffQw32S57U hm5YCj0 view usp sharing 创建一个多索引多级数据帧它有5 五指

随机推荐

Android PreferenceFragment 找不到片段 id 的视图

所以我正在制作一个android应用程序我开始处理首选项当我简单地使用 PreferenceActivity 时一切都很完美但是如果我将它与 PreferenceFragment 一起使用那么在我单击调用意图到 Settings
表单身份验证添加附加信息以及 ReturnUrl

使用表单身份验证当应用程序需要重定向到登录页面时是否有一个事件或任何可扩展点可以让我在重定向到登录页面之前对请求执行其他工作我想在查询字符串中发送附加信息这些信息可能会有所不同因此无法将其静态嵌入到 web config 中的 l
在 Android 上解析 DNS SRV 记录的轻量级方法

在 Android 上进行 SRV 记录查找最节省资源的方法是什么例如在 XMPP 客户端中例如yaxim https github com pfleidi yaxim 我知道 JNDI http docs oracle com jav
安装 play 框架 mongodb morphia 模块

我正在使用以 mongodb 作为后端的 play 框架进行应用程序开发我已经在我的 ubuntu 和 windows 上成功安装了 mongodb 和 playframework 但是如果我想使用 mongodb 我需要 play 框架
MacOS 更喜欢 /bin/sh 还是 /bin/bash？

我想与某人共享一个脚本但不确定在 MacOS 上首选哪个哪一个最好支持 This bin sh echo Here goes my simple script that changes some settings do some stu
从 ActionBarSherlock 迁移到 ActionBarCompat 时有哪些常见问题？

我想从我的应用程序中删除 ActionBarSherlock 并将其替换为标准 ActionBarCompat 如何实现 ActionBarCompat 如何迁移活动哪些导入替代了 ActionBarSherlock 导入典型问题有哪些
与 C# 4.0 一起使用的最佳 ORM [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 最好的方法是使用像 Nhiberta
带 $ 的 Haskell 偏函数应用

我是 Haskell 的新手正在查看一个使用函数应用程序的简单示例这看起来很简单它需要一个函数并将其应用于一个值所以这是有道理的 gt 3 2 5 这也是有道理的 gt 3 2 5 这是有道理的因为第一个参数是函数第二个参数是值
存储桶日志文件的 S3 数据分区

我有一个 s3 存储桶 ABC 并且在此存储桶上启用了日志记录日志存储在 ABC logs 中每天 ABC logs 中有许多文件现在我想逐年分离这些日志例如 s3 ABC logs year 2015 s3 ABC logs ye
ng2-charts 的自定义工具提示

我正在做一些研究我想知道是否可以像 Chart js 中那样制作自定义工具提示但我找不到任何东西我想在我的工具提示中添加一些 css 我正在使用 Angular5 尝试将其添加到您的图表选项 public barChartOption
表情符号取值范围

我试图从字符串中取出所有表情符号就像消毒剂一样但我找不到完整的表情符号值集表情符号字符的 UTF16 值的完整集合是什么 Unicode 标准的Unicode 技术报告 51 http www unicode org reports
更改Windows Phone通用应用程序中内容对话框按钮的样式

我在 xaml 中定义了此内容对话框
防止 python 覆盖范围包含虚拟环境站点包

我是报道新手遇到了一个奇怪的问题我的报道考虑了我的虚拟环境站点包这是覆盖率运行的输出 coverage run test py Ran 20 tests in 0 060s OK atcatalog jmfrank63 fullsta
无法在 vs2008 中打开 NerdDinner 项目

NerdDinner csproj 不会在带有 net 3 5 sp1 的 vs2008 sp1 中加载我是不是对这些工具或其他东西不了解最新的情况它抱怨此安装不支持此项目类型您是否安装了 ASP NET MVC 框架如果没有你需
将数据帧系列中的分数转换为浮点数

在 Python 3 x 中如何将包含分数字符串和 NaN 值的 Dataframe 列转换为浮点数我尝试了一些方法但没有找到合适的解决方案所以如果我有一个数据框 df 它看起来像 a b 0 John 20 1 1 Bob NaN
如何在 R 中获取整数哈希码？

我想做的是在 R 中实现一个哈希技巧代码如下 library digest a lt digest key a algo xxhash32 1 4da5b0f8 这返回了字符类型的哈希码有什么办法可以把它变成整数吗或者还有其他包可以实
使用 Passport-facebook 从 Facebook 检索照片

我可以通过 Passport facebook 检索基本用户信息遵循以下代码并保存在 mongodb 中 app get auth facebook passport authenticate facebook scope email p
从kafka主题中删除单个记录

有没有办法从kafka主题中删除单个记录我知道有一个脚本 kafka delete records sh 可以删除指定主题和分区上指定偏移量之前的记录但我希望能够删除我指定的偏移量上的记录有没有办法做到这一点这不是在 Java 上
Python 输出格式

你好我搜索过输出格式但格式没有成功我找不到合适的文档我真的想了解这段代码是如何工作的如果有人可以启发我吗 print Survived i 1f len survived float len survived len train
您是否必须 pickle 缩放器和 ML 模型才能部署？

当使用 sklearn 训练 ML 模型时我通常使用 sklearn 内置的 StandardScaler 首先将缩放器拟合到训练数据然后转换训练数据最后使用相同的 StandardScaler 对象来转换测试数据通过训练数据集中之前

您是否必须 pickle 缩放器和 ML 模型才能部署？

您是否必须 pickle 缩放器和 ML 模型才能部署？ 的相关文章

随机推荐

热门标签

您是否必须 pickle 缩放器和 ML 模型才能部署？的相关文章