使用 joblib.dump 保存和加载经过训练的 GradientBoostingClassifier

2023-12-26

我正在尝试使用 joblib.dump 使用以下代码保存经过训练的 GradientBoostingClassifier：

# use 90% of training data
NI=int(len(X_tr)*0.9) 
I1=np.random.choice(len(X_tr),NI)
Xi=X_tr[I1,:]
Yi=Y_tr[I1]

#train a GradientBoostingCalssifier using that data

a=GradientBoostingClassifier(learning_rate=0.02, n_estimators=500, min_samples_leaf=50,presort=True,warm_start=True)

 a.fit(Xi,Yi) 

# calculate class probabilities for the remaining data

I2=np.array(list(set(range(len(X_tr)))-set(I1)))
Pi=np.zeros(len(X_tr))
Pi[I2]=a.predict_proba(X_tr[I2,:])[:,1].reshape(-1)

#save indexes of training data and the predicted probabilites
np.savetxt('models\\balanced\\GBT1\\oob_index'+str(j)+'.txt',I2)
np.savetxt('models\\balanced\\GBT1\\oob_m'+str(j)+'.txt',Pi)

# save the trained classifier
joblib.dump(a, 'models\\balanced\\GBT1\\m'+str(j)+'.pkl')

训练并保存分类器后，我关闭终端，打开一个新终端并运行以下代码来加载分类器并在保存的测试数据集上对其进行测试

    # load the saved class probabilities 
    Pi=np.loadtxt('models\\balanced\\GBT1\\oob_m'+str(j)+'.txt') 

    #load the training data index 
    Ii=np.loadtxt('models\\balanced\\GBT1\\oob_index'+str(j)+'.txt')

    #load the trained model
    a=joblib.load('models\\balanced\\GBT1\\m'+str(j)+'.pkl')

    #predict class probabilities using the trained model
    Pi1=a.predict_proba(X_tr[Ii,:])[:,1] 

    # Calculate aupr for the retrained model 
    _prec,_rec,_=metrics.precision_recall_curve(Y[Ii],Pi1,pos_label=1)
    auc=metrics.auc(_rec,_prec);

    # calculate aupr for the saved probabilities
    _prec1,_rec1,_=metrics.precision_recall_curve(Y[Ii],Pi[Ii],pos_label=1)
    auc1=metrics.auc(_rec1,_prec1);

     print('in iteration ', j, ' aucs: ', auc, auc1)

该代码打印以下内容：在迭代 0 aucs 中：0.0331879 0.0657821 ...................................... 在所有情况下，重新加载的分类器的 aupr 与原始训练的分类器显着不同。我使用相同版本的 sklearn 和 python 来加载和保存。我究竟做错了什么？

错误出在您的代码中。我建议你使用分割数据train_test_split。它通过以下方式对数据进行混洗default http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

下面的代码产生相同的结果auc指标：

from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import auc
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import pickle
from sklearn.externals import joblib

def main():
    X, y = load_iris(return_X_y=True)
    X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=.3)

    clf = GradientBoostingClassifier()
    clf.fit(X_train, y_train)

    preds = clf.predict(X_test)
    prec, rec, _ = precision_recall_curve(y_test, preds, pos_label=1)

    with open('dump.pkl', 'wb') as f:
        pickle.dump(clf, f)

    print('AUC SCORE: ', auc(rec, prec))

    clf2 = joblib.load('dump.pkl')
    preds2 = clf2.predict(X_test)

    prec2, rec2, _ = precision_recall_curve(y_test, preds2, pos_label=1)

    print('AUC SCORE AFTER DUMP: ', auc(rec2, prec2))

if __name__ == '__main__':
    main()

>>> AUC SCORE: 0.273271889401
>>> AUC SCORE AFTER DUMP: 0.273271889401

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 joblib.dump 保存和加载经过训练的 GradientBoostingClassifier 的相关文章

OpenCV Python 删除图像中的某些对象

我正在使用带有 opencv 和 numpy 的 python 来检测天文中的星星例如这个1 https i stack imgur com AKwEJ jpg图片使用模板匹配我可以用阈值检测星星单击 2 2 https i sta
按 ListProperty (NDB) 对查询进行排序

如何按 ListProperty 对查询进行排序该模型 class Chapter ndb Model title ndb StringProperty required True version ndb IntegerProperty
垂直线 axvline 在 matplotlib 的 loglog 图中绘制位于错误位置的线

我在使用 axvline 在 matplotlib 的 loglog 图中绘制垂直线时遇到问题第一个问题是垂直线没有出现在正确的位置第二个问题可能相关的是当我放大或平移绘图时垂直线只是保持在原位并且没有通过平移滑动绘图或放大
用于打印 C/C++ 文件的所有函数定义的 Python 脚本

我想要一个 python 脚本来打印 C C 文件中定义的所有函数的列表 e g abc c定义两个函数为 void func1 int func2 int i printf d i return 1 我只想搜索文件 abc c 并打印其中
Python 3.x 中的 PIL ImageTk 等效项

我正在使用 Tkinter 开发一个应用程序它使用以下数据库png图标的图像文件为了在应用程序中使用所述图像我使用 PIL 打开它们Image open 运行它通过ImageTk PhotoImage函数然后将其传递给小部件构造函数
Python NLP 英式英语与美式英语

我目前正在用Python 进行NLP 工作然而在我的语料库中既有英式英语也有美式英语实现实现我正在考虑将英式英语转换为美式英语但是我没有找到一个好的工具包来做到这一点有什么建议么我也找不到包但试试这个请注意我必须
python 语言环境奇怪的错误。这究竟是怎么回事？

所以今天我升级到了 bazaar 2 0 2 我开始收到这条消息顺便说一句我在雪豹上 bzr warning unknown locale UTF 8 Could not determine what text encoding to
Docker：通过 Gunicorn 运行 Flask 应用程序 - Worker 超时？表现不佳？

我正在尝试创建一个用Python Flask编写的新应用程序由gunicorn运行然后进行dockerized 我遇到的问题是 docker 容器内的性能非常差不一致我最终得到了响应但我不明白为什么性能会下降有时我会在日志中看到
Python/Flask：应用程序在关闭后正在运行

我正在开发一个简单的 Flask Web 应用程序我使用 Eclipse Pydev 当我开发该应用程序时由于代码更改我必须经常重新启动该应用程序这就是问题所在当我运行该应用程序时我可以在本地主机上看到该框架这很好但是当我想
检查对象数组中的多个属性匹配

我有一个对象数组它们都是相同的对象类型并且它们有多个属性有没有办法返回一个较小的对象数组其中所有属性都与测试用例字符串匹配无论该属性类型是什么使用列表理解all http docs python org 3 library f
Selenium 网页抓取与动态内容和隐藏数据表上的美丽汤

真的需要这个社区的帮助我正在使用 Selenium 和 Beautiful Soup 对 Python 中的动态内容进行网页抓取问题是定价数据表无法解析为 Python 即使使用以下代码 html browser execute scr
从文档字符串生成 sphinx 文档不起作用

我有一个具有以下结构的项目我想保留 my project build here is where sphinx should dump into requirements txt make bat Makefile more config
如何在 Numpy 中实现垃圾收集

我有一个名为main py 它引用另一个文件Optimisers py它仅具有功能并用于for循环进入main py 这些函数都有不同的优化功能 This Optimisers py然后引用另外两个类似的文件其中也只有函数它们位于whi
如何在 Tkinter 的 Button 小部件中创建多个标签？

我想知道如何在 Tkinter 中创建具有多个标签的按钮小部件如下图所示带有子标签的按钮 https i stack imgur com jOZRw jpg正如您所看到的在某些按钮中有一个子标签例如按钮 X 有另一个小标签 A 我试
写入 UDP 套接字会被阻塞吗？

如果是的话在什么条件下或者换句话说在twisted 中运行此代码是否安全 class StatsdClient AbstractStatsdClient def init self host port super StatsdCli
Python：使用列表创建二叉搜索树

我的代码的目标是从 txt 文件中获取每个单独的单词并将其放入列表中然后使用该列表创建二叉搜索树来计算每个单词的频率并按字母顺序打印每个单词及其频率中的每个单词只能包含字母数字或我无法用我的初学者编程知识来做的部分是使用我拥有的
如何使用 python-gnupg 加密大型数据集而不占用所有内存？

我的磁盘上有一个非常大的文本文件假设它是 1 GB 或更多还假设该文件中的数据有 n每 120 个字符一个字符我在用python gnupg https pythonhosted org python gnupg 对此文件进行加密由
如何指定一个变量作为类或类实例的成员变量？

在最新的 Python 2 7 x 中给定类定义内的任何成员变量该成员变量是否始终处于类级别因为它是由该类的所有实例共享的单个变量在类的定义中如何指定类定义中的哪些成员变量属于该类因此由该类的所有实例共享以及哪些属于该类的
如何获取所有Python标准库模块的列表？

我想要类似的东西sys builtin module names标准库除外其他不起作用的事情 sys modules 只显示已经加载的模块 sys prefix 包含非标准库模块并且似乎无法在 virtualenv 内工作的路径我想要这
在 pip 中为 Flask 应用程序构建 docker 映像失败

from alpine latest RUN apk add no cache python3 dev pip3 install upgrade pip WORKDIR backend COPY backend RUN pip no cac

随机推荐

使用斯坦福 CoreNLP 解决共指问题 - 无法加载解析器模型

我想做一项非常简单的工作给定一个包含代词的字符串我想解析它们例如我想把这句话 Mary has a Littlelamb She is Cute 在玛丽有一只小羊羔玛丽很可爱中我尝试过使用斯坦福 CoreNLP 但是我似乎
如何使用 jQuery 检测 URL 更改

jQuery 如何检测 url 的更改例如如果用户转到某个页面site com faq 没有任何显示但如果他去site com faq openjquery 检测到它并执行某些操作尝试这个 window on hashchange
为什么 dplyr 的 top_n() 不起作用？

我有一个名为的数据框df City State Price Dogs Portland OR 75 1 Portland OR 100 3 San Diego CA 12 4 San Diego CA 23 5 I used dplyr s
在 Blazor wasm 中自动将访问令牌附加到 HTTP 客户端

我正在为我的 Blazor wasm 应用程序使用开放 id 连接身份提供程序并且希望将访问令牌附加到 http 客户端如中所述this https learn microsoft com en us aspnet core blazo
无法连接相机服务

我正在尝试访问手机上的相机在将代码放入小部件之前我正在编写一个简单的存根应用程序我还没有走多远代码总是抛出运行时异常无法连接到相机服务错误的代码从公共软件示例中截取是 Override public void onResum
Oracle - 删除重复项

我发现了以下删除重复项的方法 DELETE FROM table name A WHERE a rowid gt ANY SELECT B rowid FROM table name B WHERE A col1 B col1 AND A
如何将 D3.js 与 Angular 2 的渲染器 API 集成

我已成功将 Angular 2 Alpha 44 与 D3 js 集成
如何在 C# Windows 应用程序中获取网格的列值？

如何在 C Windows 应用程序中获取网格的列值当我单击单元格时它应该获得列值 private void gridAgentDetails Click object sender EventArgs e for int i 0 i
使用 React-Modal (react js) 传递 Props (img url )

我需要将图像 url 传递给 React js 中的模态就像单击 imgae 附件中的项目时它会显示带有所选项目图像的模式但它无法通过传递 img item document 显示我的图像数据下面是我的代码 DepositRec
Tensorflow @tf.function - 无法在 Tensorflow 图形函数内获取会话

我正在尝试将 tf function 指令与 Keras 功能 API 结合使用在简单神经网络的训练步骤中创建 TF 图我使用的是与 Python 3 7 一起安装的 Tensorflow v 2 1 0 但是我得到了标题中所示的运行
为什么我无法创建 TSubclassOf<> 以在 SpawnActor() 函数中使用？

我正在 UE4 中制作激光标签游戏但使用 TSubclassOf 时遇到很多困难首先我在 LaserTagCharacter h 文件中声明 LaserClass 如下所示我还创建了一个名为 OnFire 的函数当玩家使用 Fir
kotlinCompilerVersion 已弃用

我刚刚使用 Empty Compose Activity Android Studio 2020 3 1 Canary 14 模板启动了一个新的 Jetpack Compose 项目但我在我的应用程序中收到以下警告build gradle
从 rake 任务访问 Rails 模型

如何从 Rails rake 任务访问模型对象如果我初始化我的 rufus 调度程序 scheduler Rufus Scheduler start new在我的 rake 中调度程序会保持活动状态因为它来自 rake 任务吗要在
如何在不在 RoR 上运行的小型项目中将 HAML 文件自动编译为 HTML 文件？

我今天才开始玩compass and haml 虽然我对路很熟悉sass有效我明白了什么compass is for sass以及如何使用它在使用时我遇到了一些障碍haml有效率的当然我希望这里有人已经知道我的问题的答案并且可以给
表单提交mailto

我有一个小问题我正在为 iPhone 开发 html css javascript 应用程序并且我有一个提交邮件的表单例如
WPF DataGrid 删除所选项目

最近我一直在开发一个项目该项目以编程方式将数据导入到 WPF DataGrid 中我几乎完成了该项目但我遗漏的是一个用于删除所选单元格的按钮这就是我陷入困境的地方我使用 DataGrid 的基本知识编写了这段代码 var gri
使用 Python 从 URL 中提取 id

我有一个这样的网址url https www example com contents 6641345 我想提取id在最后的url你可以说interger上面字符串的一部分我尝试了提供的解决方案https stackoverflow co
如何从通用对话框类中获取数据

我决定创建一些自定义对话框类这些类可以由不同情况下的不同活动通用具体来说我创建了一个对话框其中包含一个 EditText 框和一个如下标题 public class EditTextDialogFragment extends Di
通过动态链接和手动设置增强单元测试框架

我正在尝试设置一个具有动态链接和手动设置的 boost 单元测试框架不是 BOOST AUTO TEST CASE 我做了一个简单的例子来重现我的错误 SomeLib cpp define BOOST TEST DYN LINK incl
使用 joblib.dump 保存和加载经过训练的 GradientBoostingClassifier

我正在尝试使用 joblib dump 使用以下代码保存经过训练的 GradientBoostingClassifier use 90 of training data NI int len X tr 0 9 I1 np random ch

使用 joblib.dump 保存和加载经过训练的 GradientBoostingClassifier

使用 joblib.dump 保存和加载经过训练的 GradientBoostingClassifier 的相关文章

随机推荐

热门标签