使用 gridsearchcv 的内存泄漏

2024-03-02

Problem:我的情况似乎是运行 gridsearchcv 时出现内存泄漏。当我运行 1 或 32 个并发工作线程 (n_jobs=-1) 时，会发生这种情况。以前我在 ubuntu 16.04 上运行过多次，没有出现任何问题，但最近升级到 18.04 并进行了 ram 升级。

import os
import pickle
from xgboost import XGBClassifier
from sklearn.model_selection import GridSearchCV,StratifiedKFold,train_test_split
from sklearn.calibration import CalibratedClassifierCV
from sklearn.metrics import make_scorer,log_loss
from horsebet import performance
scorer = make_scorer(log_loss,greater_is_better=True)
kfold = StratifiedKFold(n_splits=3)

# import and split data
input_vectors = pickle.load(open(os.path.join('horsebet','data','x_normalized'),'rb'))
output_vector = pickle.load(open(os.path.join('horsebet','data','y'),'rb')).ravel()
x_train,x_test,y_train,y_test = train_test_split(input_vectors,output_vector,test_size=0.2)


# XGB
model = XGBClassifier()
param = {
        'booster':['gbtree'],
        'tree_method':['hist'],
       'objective':['binary:logistic'],
        'n_estimators':[100,500],
        'min_child_weight': [.8,1],
        'gamma': [1,3],
        'subsample': [0.1,.4,1.0],
        'colsample_bytree': [1.0],
        'max_depth': [10,20],
        }                           

jobs = 8
model = GridSearchCV(model,param_grid=param,cv=kfold,scoring=scorer,pre_dispatch=jobs*2,n_jobs=jobs,verbose=5).fit(x_train,y_train)

Returns:用户警告：当一些工作被分配给执行者时，工作人员停止了。这可能是由于工作超时太短或内存泄漏造成的。 “超时或内存泄漏。”，UserWarning

TermatedWorkerError：执行程序管理的工作进程意外终止。这可能是由于调用函数时出现分段错误或内存使用过多导致操作系统杀死工作线程造成的。工作线程的退出代码为 {SIGKILL(-9)}

我的问题的原因是我将 n_jobs=-1 放入 gridsearchcv 中，而它应该放在分类器中。这已经解决了这个问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 gridsearchcv 的内存泄漏的相关文章

使用 OpenMP 编译会导致内存泄漏

根据 valgrind 的说法使用 OpenMP 编译简单的 hello world 程序时可能会导致内存泄漏这是没有意义的因为 hello world 程序并没有有意使用任何 OpenMP 功能假设下面的程序名为hi c并根据 g
NET/COM 互操作的 ref string[] 内存泄漏

我最近发现一个非常奇怪的对我来说内存泄漏IEnumString http msdn microsoft com en us library ms693735 28VS 85 29 aspxC 使用的 COM 对象具体来说使用已包含先
将预训练的手套词嵌入与 scikit-learn 结合使用

我已经使用 keras 来使用预先训练的词嵌入但我不太确定如何在 scikit learn 模型上执行此操作我也需要在 sklearn 中执行此操作因为我正在使用vecstack集成 keras 序列模型和 sklearn 模型这就
视觉检漏仪不报告泄漏

我对使用 Visual Studio 2013 有点陌生正在尝试让 Visual Leak Detector 版本 2 3 正常工作以便我可以检查我的项目是否存在内存泄漏我已经安装并添加了 C Program Files x86 Vi
Python 上每个系数具有特定约束的多元线性回归

我目前正在数据集上运行多元线性回归起初我没有意识到我需要限制自己的体重事实上我需要有特定的正权重和负权重更准确地说我正在做一个评分系统这就是为什么我的一些变量应该对音符产生积极或消极的影响然而当运行我的模型时结果不符合我
为什么最后一个关闭的 MDI 子窗体没有被垃圾回收？

我们的应用程序中存在内存泄漏问题我已成功通过以下简单示例复制了其中一个问题复制设置 1 创建以下辅助类用于跟踪对象创建销毁 public class TestObject public static int Count get se
在 Python 中使用 mca 包

我正在尝试使用MCA 套餐 https github com esafak mca blob master docs usage rst在Python中进行多重对应分析我对如何使用它有点困惑和PCA我希望fit一些数据即找到这些数据的
使用 scikit 包在 Python 中绘制集群区域的边界

这是我处理 3 个属性 x y 值中的数据聚类的简单示例每个样本代表其位置 x y 及其所属变量我的代码发布在这里 x np arange 100 200 1 y np arange 100 200 1 value np random
Delphi 5 的哈希表实现 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案您知道 Delphi 5 的良好且免费的哈希表实现吗我需要在哈希表中组织大量数据并且我有点担心在网
如何指定聚类的距离函数？

我想对给定距离的点进行聚类奇怪的是似乎 scipy 和 sklearn 聚类方法都不允许指定距离函数例如在sklearn cluster AgglomerativeClustering 我唯一可以做的就是输入一个亲和力矩阵这将非常
内存调试：如何获取 Linux 用户空间/内核空间中的锁定页面信息

有什么方法可以获取Linux用户空间内核空间中的锁定页面虚拟内存页面信息我想了解详细信息例如谁锁定了页面有多少页被锁定进程名称谁锁定了页面还让我了解内核空间和用户空间的内存调试技术对于内存中的每个页面都会为其分配标志
Sklearn 随机 Logistic 回归给出错误“ValueError：类的数量必须大于 1”

我发现了 sklearn Randomized Logistic 中的一个错误由于我花了很长时间才解决它所以我会将其发布在这里以防其他人遇到同样的问题发生的情况是在格式完美的数据上 sklearn RandomizedLogist
Python sklearn 多标签分类：用户警告：所有训练示例中都存在标签不是 226

我正在尝试多标签分类问题我的数据看起来像这样 DocID Content Tags 1 some text here 70 2 some text here 59 3 some text here 183 4 some text here
具有定制损失函数的随机森林

我是机器学习领域的初学者对于一个项目我必须在随机森林分类中使用自定义损失函数到目前为止我一直使用 scikit 通过 scikit 实现这一点的建议会更有帮助损失函数分类树中的基尼杂质和熵在 scikit 的 tree pyx
sklearn LogisticRegressionCV 是否使用最终模型的所有数据

我想知道sklearn中LogisticRegressionCV的最终模型即决策边界是如何计算的假设我有一些 Xdata 和 ylabels Xdata shape of this is n samples n features yl
这是内存泄漏还是误报？

这是我的代码 import java io BufferedReader import java io FileNotFoundException import java io FileReader import java util Sca
sklearn 中的 pca.inverse_transform

将我的数据拟合后 X 我的数据 pca PCA n components 1 pca fit X X pca pca fit transform X 现在 X pca 具有一维当我根据定义执行逆变换时它不是应该返回原始数据即 X 二维
精度类型

使用 keras 库获得的精度如下 model compile optimizer sgd loss mse metrics tf keras metrics Precision sklearn 计算出的哪种精度与 keras 计算出的精度
使用 Google Cloud Datastore Python 库时应如何调查内存泄漏？

我有一个使用 Google 数据存储的网络应用程序在发出足够的请求后内存不足我已将范围缩小到数据存储查询下面提供了最低 PoC 稍长的版本 https gist github com edeca 214d7a7c51f84b9c2dc
分类报告 - 精度和 F 分数定义不明确

我从 sklearn metrics 导入了classification report 当我输入我的np arrays作为参数我收到以下错误 usr local lib python3 6 dist packages sklearn met

随机推荐

.NET 使用错误的 2.0 machine.config 而不是 4.0

我在 IIS 7 0 Windows Server 2008 R1 上安装了 NET Web 应用程序我已在服务器上安装了 NET 4 0 并为 4 0 配置了应用程序池和集成管道由于某种原因我收到以下错误 500 19 The co
通过三种方法计算 CCA

我最近研究了 CCA 的概念并想在 MATLAB 中实现它但是有一个现有的 matlab 命令佳能 http in mathworks com help stats canoncorr html展示我想编写自己的代码我对其进行了广泛
SQL 如何根据现有列的计数为新列创建值？

我有一个正在读取的临时表我想查看只有两个等级值的列之一 3 或 4 并构建两个新列一个保存 3 的计数和另一个用于保存 4 的计数按特定分组我的代码看起来像这样 Select Max Counting as Total studen
使用 VPC 配置添加 AWS Lambda 导致访问 S3 时超时

我尝试从 AWS Lambda 访问 S3 和 VPC 上的资源但由于我将 AWS Lambda 配置为访问 VPC 因此访问 S3 时超时这是代码 from future import print function import bo
单元测试覆盖调用 super() 的方法

我试图找出为重写方法编写单元测试的最佳方法该方法调用 super 作为最后一步基本上我想在基类中使用参数之前对其进行处理下面是一个方法的示例 Override public JobExecution run Job job JobP
如果没有尾部斜杠，Nginx 会导致 301 重定向

我在使用 NAT 的虚拟机中运行 nginx 当我从主机访问它时遇到重定向问题按预期工作 http localhost 8080 test index htm works http localhost 8080 test works 没有
Java 中有标准的 Option 或 Nullable 类吗？

Nullable C 的含义有点不同但无论如何Option 斯卡拉和Nullable可以用来表达有价值或无价值的概念例如当您想在字符串中查找子字符串时最好返回 Option Int 在 Scala 中而不是晦涩难懂的 1 作
如何使用dispatchEvent提交无按钮表单

如果我有一个无按钮的表单并且我想测试可能的 onsubmit 函数是否返回 true 然后提交它这是我当前的代码运行良好 var form document getElementById form var evt document c
替换 PHP 数组键中的子字符串

假设您有一个像这样的 PHP 数组来自 mysqli 查询 array user id gt 1 user name gt User user email gt email protected cdn cgi l email protec
将类名添加到 uibinder xml 文件中的元素

以下内容替换任何当前的 css 类名称看来是叫setStyleName
如何使用 xquery update 将节点内的文本转换为子节点？

我有一个 xml 文档例如
检查模拟对象的类类型

我正在测试一个方法该方法获取一个对象并检查该对象是否是存储为实例变量的类的实例到目前为止没有问题但在测试中我必须使用模拟并且这些模拟之一是传递给该方法的对象而现在事情变得棘手了我们看一下代码我总结了本次测试的代码 Class
如何在VBA中的公式中插入变量

有人能解决这个问题吗 Sub test Dim i as integer For I 1 to 10 ActiveCell Offset 0 2 Formula Sum E15 i Next I End Sub 你的实际目标不清楚你可能想
编辑字典列表中的值？

my dicts key1 value1 key2 value2 key1 value1 key2 value2 key1 value1 key2 value2 将 value2 的所有实例替换为 value3 的最有效方法是什么我没有做
TDE 启用对数据库性能有何影响？

如果我在数据库上使用透明数据加密会对数据库性能产生任何影响吗这会导致数据库索引出现问题吗有些人已经对此进行了测试参见here http www databasejournal com features mssql article p
跨行对 Pandas 数据框进行分组

我有一个这样的csv client1 client2 client3 client4 client5 client6 amount Comp1 4 475000 Comp2 16 305584 Comp3 4 050000 Comp2 Co
Android 上的电子邮件活动

我想从 Android 虚拟机发送电子邮件到我的 Gmail 帐户问题但是按下发送按钮后我得到没有应用程序可以执行此操作这是我的代码 Intent sendIntent new Intent Intent ACTION SEND s
GWT 中自动登录的会话和 Cookie

我知道已经有很多问题了但我似乎仍然没有找到明确的答案我想要做的是让用户在登录两周后或直到他们注销之前被记住以下是我认为应该发生的事情我想知道是否有更多经验的人可以告诉我我是对还是错用户首次登录对服务器的 RPC 调用返回一个 U
如何发布c# windows应用程序安装程序

我正在尝试发布 C Windows 应用程序我尝试安装 Shield 和 Visual Studio 安装程序但它无法正常工作此安装程序只能安装在安装了 Visual Studio 的笔记本电脑或 PC 上谁能帮助我需要什么先决条件
使用 gridsearchcv 的内存泄漏

Problem 我的情况似乎是运行 gridsearchcv 时出现内存泄漏当我运行 1 或 32 个并发工作线程 n jobs 1 时会发生这种情况以前我在 ubuntu 16 04 上运行过多次没有出现任何问题但最近升级到 1

使用 gridsearchcv 的内存泄漏

使用 gridsearchcv 的内存泄漏 的相关文章

随机推荐

热门标签

使用 gridsearchcv 的内存泄漏的相关文章