模型调参之网格搜索与随机搜索

2023-11-19

模型调参之网格搜索与随机搜索

网格搜索法（GridSearchCV）

GridSearchCV：GridSearchCV可以拆分成GridSearch和CV两部分，即网格搜素和交叉验证。GridSearch系统地遍历多种参数组合，通过交叉验证确定最佳效果参数。网格搜索是对参数进行搜索，在指定的参数范围内，按步长依次调整参数，利用调整的参在这里插入代码片数训练学习器，从所有的参数中找到在验证集上精度最高的参数，这也是一个训练和比较的过程。交叉验证根据cv参数的设置，设置为k折交叉验证，默认为5折。
Grid Search：网格搜素是一种调参手段，采用的是穷举搜索的方式，即在所有候选的参数选择中，通过循环遍历，尝试每一种可能性，表现最好的参数就是最终的结果。其原理类似于在数组中找最大值。
适用情况：网格搜索法适用于三四个（或者更少）的超参数。
缺点：对于大数据集和多参数的情况，计算代价非常非常大，面临维度灾难。
参数说明：
class sklearn.model_selection.GridSearchCV(estimator, param_grid, *, scoring=None, n_jobs=None, refit=True, cv=None, verbose=0, pre_dispatch='2*n_jobs', error_score=nan, return_train_score=False)

estimator：选择使用的分类器，并且传入除需要确定最佳的参数之外的其他参数。
param_grid：需要最优化的参数取值，值为字典或者列表。
scoring=None：模型评价标准，默认None；根据所选模型不同，评价准则不同。比如scoring=”accuracy”或者scoring='roc_auc’等。如果是None，则使用estimator的误差估计函数。
n_jobs：进程个数，默认为1。若值为 -1，则用所有的CPU进行运算。若值为1，则不进行并行运算，这样的话方便调试。
refit=True：默认为True,程序将会以交叉验证训练集得到的最佳参数，重新对所有可用的训练集与开发集进行，作为最终用于性能评估的最佳模型参数。即在搜索参数结束后，用最佳参数结果再次fit一遍全部数据集。如果scoring参数有多个值，refit必须指定其中一种评价指标。
cv=None：交叉验证参数，默认None，使用五折交叉验证。
verbose=0：verbose：日志冗长度，0：不输出训练过程，1：偶尔输出，>1：对每个子模型都输出。
pre_dispatch=‘2*n_jobs’：指定总共分发的并行任务数。当n_jobs大于1时，数据将在每个运行点进行复制，这可能导致OOM，而设置pre_dispatch参数，则可以预先划分总共的job数量，使数据最多被复制pre_dispatch次
return_train_score=False：默认为FALSE，cv_results_属性将不包括训练分数。也可设置为‘warn’

示例：

from sklearn.model_selection import GridSearchCV 
from sklearn.datasets import load_iris 
from sklearn.svm import SVC 
from sklearn.model_selection import train_test_split 
#把要调整的参数以及其候选值 列出来； 
param_grid = {"gamma":[0.001,0.01,0.1,1,10,100], 
             "C":[0.001,0.01,0.1,1,10,100]} 
print("Parameters:{}".format(param_grid)) 
 
grid_search = GridSearchCV(SVC(),param_grid,cv=5) #实例化一个GridSearchCV类 
X_train,X_test,y_train,y_test = train_test_split(iris.data,iris.target,random_state=10) 
grid_search.fit(X_train,y_train) #训练，找到最优的参数，同时使用最优的参数实例化一个新的SVC estimator。 
print("Test set score:{:.2f}".format(grid_search.score(X_test,y_test))) 
print("Best parameters:{}".format(grid_search.best_params_)) 
print("Best score on train set:{:.2f}".format(grid_search.best_score_))

随机搜索（RandomizedSearchCV）

原理：随机搜索并未尝试所有参数值，而是从指定的分布中采样固定数量的参数设置。它的理论依据是，如果随机样本点集足够大，那么也可以找到全局的最大或最小值，或它们的近似值。通过对搜索范围的随机取样，随机搜索一般会比网格搜索要快一些。但是和网格搜索的快速版（非自动版）相似，结果也是没法保证的。
RandomizedSearchCV的使用方法其实是和GridSearchCV一致的，但它以随机在参数空间中采样的方式代替了GridSearchCV对于参数的网格搜索，在对于有连续变量的参数时，RandomizedSearchCV会将其当做一个分布进行采样进行这是网格搜索做不到的，它的搜索能力取决于设定的n_iter参数。
RandomSearchCV的搜索策略如下：

对于搜索范围是distribution的超参数，根据给定的distribution随机采样；
对于搜索范围是list的超参数，在给定的list中等概率采样；
对a、b两步中得到的n_iter组采样结果，进行遍历。
如果给定的搜索范围均为list，则不放回抽样n_iter次。

适用情况：

数据规模大，精确的结果难以在一定时间计算出。
结果的些许的不精确能够被接受。
求取的结果是最优化（optimization）问题，有一个成本计算模型

参数说明：
class sklearn.model_selection.RandomizedSearchCV(estimator, param_distributions, *, n_iter=10, scoring=None, n_jobs=None, refit=True, cv=None, verbose=0, pre_dispatch='2*n_jobs', random_state=None, error_score=nan, return_train_score=False)
参数和GridSearchCV类似。
示例：

from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import uniform
iris = load_iris()
logistic = LogisticRegression(solver='saga', tol=1e-2, max_iter=200,
...                               random_state=0)
distributions = dict(C=uniform(loc=0, scale=4),
...                      penalty=['l2', 'l1'])
clf = RandomizedSearchCV(logistic, distributions, random_state=0)
search = clf.fit(iris.data, iris.target)
search.best_params_
{'C': 2..., 'penalty': 'l1'}

随机搜索和网格搜索对比

相较于网格搜索，随机搜索的速度更快，精度稍微提升或降。
当超参数的搜索空间很大时，更推荐使用RandomizedSearchCV。
使用随机搜索方法的难点在于确定参数的分布范围，这需要对所使用的模型有足够的了解。

使用多种评估指标

cross_validate

from sklearn.model_selection import cross_validate 
from sklearn.metrics import recall_score 
scoring = ['precision_macro', 'recall_macro'] 
clf = svm.SVC(kernel='linear', C=1, random_state=0) 
scores = cross_validate(clf, iris.data, iris.target, scoring=scoring) 
sorted(scores.keys())

在网格搜索中使用多种评估指标

scoring = {'AUC': 'roc_auc', 'Accuracy': make_scorer(accuracy_score)} 
 
# Setting refit='AUC', refits an estimator on the whole dataset with the 
# parameter setting that has the best cross-validated AUC score. 
gs = GridSearchCV(DecisionTreeClassifier(random_state=42), 
                  param_grid={'min_samples_split': range(2, 403, 10)}, 
                  scoring=scoring, refit='AUC', return_train_score=True) 
gs.fit(X, y) 
results = gs.cv_results_

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据建模

模型调参之网格搜索与随机搜索的相关文章

数据仓库主题一（宽表模型设计）

一典型的数据仓库建模思想一般主流分为两种第一种 ER模型是数据仓库之父父 Bill lnmon 提出的建模方法是从全企业的高度设计 3NF 模型用实体关系 Entity Relationship ER 模型描述企业业务在范式理论上
数仓建模宽表设计

一宽表的设计其实宽表是数仓里面非常重要的一块前面我们介绍过了维度表事实表今天我们介绍一下宽表前面我们说过了数仓是分层的这是技术进步和时代变化相结合的产物数仓的分层式为了更好地管理数仓以及更加高效地进行数据开发宽表主要出现在d
SSAS的入门介绍

一是什么 SSAS是用于SQLServer数据库用于BI的组件通过SSAS可以创建多维数据库并在之上进行数据挖掘操作本文我们主要介绍一些关于SSAS数据分析的知识接下来就让我们来一起了解一下吧商业智能提供的解决方案能够从多种数据
构建用户画像-标签体系

用户画像是目前在技术公司广泛使用的技术是根据客户人口统计信息社交关系偏好习惯和消费行为等信息而抽象出来的标签化画像常常用在精准营销圈定人群发送短信消息 APP弹窗等等用户画像的准确性往往会直接影响到运营的效果和获客成本用户画
高性能Spark作业调优

在大数据计算领域 Spark已经成为了越来越流行越来越受欢迎的计算平台之一 Spark的功能涵盖了大数据领域的离线批处理 SQL类处理流式实时计算机器学习图计算等各种不同类型的计算操作应用范围与前景非常广泛在美团点评已经有很
SaaS 系统完全开源介绍

平台简介芋道以开发者为中心打造中国第一流的快速开发平台全部开源个人与企业可 100 免费使用架构图管理后台的 Vue3 版本采用 vue element plus admin Vue2 版本采用 vue element adm
数据仓库主题九-（事务事实表）

事务事实表对于单事务事实表一个业务过程建立一个事实表只反映一个业务过程的事实对于多事务事实表在同一个事实表中反映多个业务过程多个业务过程是否放到同一个事实表中订单作为交易行为的核心载体直接反应了交易的状况订单的流转回产生很
听说渲影很便宜，是真的吗？

这次我比较了3个平台炫云渲影和渲染100 首先说结论渲影是很便宜但也没便宜过渲染100 而且出图大小有猫腻具体的往下看首先我选取了一个219M的场景不是很大设置的分辨率是3200 4000 提交3个平台的时候选择的参数也一样
数据分析时，进行数据建模该如何筛选关键特征？

1 为什么要做关键特征筛选在数据量与日俱增的时代我们收集到的数据越来越多能运用到数据分析挖掘的数据也逐渐丰富起来但同时我们也面临着如何从庞大的数据中筛选出与我们业务息息相关的数据大背景从数据中挖掘潜在的规律辅助我们在实际业务
数据仓库指标体系实践

指标体系 1 痛点分析主要从业务技术产品三个视角来看业务视角业务分析场景指标维度不明确频繁的需求变更和反复迭代数据报表臃肿数据参差不齐用户分析具体业务问题找数据核对确认数据成本较高技术视角指标定义指标命名混乱指
原子指标和衍生/派生指标

按照个人的理解不加任何修饰词的指标就是原子指标也叫度量一般存在于olap表中例如订单量用户量的等等而在原子指标上进行加减乘除或者修饰词的限定等等都是派生指标衍生派生指标原子指标时间周期修饰词例如近7天订单量近7天
阿里大数据之路：数据模型篇大总结

第1章大数据领域建模综 1 1 为什么需要数据建模有结构地分类组织和存储是我们面临的一个挑战数据模型强调从业务数据存取和使用角度合理存储数据数据模型方法以便在性能成本效率之间取得最佳平衡成本良好的数据模型能极大地减少不必
大数据开发：数仓建模常见数据模型

在数据仓库搭建的过程当中根据需求合理地选择数据模型是非常关键的一个环节对于数仓建模很多人说不就是建表吗哪有那么复杂事实上这是非常错误的思想今天的大数据开发分享我们来聊聊数仓建模常见的几种数据模型目前来说市场上主流的数据
数据仓库模型设计V2.0

一数仓建模的意义数据模型就是数据组织和存储方法它强调从业务数据存取和使用角度合理存储数据只有将数据有序的组织和存储起来之后数据才能得到高性能低成本高效率高质量的使用高性能良好的数据模型能够帮助我们快速查询所需要的数据
详解用户画像

01画像简介用户画像即用户信息标签化通过收集用户的社会属性消费习惯偏好特征等各个维度的数据进而对用户或者产品特征属性进行刻画并对这些特征进行分析统计挖掘潜在价值信息从而抽象出用户的信息全貌如图1 1所示用户画像可看作
基于宽表的数据建模

一业务背景 1 1 数据建模现状互联网企业往往存在多个产品线每天源源不断产出大量数据这些数据服务于数据分析师业务上的产品经理运营数据开发人员等各角色为了满足这些角色的各种需求业界传统数仓常采用的是经典分层模型的数仓架构从
数据仓库主题三-（实施篇）

背景如何从具体的需求或项目转换为可实施的解决方案如何进行需求分析架构设计详细模型设计等则是模型实施过程中讨论的内容业界常用两种数据仓库建设模型思想分为两种kimball和inmon模型具体的kimball和inmon 模型思想
第四讲系统建模方法

系统建模一般流程实际系统的分析方法大致类似但对于实际系统的模型实现方式则有多种 1 面向方程图框的因果建模基于图框进行系统模型实现的软件很多如Simulink AMESim 应用于控制领域等 2 面向对象非因果的物理建模
模型调参之网格搜索与随机搜索

模型调参之网格搜索与随机搜索网格搜索法 GridSearchCV GridSearchCV GridSearchCV可以拆分成GridSearch和CV两部分即网格搜素和交叉验证 GridSearch系统地遍历多种参数组合通过交叉验证
Spark SQL 项目：实现各区域热门商品前N统计

一需求1 1 需求简介这里的热门商品是从点击量的维度来看的计算各个区域前三大热门商品并备注上每个商品在主要城市中的分布比例超过两个城市用其他显示 1 2 思路分析使用 sql 来完成碰到复杂的需求可以使用 udf 或 udaf查

随机推荐

Linux内核内存管理算法Buddy和Slab

文章目录 Buddy分配器 CMA Slab分配器总结 Buddy分配器假设这是一段连续的页框阴影部分表示已经被使用的页框现在需要申请一个连续的5个页框这个时候在这段内存上不能找到连续的5个空闲的页框就会去另一段内存上去寻找5
AtCoder Beginner Contest 169 B Multiplication 2 long long竟然不够用

AtCoder Beginner Contest 169 比赛人数11374 比赛开始后15分钟看到A题在比赛开始后第20分钟看到所有题 AtCoder Beginner Contest 169 B Multiplication 2 lo
OpenGL ES 2.0升级到3.0配置win32环境以及编译所遇bug

安装win32平台的OpenGL ES 3 0模拟器一安装3 0模拟器一般用32位的 https developer arm com products software development tools graphics devel
ctfshow-网络迷踪-初学再练（一座雕像判断军事基地名称）

ctf show 网络迷踪第4关题目中只有一座雕像需要根据雕像提交军事基地的名称推荐使用谷歌识图溯源到一篇博客答案就在文章标题中给了一座雕像看样子不像是国内的风格扔谷歌识图找找线索访问谷歌识图根据图片搜索 https w
kubernetes常见异常处理

一 kubernetes常见Pod异常状态的处理一一般排查方式无论 Pod 处于什么异常状态都可以执行以下命令来查看 Pod 的状态 kubectl get pod
拉格朗日乘数法

拉格朗日乘数法
attention（注意力机制）原理和pytorch demo

目录说明 RNN的局限性注意力机制原理注意力机制实现第一步编码第二步第0次打分并解码第三步第1次打分并解码 Demo链接和结果分析总结改进说明 demo源自吴恩达老师的课程从tensorflow修改为pytorch
Selenium成长之路-01如何开始学习

为什么最近要写selenium 是因为最近有不少同事问我关于selenium的问题所以觉得有必要来写一篇selenium 从环境搭建到框架构成都写出来也分享一下我的selenium的点点经验有不足之处欢迎吐槽学习selenium之
区块链技术是如何应用到版权维护上？

随着视频和音乐行业的迅速发展数字出版已经形成完整的产业链带来一些可观的收入但是也伴随侵权的现象发生那么区块链技术怎么运用到作品版权保护上呢 1 时间戳我们知道区块链有一个时间戳这个可信时间戳由权威机构签发能证明数据电文在一个
我的百度经验目录

百度经验目录进一步了解基于Mathematica的图像特征检测方法 http jingyan baidu com article a501d80c44a372ec630f5eb4 html 怎么把python代码打包成exe文件 http
Obsidian入门

这里讲一下Obsidian 一款支持markdown语法的笔记软件软件上手没有难度会基本的markdown语法可以直接使用但是Obsidian第三方库插件社区提供了近千种插件以及各种各样的主题可以帮助用户更好的使用它相信很多人都跟
Python 导出保存 MongoDB上数据到Excel(.xls和.csv)文件

Python 中使用MongoDB存储数据若需要导出数据到文件可以使用pandas或xlwings导出到Excel xls和 csv 文件本文主要介绍Python 中导出保存MongoDB上数据到Excel xls和 csv 文件的方
CVPR17(backbone) - ResNeXt : 引入网络设计中的新维度cardinality

文章目录原文地址论文阅读方法初识相知回顾代码论文全称 Aggregated Residual Transformations for Deep Neural Network 原文地址原文地址论文阅读方法三遍论文法初识
《一个操作系统的实现》读书笔记-- 第一章--最小的“操作系统”

一最简单的操作系统最最简单的操作系统就是一个最最简单的引导扇区 Boot Sector 虽然它不具有任何功能但是它却能够直接在裸机上运行不依赖其他软件一个引导扇区是512个字节并且以0xAA55为结束标识的扇区下面就是那
EIoU和Focal-EIoU Loss

1 论文论文题目 Focal and Efficient IOU Loss for Accurate Bounding Box Regression 2 引言 CIoU Loss虽然考虑了边界框回归的重叠面积中心点距离高宽比但是其公
第一章:宇宙第一IDE--Visual Studio

数据结构是指一种计算机存储组织数据的方式 IDE Integrated Development Environment 的缩写表示集成开发环境它是一种用于提供程序开发环境的应用程序一般包括代码编辑器编译器调试工具和图形化用户
Java调用exe程序

String exePath D Xftp6 Xftp exe BufferedReader br null BufferedReader brError String line null try String cmd D Xftp6 Xf
MATLAB函数句柄

1 何为函数句柄函数句柄也是MATLAB中的一种常见的数据类型它的地位类似于其它计算机语言里的函数对象 Javascript Python 函数指针 C 或者函数引用 Perl 它的作用是将一个函数封装成一个变量使其能够像其它变量一样
【NLP】自然语言处理技术在自动生成足球比赛战报上的应用

1 背景介绍自动生成新闻看似是一个很成熟的技术很多年前就有各种应用但是深入了解后我们可以发现机器自动生成的文章一般都是复述一些数字和简单的趋势变化所以自动生成新闻的技术广泛应用在金融体育领域原因就是这类报道需要基于一定的事实而
模型调参之网格搜索与随机搜索

模型调参之网格搜索与随机搜索网格搜索法 GridSearchCV GridSearchCV GridSearchCV可以拆分成GridSearch和CV两部分即网格搜素和交叉验证 GridSearch系统地遍历多种参数组合通过交叉验证

模型调参之网格搜索与随机搜索

模型调参之网格搜索与随机搜索

模型调参之网格搜索与随机搜索 的相关文章

随机推荐

热门标签

模型调参之网格搜索与随机搜索的相关文章