使用贝叶斯优化的深度学习结构的超参数优化

2024-04-07

我为原始信号分类任务构建了 CLDNN（卷积、LSTM、深度神经网络）结构。

每个训练周期运行约 90 秒，超参数似乎很难优化。

我一直在研究优化超参数的各种方法（例如随机或网格搜索）并发现了贝叶斯优化。

虽然我还没有完全理解优化算法，但我认为它会对我有很大帮助。

我想问一些关于优化任务的问题。

如何针对深度网络设置贝叶斯优化？（我们尝试优化的成本函数是什么？）
我想优化的功能是什么？是N个epoch后验证集的成本吗？
留兰香是这项任务的良好起点吗？对于这项任务还有其他建议吗？

我将非常感谢任何对此问题的见解。

虽然我还没有完全理解优化算法，我喜欢它会对我有很大帮助。

首先，我先简单介绍一下这一部分。贝叶斯优化方法旨在处理探索与利用的权衡多臂老虎机问题 https://en.wikipedia.org/wiki/Multi-armed_bandit。在这个问题中，有一个unknown函数，我们可以在任何点进行评估，但每次评估都会产生成本（直接惩罚或机会成本），目标是使用尽可能少的试验找到其最大值。基本上，权衡是这样的：你知道有限点集中的函数（其中一些是好的，一些是坏的），所以你可以尝试当前局部最大值周围的区域，希望能够改进它（利用），或者你可以尝试一个全新的空间区域，这可能会好得多，也可能会差得多（探索），或者介于两者之间。

贝叶斯优化方法（例如 PI、EI、UCB）使用高斯过程 https://en.wikipedia.org/wiki/Gaussian_process（GP），并在每一步根据 GP 模型选择最“有前途”的点（请注意，“有前途”可以通过不同的特定方法进行不同的定义）。

这是一个例子：

真正的函数是f(x) = x * sin(x)（黑色曲线）开启[-10, 10]间隔。红点代表每次试验，红色曲线是GPmean，蓝色曲线是平均值加或减一标准差。正如您所看到的，GP 模型并不与所有地方的真实函数匹配，但优化器很快就识别出了周围的“热门”区域-8并开始利用它。

如何设置关于深度的贝叶斯优化网络？

在这种情况下，空间由（可能经过变换的）超参数定义，通常是多维单位超立方体。

例如，假设您有三个超参数：学习率α in [0.001, 0.01]，正则化器λ in [0.1, 1]（都是连续的）和隐藏层大小N in [50..100]（整数）。优化空间是一个3维立方体[0, 1]*[0, 1]*[0, 1]。每个点(p0, p1, p2)在这个立方体中对应于一个三位一体(α, λ, N)通过以下变换：

p0 -> α = 10**(p0-3)
p1 -> λ = 10**(p1-1)
p2 -> N = int(p2*50 + 50)

我想优化的功能是什么？是不是成本 N epoch 后的验证集？

正确，目标函数是神经网络验证准确性。显然，每次评估都是昂贵的，因为它至少需要几个时期的训练。

另请注意，目标函数是随机，即对同一点的两次评估可能略有不同，但这并不是贝叶斯优化的障碍，尽管它明显增加了不确定性。

留兰香是这项任务的良好起点吗？任何其他对这项任务的建议？

薄荷 https://github.com/kuz/caffe-with-spearmint是一个很好的库，你绝对可以使用它。我也可以推荐hyperopt http://hyperopt.github.io/hyperopt/.

在我自己的研究中，我最终编写了自己的小型库，基本上有两个原因：我想编写精确的贝叶斯方法来使用（特别是，我发现了一个投资组合策略 https://arxiv.org/pdf/1009.5419.pdf在我的例子中，UCB 和 PI 的收敛速度比其他任何东西都快）；另外还有另一种技术可以节省高达 50% 的训练时间，称为学习曲线预测 http://aad.informatik.uni-freiburg.de/papers/15-IJCAI-Extrapolation_of_Learning_Curves.pdf（这个想法是当优化器确信模型的学习速度不如其他领域时跳过完整的学习周期）。我不知道有任何库实现了这个，所以我自己编码了它，最终它得到了回报。如果您有兴趣，代码是在 GitHub 上 https://github.com/maxim5/hyper-engine.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用贝叶斯优化的深度学习结构的超参数优化的相关文章

JAGS 中的柯西先验

我正在使用 rJAGS 构建多级贝叶斯模型并且我想为我的几个参数指定柯西先验有没有办法在 JAGS 中做到这一点或者我需要切换到 STAN 吗我的 JAGS 模型如下我想更换dnorm柯西分布但 JAGS 找不到标准R柯西分布
tf.keras.utils.image_dataset_from_directory，但标签来自 csv？

请告诉我哪里出错了我正在研究 Kaggle 狗品种分类挑战我想尝试 one hot 编码与标签编码图像未在图像目录中拆分因此我无法将推断与 tf keras utils image dataset from directory
随机梯度下降可以与 TensorFlow 一起使用吗？

我设计了一个全连接 MLP 具有 2 个隐藏层和 1 个输出层如果我使用批量或小批量梯度下降我会得到一个很好的学习曲线 But a straight line while performing Stochastic Gradient D
Keras 中的 Tensorflow 自定义损失函数 - 张量循环

我正在尝试在 Keras 中编写自定义损失函数如下所示 Keras 中的自定义损失函数 https stackoverflow com questions 43818584 custom loss function in keras 我的
在 TensorFlow 中对伯努利随机变量进行采样

给定一个包含伯努利分布均值的一维张量如何使用给定的均值对相应的一维张量进行采样 TensorFlow 似乎只有random normal and random uniform实现的功能我可以使用一些复杂的东西例如 tf ceil tf
应定义密集层输入的最后一个维度。没有找到。收到完整的输入形状：<未知>

我在将模型从一些本地虚拟数据切换到使用 TF 数据集时遇到问题抱歉模型代码太长我已尝试尽可能缩短它以下工作正常 import tensorflow as tf import tensorflow recommenders as tfr
Tensorflow无法分配设备进行操作

我正在尝试跑步NVidia 脸部生成器演示 https github com tkarras progressive growing of gans在我的电脑上我使用的是 Windows 10 我已经下载了源代码并尝试按照页面下方的步骤
如何在 Windows 上的 Python 2.7 上安装 Tensorflow？

我尝试通过 pip 安装 TensorFlow pip install tensorflow 但是得到这个错误找不到满足tensorflow要求的版本来自版本这个问题有解决办法吗我还是想通过pip安装如果您只因为 Keras 而需
用于预乘 ARGB 的 SSE alpha 混合

我正在尝试编写一个支持 SSE 的 alpha 合成器这就是我想出的首先混合两个 4 像素向量的代码 alpha blend two 128 bit 16 byte SSE vectors containing 4 pre multi
当我想在电脑中加载该模型时，我可以在 colab bu 中加载我的深度模型，但我不能

我在colab中通过keras 2 3 1和tensorflow 2 1 0训练了一个深度模型我用JSON和Keras保存了我的模型 saveWeightPath content drive My Drive model info mod
无法满足显式设备规范“/device:GPU:0”，因为没有匹配的设备

我想在我的 Ubuntu 14 04 机器上使用 TensorFlow 0 12 作为 GPU 但是当将设备分配给节点时我收到以下错误 InvalidArgumentError see above for traceback Canno
如何在Pycharm中运行Tensorflow GPU？

我想在 Linux Mint 上的 Pycharm 中运行 Tensorflow GPU 我尝试了一些像这样的指南 https medium com p venkata kishore install anaconda tenserflow
在 Pytorch 中估计高斯模型的混合

我实际上想估计一个以高斯混合作为基本分布的归一化流所以我有点被火炬困住了但是您可以通过估计 torch 中高斯模型的混合来在代码中重现我的错误我的代码如下 import numpy as np import matplotlib p
分布式张量流 tf.train.SyncReplicasOptimizer 似乎不同步

我使用两个工作程序副本和一个参数服务器喜欢 ps hosts hosta com 2222 worker hosts hosta com 2223 hostb com 2223 使用tf train SyncReplicasOptimi
在 Tensorflow 2.0 中的简单 LSTM 层之上添加 Attention

我有一个由一个 LSTM 和两个 Dense 层组成的简单网络如下所示 model tf keras Sequential model add layers LSTM 20 input shape train X shape 1 trai
支持向量机或人工神经网络进行文本处理？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案对于某些文本处理项目我们需要在支持向量机和快速人工神经网络之间做出选择它包括上下文拼写纠正然后将文本标记为某些短语及其同义词哪种方
Keras 序列模型中的数据增强层

我正在尝试将数据增强作为一个层添加到模型中但我遇到了我认为是形状问题我也尝试在增强层中指定输入形状当我取出data augmentation模型中的图层运行良好 preprocessing RandomFlip horizontal
如何将one-hot向量转换为多标签？

我有一项多分类任务并且我得到了像这样的单热类型预测 0 1 1 0 1 0 1 0 1 我希望将这个单热向量转换为标签例如 1 2 1 0 2 我已经尝试过 tf argmax 但它不起作用那么我该如何处理呢使用列表理解 oheLi
Keras 中的损失函数和度量有什么区别？ [复制]

这个问题在这里已经有答案了我不清楚 Keras 中损失函数和指标之间的区别该文档对我没有帮助损失函数用于优化您的模型这是优化器将最小化的函数指标用于判断模型的性能这仅供您查看与优化过程无关
Scikit Learn - K-Means - 肘部 - 标准

今天我想学习一些关于 K means 的知识我已经了解该算法并且知道它是如何工作的现在我正在寻找正确的 k 我发现肘部准则作为检测正确的 k 的方法但我不明白如何将它与 scikit learn 一起使用在 scikit learn

随机推荐

JavaScript 访问父对象属性

我在 JS 中遇到一个小问题我有两个嵌套对象我想从父对象访问一个变量如下所示 var parent a 5 child b 3 displayA function console log this a undefined displa
iOS 中的本地通知没有任何声音

void notifyMe UILocalNotification localNotification UILocalNotification alloc init localNotification fireDate NSDate dat
Git：父提交比后代提交年轻？

我正在浏览http arago project org git projects linux omap3 git http arago project org git projects linux omap3 gitrepo 并遇到了一个奇
MASM0015; Web服务HandlerTubeFactory异常

我正在尝试创建一个可以调用另一个的网络服务链我已经创建了第一个服务并成功部署在 weblogic12c 上当第一个 Web 服务尝试调用外部 Web 服务时出现以下异常 notifyAbout WSTestOuter outer ne
使用 javascript 加载部分 html

在我的网站上我加载在服务器 nodejs 上呈现的 html 并将其插入到正确的位置大多数情况下是带有 id 内容的 div 如何在客户端插入接收到的 html 以便执行包含的脚本标记我在客户端使用下划线和把手但 vanillajs
为什么GK110有192个核心和4个扭曲？

我想感受一下开普勒的架构但这对我来说没有意义如果一个 warp 有 32 个线程其中 4 个被调度执行则意味着 128 个核心正在使用 64 个核心处于空闲状态白皮书中提到了独立指令那么64核是为这些指令保留的吗如果是这样
如何从此类图像中删除背景？

我想删除该图像的背景以仅获取人物我有数千张这样的图像基本上是一个人和一个有点发白的背景我所做的是使用边缘检测器例如 canny 边缘检测器或索贝尔滤波器来自skimage图书馆然后我认为可以做的是将边缘内的像素变白并将边缘外
如何在 React + Babel 中允许异步函数？

我有一个 Typescript React 应用程序它可以使用 then catch Promise 执行异步函数但不能使用 async await try catch 执行异步函数错误是 Uncaught ReferenceErro
使用 Visual Studio 查找 C++ 应用程序中的内存泄漏

在Linux中我一直使用valgrind来检查应用程序中是否存在内存泄漏 Windows 中的等效项是什么这可以用 Visual Studio 2010 来完成吗 Visual Studio 2019 有一个不错的内存分析工具它可以在
jpql“加入获取”与 EntityGraph

我想使用 jpql 或 jpa 实体图加载相关实体看起来两者都做同样的事情我为什么要使用实体图而不是普通的jpql 有什么好处吗使用jpql有什么区别 select distinct u from User u join fetch
无法从“node_modules\react-native-gesture-handler\createHandler.js”解析“fbjs/lib/areEqual”

我正在使用 expo 构建一个反应本机应用程序但是我有一个错误因此我无法继续构建该应用程序我什至在错误消息中提到的node modules 中查找了文件我正在使用 React native gesture handler 进行屏幕
快速引导大量分层数据的策略以及在任何记录发生更改时更新 Elasticsearch 中的单个分层 json 文档的方法

根据业务场景来自 2 个关系表最好是多个表例如 6 7 的列必须合并到单个分层 json 文档中以用于 Elasticsearch 上的单个索引如下面示例文档中所述样本文件员工及联系信息 id 1 name tom john
如何在 TypeORM 查找选项中设置 IS NULL 条件？

在我的查询中我使用 TypeORMfind选项我怎样才能拥有IS NULL条件在where clause 如果有人正在寻找 NOT NULL 它会是这样的 import IsNull Not from typeorm return awa
AWS CloudWatch 未使用的自定义指标保留和定价 - 2018 年

如果我理解正确的话自定义指标似乎将保留 15 个月因为根据数据它们会聚合为更高分辨率https aws amazon com cloudwatch faqs https aws amazon com cloudwatch faqs 这
正则表达式匹配未完成

我曾经有过一次回答了一个问题 https stackoverflow com a 17723854 882200关于将带引号的字符串与转义引号匹配似乎有些情况会在 NET 上挂起并在 Mono 上崩溃带有OutOfMemoryExcep
使用描述符进行类型提示

In 这个拉取请求 https github com python mypy pull 2266看起来添加了对描述符的类型提示支持然而似乎没有发布最终的正确用法示例也没有添加任何文档到typing module https doc
C# htmlagilitypack，捕获重定向

大家好这真的很简单我希望我正在使用 htmlagility pack 进行网络爬虫那么如果我输入 url 然后将我定向到新的 url 会发生什么情况如何捕获该新的重定向 URL 如果 htmlagilitypack 没有办法有
登录 GCP 和本地

我正在构建一个旨在在 Google Cloud Platform 中的虚拟机上运行的系统但是作为一种备份形式它也可以在本地运行话虽这么说我目前的问题是日志记录我有两个记录器都可以工作一个本地记录器和一个云记录器云记录器 i
在 FTP 上上传文件

我想将文件从一台服务器上传到另一台 FTP 服务器以下是我上传文件的代码但它抛出错误远程服务器返回错误 550 文件不可用例如未找到文件无法访问这是我的代码 string CompleteDPath ftp URL strin
使用贝叶斯优化的深度学习结构的超参数优化

我为原始信号分类任务构建了 CLDNN 卷积 LSTM 深度神经网络结构每个训练周期运行约 90 秒超参数似乎很难优化我一直在研究优化超参数的各种方法例如随机或网格搜索并发现了贝叶斯优化虽然我还没有完全理解优化算法但我认为它

使用贝叶斯优化的深度学习结构的超参数优化

使用贝叶斯优化的深度学习结构的超参数优化 的相关文章

随机推荐

热门标签

使用贝叶斯优化的深度学习结构的超参数优化的相关文章