深度学习与计算机视觉系列(8)_神经网络训练与注意点

2023-10-29

作者：寒小阳
时间：2016年1月。
出处：http://blog.csdn.net/han_xiaoyang/article/details/50521064
声明：版权所有，转载请联系作者并注明出处

1.训练

在前一节当中我们讨论了神经网络静态的部分：包括神经网络结构、神经元类型、数据部分、损失函数部分等。这个部分我们集中讲讲动态的部分，主要是训练的事情，集中在实际工程实践训练过程中要注意的一些点，如何找到最合适的参数。

1.1 关于梯度检验

之前的博文我们提到过，我们需要比对数值梯度和解析法求得的梯度，实际工程中这个过程非常容易出错，下面提一些小技巧和注意点：

使用中心化公式，这一点我们之前也说过，使用如下的数值梯度计算公式：
d f ( x ) d x = f ( x + h ) − f ( x − h ) 2 h (好的形式) \frac{df(x)}{dx} = \frac{f(x + h) - f(x - h)}{2h} \hspace{0.1in} \text{(好的形式)} dxdf(x)=2hf(x+h)−f(x−h)(好的形式)
而不是
d f ( x ) d x = f ( x + h ) − f ( x ) h (非中心化形式，不要用) \frac{df(x)}{dx} = \frac{f(x + h) - f(x)}{h} \hspace{0.1in} \text{(非中心化形式，不要用)} dxdf(x)=hf(x+h)−f(x)(非中心化形式，不要用)
即使看似上面的形式有着2倍的计算量，但是如果你有兴趣用把公式中的 f ( x + h ) f(x+h) f(x+h)和 f ( x − h ) f(x-h) f(x−h)做泰勒展开的话，你会发现上面公式出错率大概是 O ( h 2 ) O(h^2) O(h2)级别的，而下面公式则是 O ( h ) O(h) O(h)，注意到h是很小的数，因此显然上面的公式要精准得多。

使用相对误差做比较，这是实际工程中需要提到的另外一点，在我们得到数值梯度

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

计算机视觉

深度学习与计算机视觉

深度学习

神经网络

训练

深度学习与计算机视觉系列(8)_神经网络训练与注意点的相关文章

【人工智能】“AI + 算力 = 最强龙头”，你怎么看？

文章目录一 AI 与算力相辅相成 1 1 AI 和算力的概念 1 2 AI 和算力的应用领域 1 3 AI 需要算力的支持 1 4 AI 和算力的结合带来的巨大价值 1 4 1 人脸识别 1 4 2 语音识别 1 4 3 自动驾驶 1 4
webgl的shader系列（6）——phong光照模型和blinphong光照模型

比较好的一篇理解phong光照模型的文章 const VSHADER varying vec3 v Normal varying vec3 v position void main gl Position projectionMatrix

随机推荐

设计分享

vx 嵌入式工程师成长日记 https mp weixin qq com s biz Mzg4Mzc3NDUxOQ mid 2247484124 idx 1 sn 9fcf9eb8581b2190cc84bfeeb6ef32e3 chksm
解决eclipse运行服务器时被占用的问题

Several ports 8005 8080 required by Tomcat v9 0 Server at localhost 2 are already in use The server may already be runni
双重 for 循环-打印五行五列星星,打印n行n列的星星

1 一行打印五颗星星 var num prompt 请输入星星的个数 var str for var i 1 i lt num i str str console log str 2 打印五行五列星星 var str for var i 1
微信小程序实现车牌键盘

一效果图二代码 plateNumKeyboard wxml
鼠标滑过div背景变色，内部标签变色。

鼠标滑过div变色 div hover background D1EEFC 内部a标签也变色 div hover a color 66C4FF
【R作图】lattice包，画多个分布柱形图，hist图纵轴转换为百分比

一开始用lattice包感觉在多元数据的可视化方面确实做得非常好各种函数可以实现任何想要实现的展示 barchart y x y对x的直方图 bwplot y x 盒形图 densityplot x 密度函数图 dotplot y
Matlab绘图图例legend 太长，怎么减小指示线的长度

来源绘图时稍微减小文字已经不能正常放下图例想通过调整图例指示线段长度缩减整个图例长度方法一参考matlab官方论坛 leg legend Plot1 Plot2 leg ItemTokenSize x1 x2 By default
java之IO流总结及图解

java之IO流总结及图解 IO流字节流字节输入流 InputStream int read 一次读取一个字节 int read byte bys 一次读取一个字节数组
VisionOn 一款集流程图、思维导图、白板于一体的轻量级在线制图工具

Vision On 一款集流程图思维导图白板于一体的轻量级在线图形工具在工作和学习过程中通过可视化的图形有助于清晰高效地表达我们的灵感想法思想工欲善其事必先利其器目前思维导图软件已经有 Xmind Mindnode M
【转载】亚信科技亮相中国高速公路信息化大会，与云南云通数联达成战略合作

3月30至31日我国交通行业颇具影响力的第25届中国高速公路信息化大会暨技术产品博览会在福州市海峡国际会展中心盛大举办数百家产业链企业齐聚共谋高速公路数智化发展亚信科技携系列数智化创新成果亮相展会大会期间亚信科技南京有限公
jQuery 的设置属性值，和获取属性值，attr()和prop()；

jQuery 的设置属性值和获取属性值 attr 和prop attr 属性获取属性值 attr 属性属性值设置属性的属性值 prop 属性获取属性值 prop 属性属性值设置属性的属性值两者的区别 attr可以获得和定义自
Chrome 89 更新 js 事件触发顺序，导致99%的文章都错了（包括MDN）

大家好我是秋风嗯我又来了这次又是在楠溪和的讨论中产生的问题那事情是怎么样的呢起因最近楠溪在看事件相关的文章然后就跑来和我讨论说以下代码的执行效果和网上的文章不一致代码如下 div div
verdaccio内网离线搭建npm私有仓库

使用场景前端项目的编译运行开发中报下载经常出错项目场景通常我们前端项目开发搭建过程中通过npm管理前端js库新建项目或内网开发过程中经常出现环境搭建的问题例如常见错误Failed at the chromedriver 2 37
QT学习一：利用QT QAxObject读取Excel表格数据的两种方法比较

目录 QAxObject QVariant 1 逐单元格读取表格内容 2 一次性读取工作表使用范围利用QT的 QAxObject读取Excel表格数据的两种方法比较完整的QT源码到此下载 ReadExcel rar 嵌入式文档类资源 C
计算机视觉与深度学习-经典网络解析-VGG-[北邮鲁鹏]

目录标题 VGG 参考 VGG网络贡献使用尺寸更小的 3 times 3 卷积串联来获得更大的感受野放弃使用 11 times 11 和 5 times 5 这样的大尺寸卷积核深度更深非线性更强网络的参数也更少去掉了AlexNe
黑马并发编程JUC总结

并发编程总结1 并发编程 2 进程和线程 2 1定义 2 2并发和并行 2 3应用异步调用并发应用 3 java线程 3 1线程创建创建线程方法1 创建方法2 Thread和Runable的区别创建方法3 3 2线程运行 3 3线程
[Coursera 数字图像和视频处理基础]第一周

开始跟Coursera上的数字图像和视频处理基础这门课这次学习笔记记录下第一周的学习内容第一周的内容很少介绍了一些非常基础的知识概括如下并且记录了最后的答题作业课程主页截图 1 模拟VS数字信号首先是信号的定义我搜了一点资料
稠密连接网络（DenseNet）

ResNet极大地改变了如何参数化深层网络中函数的观点稠密连接网络 DenseNet Huang et al 2017 在某种程度上是ResNet的逻辑扩展让我们先从数学上了解一下 1 从ResNet到DenseNet 回想一下任意函数
python: 字典 (dict) 的使用

摘要在刷 leecode 的题目时会经常使用哈希表在 python 中称为字典 dict 由于本人平时不怎么多使用字典在真正运用时经常忘记其常规用法特别是其成员函数的使用因此本人根据自己在刷 leecode 时经常使用字典的方
深度学习与计算机视觉系列(8)_神经网络训练与注意点

作者寒小阳时间 2016年1月出处 http blog csdn net han xiaoyang article details 50521064 声明版权所有转载请联系作者并注明出处 1 训练在前一节当中我们讨论了神经网络静

热门标签