【ML&DL】【skimming】Global Optimality in Neural Network Training

2023-11-20

补了一下2017年的CVPR,Global Optimality in Neural Network Training[1]

论文一览:

痛点

深度学习取得了很大的成功,但是对其成功原因的数学解释却还是一个难点。很大一个原因是对深度网络的参数学习是一个非凸的过程。而优化算法有陷入非global minima的可能。凸优化问题的局部极小值也是全局极小值,因此学习问题的凸公式通常更可取,因为它们有助于分析学习算法的性质。

传统的学习算法如线性回归,SVM的凸优化可以理解为如下:

其中l为损失函数,Y为真实label,Φ(X,S)为输出的预测,X为需要学习的模型参数,S为模型输入。而Θ(x)为正则化方程。凸优化需要这里的损失函数和正则化方程在X上是凸的。

然而实际上有许多学习算法,尤其是那些试图直接从数据中学习特征的适当表示的算法,比如PCB,张量分解,也包括Deep learning,需要解决的是非凸的优化问题。

如下图

Φ是自定义的凸破坏映射,比如深度网络中的多层Linear和Non-Linear层结构。

当前应对这种非凸问题的方法,包括(但不限于)交替最小化,梯度下降,随机梯度下降,块坐标下降,反向传播和拟牛顿法等。这些方法能够带我们收敛到模型的临界点集。这些临界点包含了global minima,local minima,saddle point和saddle plateaus,如图下:

实验观察的经验表明,当网络规模足够大且使用ReLU非线性时,所有局部最小值可能是全局的,但目前尚无严格的理论为这些实验观察到的现象提供精确的数学解释。而本文则证明了这一点,文章展示了当网络足够大,且Φ和Θ是相同度数的正齐次函数的总和,任何局部最小值(使其某些项为零)也是全局最小值。任何局部最小值是非凸因式分解问题的全局最小值,并且如果非凸因式分解问题是通过足够大的因数完成的,那么从任何可行的初始化中,总有可能使用纯局部下降算法找到全局最小化器。我们所熟知的ReLU和maxpooling是正齐次的,而sigmoid则不是,这可以解释为什么ReLU与maxpooling一起使用是带来的增益。

另外文章还指出,平衡网络映射和正则化函数之间的正齐次性程度对于防止现代神经网络体系结构的损失表面中出现非最优的局部最小值至关重要,这为网络体系结构和正则化器的设计提供了指导。

参考文献

[1] Haeffele B D, Vidal R. Global optimality in neural network training[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 7331-7339.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【ML&DL】【skimming】Global Optimality in Neural Network Training 的相关文章

随机推荐

  • ELM数据处理和调参经历 调参方法

    After I build the ELM model class I should find the best result for my data The most important thing to do is to process
  • Python 数据分析——Matplotlib相关知识

    Python 数据分析 Matplotlib相关知识 第五章 Matplotlib相关知识 样式 文章目录 Python 数据分析 Matplotlib相关知识 前言 一 matplotlib的绘图样式 style 1 matplotlib
  • 淘宝镜像使用方法

    淘宝镜像使用方法 方法一 临时使用 npm registry https registry npm taobao org install 依赖包 上面语句是临时使用淘宝镜像安装 依赖包 方法二 永久使用 npm config set reg
  • 啥是Redis的缓存穿透、缓存击穿和缓存雪崩

    Redis缓存穿透 缓存击穿和缓存雪崩都是缓存机制中的一些问题 具体解释如下 缓存穿透 Cache Penetration 指查询一个不存在的数据 由于缓存中没有数据 所以这个查询请求会直接穿过缓存层 到达数据库层 造成了数据库的压力 攻击
  • KVM虚拟化技术的-NUMA技术和应用

    NUMA技术是解决多CPU共同工作的技术方案 多CPU共同工作主要有3中架构 SMP Symmetric Multi Processor 非统一存储访问结构 NUMA Non Uniform Memory Access 以及海量并行处理结构
  • 初识Linux(五)--vsftp的安装及常见错误

    安装 可以到官方网站去下载 http vsftpd beasts org 也可以用光盘安装 RedHat 5的安盘里自带的 所以我选择光盘安装 1 先把光盘挂载到系统上 mount dev cdrom mnt 这样光盘的内容就被挂载到 mn
  • xss-labs-master过关心得

    xss labs master通关心得 xss漏洞详解 XSS原称为CSS Cross Site Scripting 因为和层叠样式表 Cascading Style Sheets 重名 所以改称为XSS X一般有未知的含义 还有扩展的含义
  • 【Linux】Makefile中打印宏定义

    因为Makefile的嵌套关系 导致Makefile中很多宏定义是看不到的 有时编译时 会报找不到XXX h头文件 如果头文件在其他路径下 此时需要将头文件在Makefile中进行包含 那么不可能包含全路径 因为如果工程路径变化了 又会报找
  • IOS开发系列——异步绘制专题

    异步绘制专题 1 图片处理 1 1 编辑图片的几个方法 第一种 先用UIImage对象加载一张图片 然后转化成CGImageRef放到CGContext中去编辑 第二种 用CGImageCreate函数创建CGImageRef 然后把CGI
  • 通过php://filter/read=convert.base64-encode/resource= 利用LFI来查看源码

    PHP LFI读php文件源码以及直接post webshell 假设如下一个场景 1 http vulnerable fileincl example1 php page intro php 该php文件包含LFI漏洞 2 但是你没有地方
  • numpy中的argpartition

    numpy argpartition a kth axis 1 kind introselect order None 在快排算法中 有一个典型的操作 partition 这个操作指 根据一个数值x 把数组中的元素划分成两半 使得index
  • 性能测试之Jmeter集合点

    01 计数器 计数器就是按照设置可以为每个用户迭代时进行计数 可以用作参数化 jmeter计数器设置 没勾选与每用户独立跟踪计数时 计数器每用户每迭代都会往上增加数字 到最大时可重新开始 勾选与每用户独立跟踪计数器时 每个线程也就是用户会单
  • 毕业设计-基于机器视觉的数字图像处理技术研究-OpenCV

    目录 前言 课题背景和意义 实现技术思路 一 基于OpenCV数据库的程序环境构建 二 基于OpenCV的图像技术处理 实现效果图样例 最后 前言 大四是整个大学期间最忙碌的时光 一边要忙着备考或实习为毕业后面临的就业升学做准备 一边要为毕
  • CentOS Linux服务器安全设置

    转自 http www osyunwei com archives 754 html 引言 我们必须明白 最小的权限 最少的服务 最大的安全 所以 无论是配置任何服务器 我们都必须把不用的服务关闭 把系统权限设置到最小话 这样才能保证服务器
  • 华为OD机试 - 最佳植树距离(Java)

    题目描述 按照环保公司要求 小明需要在沙化严重的地区进行植树防沙工作 初步目标是种植一条直线的树带 由于有些区域目前不适合种植树木 所以只能在一些可以种植的点来种植树木 在树苗有限的情况下 要达到最佳效果 就要尽量散开种植 不同树苗之间的最
  • Pandas基础知识入门

    Pandas是基于Numpy构建的含有更高级数据结构和工具的数据分析包 类似于Numpy的核心是ndarray pandas 也是围绕着 Series 和 DataFrame两个核心数据结构展开的 Series 和 DataFrame 分别
  • ALLEGRO等长时如何将PIN DELAY和VIA长度计算在内

    在PCB设计中 对于时序要求严格的线路 Via和IC pin delay的长度必须得到重视 通过下面的操作 可将Via和Pin delay加入到线路长度的计算中 1st 计算Pin delay 打开Constraint Manager 选择
  • c语言指针入门

    1 指针是什么 1 概念 指针是一种十分重要的数据类型 利用指针变量可以直接对内存中各种不同数据结构的数据进行 快速处理 2 指针与内存的关系 指针与内存有着密切的联系 为了正确理解指针的概念 必须弄清楚计算机系统中数 据存储和读取的方式
  • OSI与TCP/IP协议

    OSI七层模型 OSI7层模型分别是 物理层 数据链路层 网络层 传输层 会话层 表示层 应用层 数据的封装与解封装过程 OSI模型vsTCP IP模型 TCP IP协议族的组成 每层常见的协议 应用层的协议 HTTP协议 HTTPS协议
  • 【ML&DL】【skimming】Global Optimality in Neural Network Training

    补了一下2017年的CVPR Global Optimality in Neural Network Training 1 论文一览 痛点 深度学习取得了很大的成功 但是对其成功原因的数学解释却还是一个难点 很大一个原因是对深度网络的参数学