Dropout network, DropConnect network

2023-05-16

Notations

  • input v v v
  • output r r r
  • weight parameter W ∈ R d × m W \in \mathbb{R}^{d \times m} WRd×m
  • activation function a a a
  • mask m m m for vector and M M M for matrix

Dropout

  • Randomly set activations of each layer to zero with probability 1 − p 1-p 1p.
    r = m ∘ a ( W v ) , r = m \circ a(Wv), r=ma(Wv),
    m j ∼ Bernoulli ( p ) m_j \sim \text{\small Bernoulli}(p) mjBernoulli(p).
  • As many activation functions have the property that a ( 0 ) = 0 ) a(0)=0) a(0)=0), we have
    r = a ( m ∘ W v ) . r = a(m \circ Wv). r=a(mWv).

DropConnect

  • Randomly set the weight of each layer to zero with probability 1 − p 1-p 1p.
    r = a ( M ∘ W v ) , r = a(M \circ Wv), r=a(MWv),
    M i j ∼ Bernoulli ( p ) M_{ij} \sim \text{\small Bernoulli}(p) MijBernoulli(p).
  • Each M i j M_{ij} Mij is drawn independently for each example during training.
    The memory requirement for M M M's grows with the size of each mini-batch, and therefore, the implementation needs to be carefully designed.
  • overall model f ( x ; θ , M ) f(x;\theta,M) f(x;θ,M), where θ = { W g , W , W s } \theta = \{W_g,W,W_s\} θ={Wg,W,Ws}
    o = E M [ f ( x ; θ , M ) ] = ∑ M p ( M ) f ( x ; θ , M ) = 1 ∣ M ∣ ∑ M s ( a ( M ∘ W ) v ) ; W s ) if  p = 0.5 \begin{aligned} o=\mathbb{E}_M[f(x;\theta,M)]&=\sum_M p(M) f(x;\theta,M)\\ &=\frac{1}{|M|}\sum_M s(a(M \circ W) v); W_s) \quad \text{if } p = 0.5 \end{aligned} o=EM[f(x;θ,M)]=Mp(M)f(x;θ,M)=M1Ms(a(MW)v);Ws)if p=0.5
  • inference (test stage)
    r = 1 ∣ M ∣ ∑ M a ( ( M ∘ W ) v ) ) r ≈ 1 Z ∑ z = 1 Z r z ≈ 1 Z ∑ z = 1 Z a ( u z ) , \begin{aligned} r&=\frac{1}{|M|} \sum_M a((M \circ W)v))\\ r&\approx \frac{1}{Z} \sum_{z=1}^Z r_z \\ &\approx \frac{1}{Z} \sum_{z=1}^Z a(u_z), \end{aligned} rr=M1Ma((MW)v))Z1z=1ZrzZ1z=1Za(uz),
    where u z ∼ N ( p W v , p ( 1 − p ) ( W ∘ W ) ( v ∘ v ) u_z \sim \mathcal{N}(pWv,p(1-p)(W \circ W)(v \circ v) uzN(pWv,p(1p)(WW)(vv); Z Z Z denotes the number of randoml samples drawn from the Gaussian distribution.
    Idea: approximate a sum of weighted Bernoulli random variables by a Gaussian random variable. Partially supported by the central limit theorem.

局限性 \textcolor{red}{\text{\small 局限性}} 局限性:
Both techniques are suitable for fully connected layers only.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Dropout network, DropConnect network 的相关文章

  • Host文件

    linux中 etc目录 配置文件 etc目录包含了系统特有的配置文件 所谓配置文件 就是用于控制程序运行的本地文件 它绝大多情况下都说 只读 的私有文件 而且是可编辑的 这里的可编辑是指能直接看懂的 所以那些二进制可执行文件是不能作为配置
  • services端口列表(from Nmap)

    This list of services is from the Nmap security scanner http www insecure org nmap For a HUGE list of services including
  • 机器学习——Dropout原理介绍

    一 引言 因为在机器学习的一些模型中 如果模型的参数太多 而训练样本又太少的话 这样训练出来的模型很容易产生过拟合现象 在训练bp网络时经常遇到的一个问题 过拟合指的是模型在训练数据上损失函数比较小 预测准确率较高 如果通过画图来表示的话
  • Ubuntu9.04双网卡配置

    新手没怎么用过Ubuntu 所以走了不少弯路 网上找了很多方法 大都没对我起到帮助作用 所以把自己的配置方法写一写 环境 VPC2007SP1 Ubuntu9 04 Ubuntu上连了两块网卡 eth0为外网的eth1为内网的 VPC的特点
  • Socket错误代码对应表(转)

    提示 在命令提示符下输入 net helpmsg 1xxxx就能够得到Windows系统提供的错误提示的详细解释 出现网络联机错误Socket error 11001 表示您的计算机无法连上服务器 请检查您的Proxy设定以及Proxy相关
  • 关于connect: network is unreachable 问题的解决

    由于发现原创文章 在未署名作者及出处的情况下被转载 在以后所有的原创文章开头我都会写明作者和出处 希望朋友们以后在转载本博客原创博文时注意标明文章作者及出处 作者 liukun321 咕唧咕唧 原文出处 http blog csdn net
  • Wireshark的两种过滤器与BPF过滤规则

    Wirshark使用的关键就在于过滤出想要的数据包 下面介绍怎么过滤 抓包过滤器 Wirshark有两种过滤器 一个是抓包过滤器 一个是显示过滤器 他们之间的区别在于抓包过滤器只抓取你设置的规则 同时丢弃其他信息 显示过滤器并不会丢弃信息
  • openssl生成椭圆曲线的私钥是如何做到每次不同的?

    目录 例子 排查 随机算法 小结 例子 生成一个私钥只需要3步 1 获得指定曲线的group 如比特币的secp256k1 2 group和key绑定 3 用key来生成私钥 先上一段代码例子 key1 EC KEY new if key1
  • [libuv]uv_loop_close和uv_stop的区别

    作者 玄冬Wong uv loop close 是释放掉uv loop t 指针相关的资源 uv stop 是退出当初由uv run 运行的正在阻塞中的逻辑 当程序完全退出需要清理全部uv相关的资源时 具体清理方式如下 1 这里假设你在函数
  • OpenBSD cvsup更新

    安装了 OpenBSD 后你会发现它很小个 只有500多M 当然里面只有ssh sendmail功能 dev wd0a 130M 38 8M 84 7M 31 dev wd0h 95 5G 16 0K 90 8G 0 home dev wd
  • 认识VLAN,并学会VLAN的划分和网络配置实例

    VLAN的划分和网络的配置实例 1 VLAN基础知识 VLAN Virtual Local Area Network 的中文名为 虚拟局域网 注意和 VPN 虚拟专用网 进行区分 VLAN是一种将局域网设备从逻辑上划分 不是从物理上划分 成
  • 对于Linux中errno使用的问题

    最近在网络编程使用的过程中 发现errno会经常使用 因此决定在此做个留用 以备以后使用 虽然errno是非线程安全的 但是可以通过几种机制保证其安全 最近在使用的过程中获得了errno 程序无法执行 也不知道如何解决问题 因此 理解每一个
  • 0.0.0.0,localhost,127.0.0.0的区别

    一 0 0 0 0 不同场景不同意思 在服务器中 0 0 0 0表示本机上的任意ip地址 比如本机有内外网两个ip 那么当服务A开通0 0 0 0的访问后 通过两个ip都可以访问服务A 比如 3306端口监听在127 0 0 1 只有本机客
  • SOCKS 5协议详解  

    SOCKS 5协议详解 笔者在实际学习中 由于在有些软件用到了socks5 如oicq icq等 对其原理不 甚了解 相信很多朋友对其也不是很了解 于是仔细研读了一下rfc1928 觉得有必要 译出来供大家参考 1 介绍 防火墙的使用 有效
  • NetWork——关于TCP协议的三次握手和四次挥手

    0 准备知识 1 ACK TCP协议规定只有ACK 1时有效 也规定连接建立后所有发送的报文的ACK必须为1 2 SYN 在连接建立时用来同步序号 当SYN 1而ACK 0时 表明这是一个连接请求报文 对方若同意建立连接 则应在响应报文中使
  • 关于端口协议Up down的一点理解

    在处理网络障碍的时候 经常需要查看端口的状态 端口所配协议的状态 使用一些常用的工具里投入ping等命令进行测试 然后大家有没有发现 路由器或者三层交换机针对于广域网的端口的查看和以太网的端口查看包括ping等有很大区别 在此将自己的理解概
  • 计算机网络——拥塞控制(1)

    1 拥塞 congestion 当过多的包在网络缓冲区中竞争某个相同链路时 队列会溢出丢包 当这种丢包成为普通事件时 则称网络发生拥塞 简单概述就是对聚合带宽的需求超过了链路的可用容量 1 1 产生原因 宏观原因 网络资源分布不均匀 流量分
  • Chrome 和 Chromium 区别

    Chromium Chromium 官网 https www chromium org Chromium 源码 https github com chromium chromium Chromium是谷歌的开源项目 由开源社区维护 拥有诸多
  • NAPI机制分析

    NAPI机制分析 NAPI 的核心在于 在一个繁忙网络 每次有网络数据包到达时 不需要都引发中断 因为高频率的中断可能会影响系统的整体效率 假象一个场景 我们此时使用标准的 100M 网卡 可能实际达到的接收速率为 80MBits s 而此
  • 在 pytorch 上使用 MC Dropout 测量不确定性

    我正在尝试在 Pytorch 上使用 Mc Dropout 实现贝叶斯 CNN 主要思想是 通过在测试时应用 dropout 并运行多次前向传递 您可以从各种不同的模型中获得预测 我发现了 Mc Dropout 的应用 但我真的不明白他们是

随机推荐